• 学术研究 • 下一篇
任博, 董明刚, 于扬, 卢贤睿
REN Bo, DONG Minggang, YU Yang, LU Xianrui
摘要: 现实世界中许多图数据存在类别分布不平衡的问题,其通常表现在节点、边和图三个级别。常用的基于过采样的图级不平衡处理方法,因样本缺乏多样性,会导致模型过拟合。针对该问题,本文提出一种图潜向量分布学习的图过采样方法GLRD-GAN。首先,提出一种图潜向量分布学习方法,利用预训练的图变分自编码器(VGAE)和全连接神经网络学习少数类图样本在低维空间内的潜向量分布,在该分布上随机采样潜向量信息并与原少数类潜向量融合,保证了少数类潜向量的多样性。其次,设计了一种基于双解码器的图样本生成器,经预训练的内积解码器和图卷积解码器充分利用采样的潜向量来分别生成图数据的拓扑结构和节点特征。最后,通过GAN判别器检测生成样本的真伪和类别,监督生成样本的有效性,实现多样性的少数类图样本生成。在5个具有代表性的长尾图数据集上进行了对比实验和可视化观察,结果表明本文提出的基于图潜向量分布学习的图过采样方法在Acc和F1值上较其他方法平均高出1%-4%,且能够生成有效的少数类图样本。