• 学术研究 • 下一篇
冷强奎,李梓涵
LENG Qiangkui, LI Zihan
摘要: 类不平衡问题,作为分类任务中的一大挑战,源于训练数据集中多数类与少数类样本数量的显著失衡。这种不平衡性不仅影响分类器的泛化能力,还可能导致对少数类样本的识别精度大幅下降。过采样技术,尤其是SMOTE(合成过采样技术)及其变种方法,作为缓解此类问题的有效手段,通过生成额外的少数类样本来平衡数据集。然而,这些方法存在生成样本可能引入噪声、样本多样性不足以及未能充分关注边界区域等局限性。鉴于边界样本在分类决策中的关键作用及其易受分类器误判的特性,本文提出了一种创新的过采样策略,旨在精准识别边界样本,并在其周围生成高质量的新样本。该方法首先采用CFSFDP(密度峰值快速聚类)算法,凭借其识别局部密度峰值的能力,计算出每个少数类样本的局部密度,进而筛选出位于分类边界样本。随后,通过计算这些边界样本与其最近多数类样本之间的欧式距离,为每个边界样本定义一个合适的球形区域,该区域既涵盖了边界样本的潜在分布范围,又避免了与多数类样本的过度重叠。在确定了边界样本及其对应的球形区域后,本方法在该区域内随机生成新的合成样本。这一步骤不仅增加了少数类样本的多样性,还使得生成的样本更加贴近真实的边界分布,从而有助于分类器更好地学习少数类的复杂特征。为验证本文方法的有效性,我们将其与现有的九种过采样方法在32个真实世界的不平衡数据集上进行了全面比较。实验结果表明,本文提出的方法在多个评价指标上均表现出色。