计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (9): 1113-1119.DOI: 10.3778/j.issn.1673-9418.1403064
魏秀参+,慕 鑫,杨 杨
WEI Xiushen+, MU Xin, YANG Yang
摘要: CCDM 2014数据挖掘竞赛基于医学诊断数据,提出了实际生活中广泛出现的多类标问题和多类分类问题。针对两个问题出现的类别不平衡现象以及训练样本较少等特点,为了更好地完成数据挖掘任务,借助二次学习和集成学习的思想,提出了一个新的学习框架——二次集成学习。该学习框架通过首次集成学习得到若干置信度较高的样本,将其加入到原始训练集,并在新的训练集上进行二次学习,进而得到泛化性能更高的分类器。竞赛结果表明,与常用的集成学习相比,二次集成学习在两个问题上均取得了非常理想的结果。