计算机科学与探索 ›› 2011, Vol. 5 ›› Issue (11): 1048-1056.
• 学术研究 • 上一篇
唐焕玲, 鲁明羽
TANG Huanling, LU Mingyu
摘要: 结合半监督学习和集成学习方法, 提出了一种基于置信度重取样的SemiBoost-CR分类模型。给出了基于标注近邻与未标注近邻的置信度计算公式, 按照置信度重采样, 不仅选取一定比例置信度较高的未标注样本, 而且选取一定比例置信度较低的未标注样本, 分别以不同的策略加入到已标注的训练样本集。引入置信度高的未标注样本, 用以提高基分类器的正确性(accuracy); 而引入置信度低的未标注样本, 目的则是进一步增加基分类器间的差异性(diversity)。对比实验表明, SemiBoost-CR分类模型能够有效提升Naive Bayesian文本分类器的性能。