计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (7): 868-876.DOI: 10.3778/j.issn.1673-9418.1403056
郭虎升1,王文剑1,2+,白龙飞1
GUO Husheng1, WANG Wenjian1,2+, BAI Longfei1
摘要: 针对传统基于主动学习的支持向量机(support vector machine,SVM)方法中所采用的欧式距离不能有效衡量高维样本之间的相关程度,导致学习器泛化能力下降的问题,提出了一种基于向量余弦的支持向量机主动学习(SVM active learning based on vector cosine)策略,称为COS_SVMactive方法。该方法通过在主动学习过程中引入向量余弦来度量训练集中样本信息的冗余度,以挑选那些含有重要分类信息的最有价值样本交给专家进行人工标注,并在迭代的样本标注过程中对训练集的平衡度进行逐步调整,使学习器获得更好的泛化性能。实验结果表明,与传统基于随机采样的SVM主动学习方法(SVM active learning based on random sampling,RS_SVMactive)和基于距离的SVM主动学习方法(SVM active learning based on distance,DIS_SVMactive)相比,COS_SVMactive方法不仅可以提高分类精度,而且能够减少专家标记代价。