计算机科学与探索 ›› 2013, Vol. 7 ›› Issue (10): 933-941.DOI: 10.3778/j.issn.1673-9418.1305013
赵世琛1,王文剑1,2+,郭虎升1
ZHAO Shichen1, WANG Wenjian1,2+, GUO Husheng1
摘要: 在中文文本分类中,特征词的选择会严重影响文本分类的准确率。针对这一问题,提出了基于风险决策的文本特征选择方法,通过构造效用函数来评价文本中每个特征词对分类结果的效用值,再采用风险决策方法计算出每个特征词的损失期望,最终选择部分损失期望小的特征词以达到降维的目的。将该方法应用于中文垃圾邮件过滤与网页分类中,实验结果表明,该方法可以选取出对分类结果影响更大的特征词,使文本分类的各项指标明显提高。