计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (5): 445-454.DOI: 10.3778/j.issn.1673-9418.2010.05.007
刘伍颖, 王 挺+
LIU Wuying, WANG Ting+
摘要: 通过用于垃圾文本流过滤的在线文本分类研究, 提出了一种新的条件概率集成方法。采用语汇序列表示文本, 使用索引结构存储分类知识, 设计实现了分类模型的在线训练算法和在线分类算法。抽取电子邮件和手机短信的多种文本特征, 分别在TREC07P电子邮件语料和真实中文手机短信语料上进行了垃圾信息过滤实验。实验结果表明, 提出的方法能够获得很好的垃圾信息过滤效果。
中图分类号: