计算机科学与探索 ›› 2011, Vol. 5 ›› Issue (8): 695-706.
段 磊, 唐常杰左 劼, 彭 京, 刘婷婷, 苟 驰
DUAN Lei, TANG Changjie, ZUO Jie, PENG Jing, LIU Tingting, GOU Chi
摘要: 用户在互联网发布信息的自由性对Web信息内容过滤提出新的挑战。为此, 给出一种自学习的两级内容过滤算法SAFE (self-study algorithm of filtering Chinese text content)。SAFE以数据流的方式处理文本, 并根据Apriori性质, 在不依赖词典的情况下, 通过挖掘关键字和关键词实现对文档的两级内容过滤。利用真实世界Web文档验证了SAFE的有效性, 实验表明对给定的主题进行文本内容过滤, SAFE的查全率达到93.75%以上, 查准率达到100%, 执行时间能够满足Web应用的实时性要求。