Web实时环境两级过滤中文文本内容自学习算法

计算机科学与探索 ›› 2011, Vol. 5 ›› Issue (8): 695-706.

Web实时环境两级过滤中文文本内容自学习算法

段磊, 唐常杰左劼, 彭京, 刘婷婷, 苟驰

1. 四川大学计算机学院, 成都 610065
2. 成都市公安局科技处, 成都 610017

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2011-08-01 发布日期:2011-08-01

Self-Study Algorithm for Filtering Chinese Text Content through Two Layers in Web Real-Time Environment

DUAN Lei, TANG Changjie, ZUO Jie, PENG Jing, LIU Tingting, GOU Chi

1. School of Computer Science, Sichuan University, Chengdu 610065, China
2. Department of Science & Technology, Chengdu Municipal Public Security Bureau, Chengdu 610017, China

Received:1900-01-01 Revised:1900-01-01 Online:2011-08-01 Published:2011-08-01

摘要/Abstract

摘要： 用户在互联网发布信息的自由性对Web信息内容过滤提出新的挑战。为此, 给出一种自学习的两级内容过滤算法SAFE (self-study algorithm of filtering Chinese text content)。SAFE以数据流的方式处理文本, 并根据Apriori性质, 在不依赖词典的情况下, 通过挖掘关键字和关键词实现对文档的两级内容过滤。利用真实世界Web文档验证了SAFE的有效性, 实验表明对给定的主题进行文本内容过滤, SAFE的查全率达到93.75%以上, 查准率达到100%, 执行时间能够满足Web应用的实时性要求。

关键词: 数据挖掘, 文本内容过滤, 关键词挖掘

Abstract: The publishing freedom of users on Internet poses new challenges in Web content filtering. This paper presents a self-study algorithm, called SAFE (self-study algorithm of filtering Chinese text content), for Chinese content filtering through two layers. It processes texts in the form of data stream. Based on Apriori property, SAFE filters Chinese text content through two layers by mining key characters and keywords without manual dictionary. The per-formance research of SAFE on the real-world data shows that for the given theme, the recall of SAFE is greater than 93.75% and the precision is 100%. The runtime of SAFE satisfies the real-time requirement of Web applications.

Key words: data mining, text content filtering, keywords mining

段磊, 唐常杰左劼, 彭京, 刘婷婷, 苟驰. Web实时环境两级过滤中文文本内容自学习算法[J]. 计算机科学与探索, 2011, 5(8): 695-706.

DUAN Lei, TANG Changjie, ZUO Jie, PENG Jing, LIU Tingting, GOU Chi. Self-Study Algorithm for Filtering Chinese Text Content through Two Layers in Web Real-Time Environment[J]. Journal of Frontiers of Computer Science and Technology, 2011, 5(8): 695-706.

[1]	孙冬璞, 曲丽. 时间序列特征表示与相似性度量研究综述[J]. 计算机科学与探索, 2021, 15(2): 195-205.
[2]	王光耀, 王丽珍, 杨培忠, 陈红梅. 极小负co-location模式及有效的挖掘算法[J]. 计算机科学与探索, 2021, 15(2): 366-378.
[3]	储传鑫，王丽珍，周丽华，李旭阳. 恶性肿瘤与工业污染之间的模糊关系挖掘[J]. 计算机科学与探索, 2020, 14(12): 2061-2071.
[4]	王素琴，吴子锐. 利用LSTM网络和课程关联分类的推荐模型[J]. 计算机科学与探索, 2019, 13(8): 1380-1389.
[5]	周凯文，杨智慧，马会心，何震瀛，荆一楠，王晓阳. 面向特定划分的主题模型的设计与实现[J]. 计算机科学与探索, 2018, 12(7): 1036-1046.
[6]	舒敏，刘华文，郑忠龙，徐晓丹. 结合局部敏感哈希和随机游走的异常检测算法[J]. 计算机科学与探索, 2018, 12(12): 1950-1960.
[7]	韩楠，乔少杰，李天瑞，宫兴伟，舒红平，元昌安. 面向复杂网络的中药方剂配伍规律挖掘算法[J]. 计算机科学与探索, 2017, 11(7): 1159-1165.
[8]	陆莉莉，张永潘，谈海宇，季一木. 大数据分类挖掘算法及其概念漂移应用研究[J]. 计算机科学与探索, 2016, 10(12): 1683-1692.
[9]	沈琰辉，刘华文，徐晓丹，赵建民，陈中育. 基于邻域离散度的异常点检测算法[J]. 计算机科学与探索, 2016, 10(12): 1763-1772.
[10]	李亚芳，贾彩燕，于剑. 应用非负矩阵分解模型的社区发现方法综述[J]. 计算机科学与探索, 2016, 10(1): 1-13.
[11]	王虹旭，吴斌，刘旸. 基于Spark的并行图数据分析系统[J]. 计算机科学与探索, 2015, 9(9): 1066-1074.
[12]	米允龙，米春桥，刘文奇. 海量数据挖掘过程相关技术研究进展[J]. 计算机科学与探索, 2015, 9(6): 641-659.
[13]	刘冶，印鉴，邓泽亚，王智圣，潘炎. 基于低秩和局部约束矩阵估计的链接预测方法[J]. 计算机科学与探索, 2015, 9(3): 279-291.
[14]	曹科研，王国仁，韩东红，李硕儒. 不确定数据流上Top-k异常点查询算法[J]. 计算机科学与探索, 2015, 9(2): 172-181.
[15]	魏秀参，慕鑫，杨杨 . 二次集成学习在医疗数据挖掘中的应用[J]. 计算机科学与探索, 2014, 8(9): 1113-1119.