计算机科学与探索 ›› 2011, Vol. 5 ›› Issue (10): 904-913.
景丽萍, 朱 岩, 于 剑
北京交通大学 计算机与信息技术学院, 北京 100044
JING Liping, ZHU Yan, YU Jian
摘要:
文本聚类的目标是把数据集中内容相似的文档归为一类, 而使内容不同的文档分开。目前针对不同领域的需求, 多种解决聚类问题的算法应运而生。然而, 由于文本数据本身固有的复杂特点, 如海量、高维、稀疏等, 使得对海量文本数据的聚类仍然是一个棘手的问题。提出了层次非负矩阵分解聚类方法, 该方法不但保留了非负矩阵分解的优点, 如同步识别文档类别和找出类别本质特征, 而且能够展现类别间的层次结构。这种类别层次结构在网页预览等应用中是非常有用的。在真实数据集20Newsgroups和Reuters-RCV1上的实验结果表明, 层次非负矩阵分解相比已有的方法更有效。