计算机科学与探索 ›› 2009, Vol. 3 ›› Issue (4): 378-391.DOI: 10.3778/j.issn.1673-9418.2009.04.005
蔡元哲1,2,李 佩1,2,刘红岩3,何 军1,2+,杜小勇1,2
1. 中国人民大学 教育部数据工程和知识工程重点实验室,北京 100872
2. 中国人民大学 信息学院,北京 100872
3. 清华大学 管理科学与工程系,北京 100084
CAI Yuanzhe1,2, LI Pei1,2, LIU Hongyan3, HE Jun1,2+, DU Xiaoyong1,2
摘要: 文档的内容分析和连接分析是计算文档相似度的两种方法。连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果。为了解决这个问题,提出了一个新的算法—S-SimRank(Star-SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性。S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高。最后,给出了S-SimRank的收敛性的数学证明。