计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (12): 1422-1431.DOI: 10.3778/j.issn.1673-9418.1405053
刘 恒,寇 月+,申德荣,王泰明,于 戈
LIU Heng, KOU Yue+, SHEN Derong, WANG Taiming, YU Ge
摘要: SimRank算法是一种常用的相似性度量模型,它基于图的拓扑结构信息来衡量任意两个对象之间的相似程度。随着数据规模的不断增大,集中式SimRank算法已不适用,而已有的分布式SimRank算法在运行效率和扩展性等方面存在缺陷。针对上述问题,提出了一种两阶段的基于随机游走路径的分布式SimRank算法。第一阶段基于BSP(bulk synchronous parallel)模型建立随机游走路径索引信息,支持新路径的动态添加,并通过阈值过滤尽可能减少生成路径的数量;第二阶段利用第一阶段生成的索引信息,提出了基于MapReduce的分布式SimRank算法。最后,通过实验验证了算法的可行性和有效性。