计算机科学与探索 ›› 2015, Vol. 9 ›› Issue (9): 1066-1074.DOI: 10.3778/j.issn.1673-9418.1411045
王虹旭+,吴 斌,刘 旸
WANG Hongxu+, WU Bin, LIU Yang
摘要: 提出了一种基于Spark云计算平台的并行数据分析系统。该系统以大规模图数据分析任务为主,并且支持非图数据分析的应用,集成数据分析算法集与非图数据分析算法集。详细阐述了该系统的架构设计,工作流引擎和动态组件更新技术以及部分并行数据分析算法的设计与实现。通过对多种规模的数据集进行性能测试,以及与传统的MapReduce平台进行性能对比,证明了该系统相对于以往的图数据挖掘系统可以更高效地完成计算任务,而且也可以有效进行非图数据分析。