计算机科学与探索 ›› 2016, Vol. 10 ›› Issue (7): 901-914.DOI: 10.3778/j.issn.1673-9418.1509009
詹杭龙1,2,曹东刚1,2+,谢 冰1,2
ZHAN Hanglong1,2, CAO Donggang1,2+, XIE Bing1,2
摘要: 作为大数据处理的一种重要模式,图处理被广泛地应用在机器学习、数据统计和数据挖掘等场景中。在企业级应用中,多种类型的大数据处理框架通常会部署在同一个分布式集群中,其运行环境是开放、共享的,这时图处理需要考虑运算资源动态变化的问题。为了能适应这种动态性,更加充分地利用开放共享环境的资源,图处理框架应该具备弹性伸缩能力。通过调研,发现现有的图处理框架尚未完全实现弹性伸缩。为此,介绍了一种支持弹性伸缩的分布式并行图处理框架SParTaG。首先基于任务并行模型定义了图处理任务集及任务模型;其次基于任务迁移机制设计并实现了可动态伸缩的图处理框架;最后设计了一个基于负载均衡的调度算法,实现了动态伸缩的图处理过程。实验结果说明,SParTaG的性能与当前流行的开源图处理框架Giraph相近,且具有较好的弹性伸缩能力。