计算机科学与探索 ›› 2017, Vol. 11 ›› Issue (5): 752-767.DOI: 10.3778/j.issn.1673-9418.1604022
张敬伟1,2,尚宏佳1,钱俊彦1,周 萍3,杨 青3+
ZHANG Jingwei1,2, SHANG Hongjia1, QIAN Junyan1, ZHOU Ping3, YANG Qing3+
摘要: MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性。