非均匀数据分布下的MapReduce连接查询算法优化

doi:10.3778/j.issn.1673-9418.1604022

计算机科学与探索 ›› 2017, Vol. 11 ›› Issue (5): 752-767.DOI: 10.3778/j.issn.1673-9418.1604022

非均匀数据分布下的MapReduce连接查询算法优化

张敬伟1,2，尚宏佳1，钱俊彦1，周萍3，杨青3+

1. 桂林电子科技大学广西可信软件重点实验室，广西桂林 541004
2. 桂林电子科技大学广西云计算与大数据协同创新中心，广西桂林 541004
3. 桂林电子科技大学广西自动检测技术与仪器重点实验室，广西桂林 541004

出版日期:2017-05-01 发布日期:2017-05-04

Join Query Optimization Based on MapReduce under Skewed Data

ZHANG Jingwei1,2, SHANG Hongjia1, QIAN Junyan1, ZHOU Ping3, YANG Qing3+

1. Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology, Guilin, Guangxi 541004, China
2. Guangxi Cooperative Innovation Center of Cloud Computing and Big Data, Guilin University of Electronic Technology, Guilin, Guangxi 541004, China
3. Guangxi Key Laboratory of Automatic Measurement Technology and Instrument, Guilin University of Electronic Technology, Guilin, Guangxi 541004, China

Online:2017-05-01 Published:2017-05-04

摘要/Abstract

摘要： MapReduce分布式计算框架有助于提升大规模数据连接查询的效率，但当连接属性分布不均匀时，其简单的散列策略容易导致计算节点间负载不均衡，影响作业的整体性能。针对连接查询操作中的数据倾斜问题，研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析，研究了传统MapReduce计算框架下连接查询操作的执行流程，找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈；进而提出了组合分割平衡分区优化策略，设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明，提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响，具有好的时间性能和可扩展性。

关键词: 连接查询, MapReduce, 数据倾斜

Abstract: MapReduce, a classic distributed computing environment, can improve the performance of join query on large-scale data, but when the join attributes do not follow a uniform distribution, the pure hash strategy in traditional MapReduce will lead to load imbalance over computing nodes, which will reduce the performance of overall task. Aiming at the data skew problem in the join query, this paper studies the join query optimization based on MapReduce computing framework. Firstly, this paper conducts experimental analysis for the improved repartitioning join query algorithm, studies the execution phases of join query based on traditional MapReduce computing framework, and finds the performance bottlenecks of join query on MapReduce computing framework when data do not follow a uniform distribution. Based on the above, this paper designs and implements an improved join query optimization algorithm, which is based on an execution strategy by integrating the combination segmentation method and equilibrium partitioning method. The experimental results show that the proposed optimization method provides a good solution for distributed join query on large-scale skewed datasets, and presents an excellent time performance and scalability.

Key words: join query, MapReduce, skewed data

张敬伟，尚宏佳，钱俊彦，周萍，杨青. 非均匀数据分布下的MapReduce连接查询算法优化[J]. 计算机科学与探索, 2017, 11(5): 752-767.

ZHANG Jingwei, SHANG Hongjia, QIAN Junyan, ZHOU Ping, YANG Qing. Join Query Optimization Based on MapReduce under Skewed Data[J]. Journal of Frontiers of Computer Science and Technology, 2017, 11(5): 752-767.

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	87

来源	本网站	其他网站

次数	86	1
比例	99%	1%

摘要

141

最新录用	在线预览	正式出版

0	0	141

	来源	本网站

	次数	141
	比例	100%

[1]	郭心宇，岳昆，李劲，武浩，张彬彬. 面向评价数据中用户偏好发现的证据理论方法[J]. 计算机科学与探索, 2017, 11(2): 231-241.
[2]	李东，邓泽航，李祖立. 基于MapReduce的XML结构连接处理[J]. 计算机科学与探索, 2016, 10(8): 1080-1091.
[3]	胡志刚，景冬梅，陈柏林，杨柳. 基于Hadoop平台的语义数据查询策略研究[J]. 计算机科学与探索, 2016, 10(7): 948-958.
[4]	单观敏，董一鸿，何贤芒. 基于MapReduce的连续概率Skyline查询[J]. 计算机科学与探索, 2016, 10(2): 182-193.
[5]	尹子都，岳昆，武浩，付晓东，刘惟一. 基于记忆曲线的数据密集型动态用户行为建模[J]. 计算机科学与探索, 2016, 10(10): 1376-1386.
[6]	张安珍，门雪莹，王宏志，李建中，高宏. 大数据上基于Hadoop的不一致数据检测与修复算法[J]. 计算机科学与探索, 2015, 9(9): 1044-1055.
[7]	刘超，徐雅斌，武装. 微博社区快速发现方法[J]. 计算机科学与探索, 2015, 9(9): 1100-1107.
[8]	蒋勇，赵作鹏. 基于MapReduce模型的排序算法优化研究[J]. 计算机科学与探索, 2015, 9(4): 410-417.
[9]	燕彩蓉，张洋舜，徐光伟. 支持隐私保护的众包实体解析[J]. 计算机科学与探索, 2014, 8(7): 802-811.
[10]	孙鹤立，陈强，刘玮，黄健斌，邹建华. 利用MapReduce平台实现高效并行的频繁子图挖掘[J]. 计算机科学与探索, 2014, 8(7): 790-801.
[11]	师金钢，郑艳，孙焕良，栾方军. 云环境中海量数据的并行分组密码体制研究[J]. 计算机科学与探索, 2014, 8(2): 161-170.
[12]	刘恒，寇月，申德荣，王泰明，于戈. 基于随机游走路径的分布式SimRank算法[J]. 计算机科学与探索, 2014, 8(12): 1422-1431.
[13]	王梅，邢露露，孙莉. 混合存储下的MapReduce启发式多表连接优化[J]. 计算机科学与探索, 2014, 8(11): 1334-1344.
[14]	徐艺境，栾钟治，钱德沛，管刚，谢明. HDFS集群中功率预测控制策略的设计与分析[J]. 计算机科学与探索, 2013, 7(5): 394-404.
[15]	靳朋飞，曹菡，余婧，崔云飞. MapReduce模型下Voronoi图栅格生成算法[J]. 计算机科学与探索, 2013, 7(2): 160-168.

非均匀数据分布下的MapReduce连接查询算法优化

Join Query Optimization Based on MapReduce under Skewed Data

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐 0

Metrics