计算机科学与探索 ›› 2022, Vol. 16 ›› Issue (1): 106-119.DOI: 10.3778/j.issn.1673-9418.2009099
收稿日期:
2020-08-06
修回日期:
2020-10-16
出版日期:
2022-01-01
发布日期:
2020-11-06
通讯作者:
+ E-mail: zhaoyuhai@mail.neu.edu.cn作者简介:
宗枫博(1995—),男,河北唐山人,硕士研究生,主要研究方向为大数据。基金资助:
ZONG Fengbo1, ZHAO Yuhai1,+(), WANG Guoren2, JI Hangxu1
Received:
2020-08-06
Revised:
2020-10-16
Online:
2022-01-01
Published:
2020-11-06
About author:
ZONG Fengbo, born in 1995, M.S. candidate. His research interest is big data.Supported by:
摘要:
多表连接运算是大数据处理中常见的运算。类似于数据库运算中常见的连接操作,多表连接运算的顺序会对计算资源和传输资源的消耗产生巨大影响。对多表连接顺序的优化是一个经典的优化问题,同时每次连接中表的投影结果大小也会影响节点间传输的数据体积,因此整体连接的顺序和每次连接的投影关系都会对连接效率产生显著的影响,而在传统的优化策略中,往往不会考虑到中间投影关系的取舍问题,以及基于中间投影关系而对最优连接策略产生的影响。针对这个问题,建立了一种连接关系索引,能够在构建优化连接策略中调整每次连接的投影关系,及时删除冗余列,减少对传输资源的消耗,同时基于投影关系的优化调整连接顺序的优化策略,从全局考量上尽可能地同时减少对传输资源和计算资源的消耗。该优化策略在Flink系统实现后进行了实验,结果表明有显著的优化效果。
中图分类号:
宗枫博, 赵宇海, 王国仁, 季航旭. 面向多表数据连接投影和连接顺序的优化方法[J]. 计算机科学与探索, 2022, 16(1): 106-119.
ZONG Fengbo, ZHAO Yuhai, WANG Guoren, JI Hangxu. Optimization Method of Projection and Order for Multiple Tables Join[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(1): 106-119.
Source表 | TPC-H表 |
---|---|
Source0 | lineitem |
Source1 | orders |
Source2 | partsupp |
Source3 | part |
Source4 | customer |
Source5 | supplier |
Source6 | nation |
Source7 | region |
表1 Source表对应的TPC-H表
Table 1 TPC-H table corresponding to Source table
Source表 | TPC-H表 |
---|---|
Source0 | lineitem |
Source1 | orders |
Source2 | partsupp |
Source3 | part |
Source4 | customer |
Source5 | supplier |
Source6 | nation |
Source7 | region |
连接表 | 不同数据集规模下的连接表大小 | ||||
---|---|---|---|---|---|
100 MB | 500 MB | 600 MB | 700 MB | 800 MB | |
lineitem | 71 MB | 360 MB | 433 MB | 506 MB | 579 MB |
Orders | 17 MB | 82 MB | 98 MB | 115 MB | 131 MB |
Partsupp | 12 MB | 57 MB | 68 MB | 80 MB | 91 MB |
Customer | 2.4 MB | 12 MB | 14 MB | 17 MB | 19 MB |
Part | 2.3 MB | 12 MB | 14 MB | 17 MB | 19 MB |
Supplier | 140 KB | 692 KB | 828 KB | 964 KB | 1.1 MB |
Region | 4.0 KB | 4.0 KB | 4.0 KB | 4.0 KB | 4.0 KB |
nation | 4.0 KB | 4.0 KB | 4.0 KB | 4.0 KB | 4.0 KB |
表2 TPC-H表数据体积及分布
Table 2 Data size and distribution of TPC-H tables
连接表 | 不同数据集规模下的连接表大小 | ||||
---|---|---|---|---|---|
100 MB | 500 MB | 600 MB | 700 MB | 800 MB | |
lineitem | 71 MB | 360 MB | 433 MB | 506 MB | 579 MB |
Orders | 17 MB | 82 MB | 98 MB | 115 MB | 131 MB |
Partsupp | 12 MB | 57 MB | 68 MB | 80 MB | 91 MB |
Customer | 2.4 MB | 12 MB | 14 MB | 17 MB | 19 MB |
Part | 2.3 MB | 12 MB | 14 MB | 17 MB | 19 MB |
Supplier | 140 KB | 692 KB | 828 KB | 964 KB | 1.1 MB |
Region | 4.0 KB | 4.0 KB | 4.0 KB | 4.0 KB | 4.0 KB |
nation | 4.0 KB | 4.0 KB | 4.0 KB | 4.0 KB | 4.0 KB |
中间节点 | 不同冗余率下的数据发送量 | |
---|---|---|
0% | 9.70% | |
JoinNode0 | 54.4 MB | 54.4 MB |
JoinNode1 | 320 MB | 411 MB |
JoinNode2 | 205 MB | 594 MB |
JoinNode3 | 228 MB | 228 MB |
JoinNode4 | 44.7 GB | 62.6 GB |
JoinNode5 | 44.7 GB | 62.6 GB |
JoinNode6 | 44.2 GB | 44.2 GB |
表3 0%和9.70%冗余率下中间节点的数据发送量
Table 3 Data ship of intermediate nodes in 0% and 9.70% redundant ratios
中间节点 | 不同冗余率下的数据发送量 | |
---|---|---|
0% | 9.70% | |
JoinNode0 | 54.4 MB | 54.4 MB |
JoinNode1 | 320 MB | 411 MB |
JoinNode2 | 205 MB | 594 MB |
JoinNode3 | 228 MB | 228 MB |
JoinNode4 | 44.7 GB | 62.6 GB |
JoinNode5 | 44.7 GB | 62.6 GB |
JoinNode6 | 44.2 GB | 44.2 GB |
[1] | KADKHODAEI H, MAHMOUDI F. A combination me-thod for join ordering problem in relational databases using genetic algorithm and ant colony[C]// Proceedings of the 2011 IEEE International Conference on Granular Computing,Taiwan, China, Nov 8-10, 2011. Washington: IEEE Computer Society, 2011: 312-317. |
[2] | WILSCHUT A N, FLOKSTRA J. APERS P M G. Parallel evaluation of multi-join queries[C]// Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data, San Jose, May 22-25, 1995. New York: ACM, 1995: 115-126. |
[3] | STEINBRUNN M, MOERKOTTE G, KEMPER A. Heuris-tic and randomized optimization for the join ordering pro-blem[J]. The VLDB Journal, 1997, 6(3):191208. |
[4] | VELLEV S. Review of algorithms for the join ordering pro-blems in database query optimization[J]. Information Tec-hnologies and Control, 2009, 1:3240. |
[5] | SELINGER P G, ASTRAHAN M M, CHAMBERLIN D D, et al. Access path selection in a relational database manage-ment system[C]// Proceedings of the 1979 ACM SIGMOD International Conference on Management of Data, Boston, May 30-Jun 1, 1979. New York: ACM, 1979: 23-34. |
[6] |
IOANNIDIS Y E, WONG E. Query optimization by simulated annealing[J]. ACM SIGMOD Record, 1987, 16(3):9-22.
DOI URL |
[7] | LI N N, LIU Y J, DONG Y F, et al. Application of ant colony optimization algorithm to multi-join query optimiza-tion[C]// LNCS 5370: Proceedings of the 3rd International Symposium on Intelligence Computation and Applications, Wuhan, Dec 19-21, 2008. Berlin, Heidelberg: Springer, 2008: 189-197. |
[8] | DE JONG EDWIN D, POLLACK J B. Ideal evaluation from coevolution[J]. Evolutionary Computation, 2004, 12(2):159192. |
[9] | SHEKITA E J, YOUNG H C, TAN K L. Multi-join optimi-zation for symmetric multiprocessors[C]// Proceedings of the 19th International Conference on Very Large Data Bases, Dublin, Aug 24-27, 1993. San Mateo: Morgan Kaufmann, 1993: 479-492. |
[10] | AFRATI F N, ULLMAN J D. Optimizing joins in a map-reduce environment[C]// Proceedings of the 13th Interna-tional Conference on Extending Database Technology, Lausanne, Mar 22-26, 2010. New York: ACM, 2010: 99-110. |
[11] | HÜSKE F. Peeking into Apache Flink’s engine room[EB/OL].(2015-03-13) [2020-05-26]. https://flink.apache.org. |
[12] | BLAKELEY J A, MARTIN N L. Join index, materialized view, and hybrid-hash join: a performance analysis[C]// Proceedings of the 6th International Conference on Data Engineering, Los Angeles, Feb 5-9, 1990. Washington: IEEE Computer Society, 1990: 256-263. |
[13] | COLE R. Parallel merge sort[J]. SIAM Journal on Com-puting, 1988, 17(4):770-785. |
[14] | TPC BenchmarkTM H standard specification revision 2.17.1[J]. San Francisco: Transaction Processing Performance Council, 2014. |
[1] | 陈剑南, 杜军平, 薛哲, 寇菲菲. 基于多重注意力的金融事件大数据精准画像[J]. 计算机科学与探索, 2021, 15(7): 1237-1244. |
[2] | 赵学武, 吴宁, 王军, 阮利, 李玲玲, 徐涛. 航空大数据研究综述[J]. 计算机科学与探索, 2021, 15(6): 999-1025. |
[3] | 郭子菁, 罗玉川, 蔡志平, 郑腾飞. 医疗健康大数据隐私保护综述[J]. 计算机科学与探索, 2021, 15(3): 389-402. |
[4] | 郑娅峰, 赵亚宁, 白雪, 傅骞. 教育大数据可视化研究综述[J]. 计算机科学与探索, 2021, 15(3): 403-422. |
[5] | 王沐贤,丁小欧,王宏志,李建中. 基于相关性的多维时序数据异常溯源方法[J]. 计算机科学与探索, 2021, 15(11): 2142-2150. |
[6] | 包盼盼,陶传奇,黄志球. 面向开源源码大数据的数据质量研究[J]. 计算机科学与探索, 2020, 14(3): 389-400. |
[7] | 胡健,徐锴滨,毛伊敏. 基于加权网格和信息熵的并行密度聚类算法[J]. 计算机科学与探索, 2020, 14(12): 2094-2107. |
[8] | 赵一宁,肖海力. 国家高性能计算环境事件流系统的设计[J]. 计算机科学与探索, 2019, 13(3): 374-382. |
[9] | 刘正涛,王建东. Web大数据系统数据源选择[J]. 计算机科学与探索, 2018, 12(3): 360-369. |
[10] | 张大坤,任淑霞. 超图可视化方法研究综述[J]. 计算机科学与探索, 2018, 12(11): 1701-1717. |
[11] | 鲁鹏凯,江大伟,陈珂,寿黎但,陈刚. RStore:基于BigTable的关系数据模型存储系统[J]. 计算机科学与探索, 2018, 12(10): 1547-1558. |
[12] | 王永坤,金耀辉. 数据平台的设计和实现以及大赛中的应用[J]. 计算机科学与探索, 2018, 12(1): 39-48. |
[13] | 邓诗卓,信俊昌,聂铁铮,王国仁. 双缀过滤的大数据相似性连接处理算法[J]. 计算机科学与探索, 2017, 11(8): 1235-1245. |
[14] | 汪忠国,吴敏,谭芳芳. 稀疏混合图随机跳跃Web对象多标签半监督分类[J]. 计算机科学与探索, 2017, 11(7): 1166-1174. |
[15] | 史荧中,汪菊琴,许敏,王士同. 正则化多任务学习的快速算法[J]. 计算机科学与探索, 2017, 11(6): 988-997. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||