计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (11): 1334-1344.DOI: 10.3778/j.issn.1673-9418.1407036
王 梅+,邢露露,孙 莉
WANG Mei+, XING Lulu, SUN Li
摘要: 对MapReduce下的多表连接查询进行了研究,发现由于MapReduce框架本身的局限性,造成执行效率较低。针对此问题,提出了MapReduce启发式多表连接优化方法(MapReduce based heuristic multi-join optimization,MHMO),为不同的连接模式启发式地推荐不同的执行算法。特别的,对于混合连接,首先将其分组为多个简单连接模式,进而定义代价模型确定各分组的最优执行顺序。结合列存储的延迟物化技术,大大提高了MapReduce下多表连接的执行性能。最后,在数据仓库基准测试数据集TPCH上进行了实验,验证了MHMO的有效性。