计算机科学与探索 ›› 2011, Vol. 5 ›› Issue (2): 161-169.
易小华1,2, 刘 杰3, 叶 丹1
YI Xiaohua1,2, LIU Jie3, YE Dan1
摘要: 数据处理流程在信息爆炸的今天被广泛应用并呈现出海量和并行的特点, MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理, 但是MapReduce不支持多数据源的数据处理, 不能直接应用于具有多个处理操作、多个数据流分支的数据处理流程。提出一种模型驱动的面向MapReduce计算模型的数据处理流程快速开发方法, 定义数据处理流程的逻辑模型、物理模型和组件模型, 使用模型转换算法和代码生成算法将逻辑模型转化为物理模型, 再转换为能直接在Hadoop平台上运行的MapReduce程序, 基于该方法实现了一个开发工具CloudDataFlow。实验表明该方法可以有效提高数据流程的处理效率。