计算机科学与探索 ›› 2012, Vol. 6 ›› Issue (1): 46-57.DOI: 10.3778/j.issn.1673-9418.2012.01.003
余永红, 向晓军, 高 阳 , 商 琳, 杨育彬
YU Yonghong, XIANG Xiaojun, GAO Yang, SHANG Lin, YANG Yubin
摘要: 数据挖掘算法处理海量数据时, 扩展性受到制约。在商业和科学研究的各个领域, 知识发现的过程和需求差异较大, 需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架, CloudDM利用开源云计算平台Hadoop处理海量数据的能力, 以面向服务的形式支持分布式数据挖掘应用的设计和运行, 并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎, 可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。