计算机科学与探索 ›› 2013, Vol. 7 ›› Issue (1): 35-45.DOI: 10.3778/j.issn.1673-9418.1206048
钱 进1,2,3,苗夺谦1,3+,张泽华1,3,张志飞1,3
QIAN Jin1,2,3, MIAO Duoqian1,3+, ZHANG Zehua1,3, ZHANG Zhifei1,3
摘要:
面向大规模数据进行知识约简是近年来粗糙集理论研究热点。经典的知识约简算法是一次性将小数据集装入单机主存中进行约简,无法处理海量数据。深入剖析了知识约简算法中的可并行性;设计并实现了数据和任务同时并行的Map和Reduce函数,用于计算不同候选属性集导出的等价类和属性重要性;构建了一种MapReduce框架下并行知识约简算法模型,用于计算基于正区域、基于差别矩阵或基于信息熵的知识约简算法的一个约简。在Hadoop平台上进行了相关实验,实验结果表明,该并行知识约简算法模型可以高效地处理海量数据集。