计算机科学与探索 ›› 2015, Vol. 9 ›› Issue (9): 1044-1055.DOI: 10.3778/j.issn.1673-9418.1411043
张安珍,门雪莹,王宏志+,李建中,高 宏
ZHANG Anzhen, MEN Xueying, WANG Hongzhi+, LI Jianzhong, GAO Hong
摘要: 随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈线性增长。