计算机科学与探索 ›› 2013, Vol. 7 ›› Issue (9): 819-830.DOI: 10.3778/j.issn.1673-9418.1305044
赵晨露+,申德荣,寇 月,聂铁铮,于 戈
ZHAO Chenlu+, SHEN Derong, KOU Yue, NIE Tiezheng, YU Ge
摘要: 随着计算机网络的发展,许多复杂庞大的异构数据集应运而生。为了有效利用这些异构数据,通常采用数据集成的方法,其中模式匹配是数据集成的核心技术。然而,许多数据集具有典型的异构性,并可能存在有重复数据、缺失数据、模式信息缺失等问题,导致传统的模式匹配技术无法适用。为此,研究了模式信息未知或者不完整情况下的模式匹配问题,提出了应用信息论的模式匹配模型。该模型完全基于数据分布的特点而不依赖于任何外部知识,能够准确地计算出属性列之间的相似度,并有效地描述数据集中各个属性列数据的分布特点和属性列之间的关联关系。还提出了构建原始数据分布图和演化数据分布图的算法,从而形式化地表达出属性列之间的关系,达到匹配的目的。在真实数据集上的综合实验评估证明了方法的可行性和有效性。