计算机科学与探索 ›› 2017, Vol. 11 ›› Issue (9): 1389-1397.DOI: 10.3778/j.issn.1673-9418.1609004
郭乐乐+,林友芳,韩 升
GUO Lele+, LIN Youfang, HAN Sheng
摘要: 数据模式匹配是异构数据源数据合并过程中的核心环节,属于数据集成中的关键问题。目前已有许多数据模式匹配方法,但其中很大一部分方法由于过多依赖数据模式描述信息,导致通用性不足,很难应用于其他场景中。为此,提出了一种利用有序互信息的匹配包含非透明列名和列数据值的数据模式。该方法不依赖诸如列名、列类型、主外键依赖等数据模式描述信息,因此具有很强的通用性。在多个数据集上实验结果表明,该方法能够在大幅降低匹配花费时间的同时提高匹配结果的准确率。