计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (7): 599-607.DOI: 10.3778/j.issn.1673-9418.2010.07.003
刘 伟+; 肖建国
LIU Wei+; XIAO Jianguo
摘要: Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤, 需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中, 主要是在两个数据源之间进行。由于Web数据源数量众多, 使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法, 可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验, 表明了提出方法的有效性。
中图分类号: