多Web数据源环境下的重复实体识别方法研究*

doi:10.3778/j.issn.1673-9418.2010.07.003

计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (7): 599-607.DOI: 10.3778/j.issn.1673-9418.2010.07.003

多Web数据源环境下的重复实体识别方法研究*

刘伟⁺; 肖建国

北京大学计算机科学技术研究所, 北京 100871

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-07-14 发布日期:2010-07-14
通讯作者: 刘伟

A Duplicate Web Entity Identification Approach Based on Iterative Training*

LIU Wei⁺; XIAO Jianguo

Institute of Computer Science & Technology, Peking University, Beijing 100871, China

Received:1900-01-01 Revised:1900-01-01 Online:2010-07-14 Published:2010-07-14
Contact: LIU Wei

摘要/Abstract

摘要： Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤, 需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中, 主要是在两个数据源之间进行。由于Web数据源数量众多, 使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法, 可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验, 表明了提出方法的有效性。

关键词: Web实体, 重复实体识别, Web数据集成, 迭代训练

Abstract: A large number of Web data sources that can be accessed online make users convenient to obtain their desired information. As the necessary step in Web data integration, the duplicate Web entities with various presentations should be identified accurately from Web data sources. To the best of our knowledge, previous works focus on this issue only between two data sources. The large quantity of Web data sources make these approaches unpractical. To this end, an effective iterative-training-based approach is proposed to address this issue of duplicate Web entity identification, which can be applied to multiple Web data sources using a small training set. The extensive experi-ments on book domain and computer domain validate the effectiveness of the proposed approach.

Key words: Web entity, duplicate entity identification, Web data integration, iterative training

中图分类号:

TP301

刘伟+ ; 肖建国 . 多Web数据源环境下的重复实体识别方法研究*[J]. 计算机科学与探索, 2010, 4(7): 599-607.

LIU Wei⁺; XIAO Jianguo

. A Duplicate Web Entity Identification Approach Based on Iterative Training*[J]. Journal of Frontiers of Computer Science and Technology, 2010, 4(7): 599-607.

[1]	甄超, 宋爽, 许洁萍+ . 多模态音乐流派分类研究[J]. 计算机科学与探索, 2011, 5(1): 50-58.
[2]	刘正涛1,2+ , 王建东1 . Web 数据空间边建边用模式集成[J]. 计算机科学与探索, 2011, 5(1): 87-96.
[3]	高纯1,2,3+ , 王睿智1,2,3 . 知识空间理论析取模型下最小技能集的生成[J]. 计算机科学与探索, 2010, 4(12): 1109-1114.
[4]	李兴东+ ; 姜守旭; 张硕 . 一种处理图数据库中超图集合的查询方法*[J]. 计算机科学与探索, 2010, 4(11): 1005-1009.
[5]	任家东1,2 , 周玮玮1+ , 何海涛1 . 高维数据流的自适应子空间聚类算法[J]. 计算机科学与探索, 2010, 4(9): 859-864.
[6]	李佳佳1 , 王波涛1+ , 陈东1 , 喜连川优2 , 王国仁1 . 分组移动对象的区域偏离监视算法*[J]. 计算机科学与探索, 2010, 4(9): 803-811.
[7]	祝军1,2 , 曾庆田1+ . 基于变迁指标分解的Petri网性质分析*[J]. 计算机科学与探索, 2010, 4(8): 761-768.
[8]	陶剑文+ . 新颖的离散时间队列系统模型*[J]. 计算机科学与探索, 2010, 4(6): 567-575.
[9]	杜小勇1, 2+ , 王洁萍1, 2 . 数据库服务模式下的数据安全管理研究*[J]. 计算机科学与探索, 2010, 4(6): 481-499.
[10]	袁金平+ , 姚莉, 佟濛. 用于辩证分析的多方对话协议*[J]. 计算机科学与探索, 2010, 4(6): 511-519.
[11]	徐忠华1,2 , 张剡1,2+ , 陈玲1,2 , 柏文阳1,2 . 星型模型的轮廓连接查询算法*[J]. 计算机科学与探索, 2010, 4(5): 410-419.
[12]	夏小玲, 张红+ . 为物化视图选择构造搜索空间的新策略IMVPP *[J]. 计算机科学与探索, 2010, 4(5): 473-479.
[13]	杨静1+ ，郑诣2 ，莫智文1 ，舒兰3 . 模糊Moore型自动机的性质[J]. 计算机科学与探索, 2010, 4(4): 375-383.
[14]	韩敏，唐常杰+，段磊，李川，巩杰. 基于TF-IDF相似度的标签聚类方法[J]. 计算机科学与探索, 2010, 4(3): 240-246.
[15]	刘家红+，朱锐，滕猛，吴泉源. InforSIB事件代数的形式化框架与代数性质[J]. 计算机科学与探索, 2010, 4(3): 265-274.

多Web数据源环境下的重复实体识别方法研究*

A Duplicate Web Entity Identification Approach Based on Iterative Training*

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics