计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (9): 1049-1066.DOI: 10.3778/j.issn.1673-9418.1310017
王海涛1,2,张志亮3,孙煜华3,袁春风1,2,黄宜华1,2+
WANG Haitao1,2,ZHANG Zhiliang3, SUN Yuhua3, YUAN Chunfeng1,2,HUANG Yihua1,2+
摘要: Web中蕴藏着大量有价值的数据,过去十几年中,针对Web信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的Web信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览导航、数据抽取和集成过程的三阶段Web信息抽取处理模型,基于此进一步研究提出了自动浏览导航模型,并设计实现了网页自动浏览导航规则语言。研究提出了一种Web数据抽取、转换和集成(extraction-transformation-integration,ETI)模型,设计实现了一套灵活有效的数据集成和流程控制规则语言,能有效地维护跨网页数据记录的复杂关系,并提供灵活的流程控制能力。抽取实例的结果表明,该规则语言和系统可有效完成全过程化的Web信息抽取集成处理功能。