计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (11): 1345-1357.DOI: 10.3778/j.issn.1673-9418.1407057
夏家莉1,程春雷1,2+,陈 辉3,曹重华1,3,李光泉1
XIA Jiali1, CHENG Chunlei1,2+, CHEN Hui3, CAO Zhonghua1,3, LI Guangquan1
摘要: 中文实体关系抽取是开放域文本检索与知识发现的研究热点,传统的抽取策略普遍存在人工标注量大,模式通用性受限,关系抽取粒度相对固定等问题,限制了其在开放领域的关系抽取效果。基于概念的结构分层和关系连通,面向中文实体关系构建了谓词概念模型(predicate concept model,PCM),在此基础上,提出了增量学习的谓词概念获取策略PCIA和基于谓词概念连通的关系抽取策略PCCS,由此进行了开放域非紧密的、远距离实体关系的抽取。各谓词概念的构建相对独立,概念组合更为灵活,对关系的描述具有更好的通用性和可解释性,为开放域未知关系的识别与抽取提供了有效手段。实验结果表明,PCCS有效提升了中文实体识别及实体连通路径选择的质量,获得了良好的关系抽取性能。