计算机科学与探索 ›› 2017, Vol. 11 ›› Issue (7): 1044-1055.DOI: 10.3778/j.issn.1673-9418.1607015
付宇新1,2,王 鑫1,2+,冯志勇2,3,徐 强1,2
FU Yuxin1,2, WANG Xin1,2+, FENG Zhiyong2,3, XU Qiang1,2
摘要: 命名实体识别任务能够搭建知识库与自然语言之间的桥梁,为关键字提取、机器翻译、主题检测与跟踪等研究工作提供支撑。通过对目前命名实体识别领域的相关研究进行分析,提出了一套通用的命名实体识别优化方案。首先,设计并实现了利用候选集的增量式扩展方法,降低了对训练集的依赖性;其次,通过点互信息率对实体上下文进行特征选择,大幅度降低了上下文空间,同时提高了标注性能;最后,提出了基于主题向量的二次消歧方法,进一步增强了标注准确率。通过在广泛使用的开源命名实体识别系统DBpedia Spotlight上进行多种比较实验,验证了所提优化方案与已有系统相比具有较优的性能指标。