• 学术研究 • 下一篇
冯勇, 刘明华, 王嵘冰, 徐红艳, 张永刚
FENG Yong, LIU Minghua, WANG Rongbing, XU Hongyan, ZHANG Yonggang
摘要: 针对当前中文命名实体识别中数据无明显分隔符、字符连续排列导致的边界模糊和分词歧义问题,考虑从实体的双重语义信息分析和改进注意力机制入手,提出了一种集成双重语义信息和改进注意力机制的中文实体识别方法。首先改进多头注意力机制,通过线性门控单元有效平衡了捕获的顺序信息,并增强了多头注意力机制提供的全局信息,通过残差网络解决整体的梯度问题。接下来,在实体识别阶段的局部语义信息处理中引入知识图谱的思想,通过外部词典提取实体的局部语义特征,在全局语义信息中使用BERT捕获数据整体的语义特征,经动态融合得到双重语义信息。然后,BiLSTM通过双向处理输入序列捕捉全面的上下文依赖信息,同时利用改进的多头注意力机制建立多个子序列,弥补了BiLSTM对于长文本句子捕捉依赖的不足。最后,使用CRF优化标签序列的预测,得到最终的预测结果。在中文领域公开的MSRA、Weibo和人民日报数据集上进行了实验分析,实验结果表明所提方法的F1值分别为94.22%、69.96%、93.17%,较基准方法平均提高了0.95%,9.31%,1.25%,验证了本文所提实体识别方法在中文领域的有效性和优越性。