计算机科学与探索 ›› 2019, Vol. 13 ›› Issue (2): 205-213.DOI: 10.3778/j.issn.1673-9418.1807049
巩轶凡1,刘红岩2,何 军1+,岳永姣1,杜小勇1
GONG Yifan1, LIU Hongyan2, HE Jun1+, YUE Yongjiao1, DU Xiaoyong1
摘要: 近年来文本信息出现了爆炸式增长,人们没有足够的精力去阅读这些文本,因此如何自动地从文本中提取关键信息就显得尤为重要,而文本摘要技术可以很好地解决这个问题。目前的文本摘要技术主要是利用带有注意力(attention)机制的序列到序列模型(sequence to sequence)对文本生成摘要,但是注意力机制在每个时刻的计算是独立的,没有考虑到之前时刻生成的文本信息,导致模型在生成文本时忽略了之前生成的内容,导致重复生成部分信息。针对这一问题,在文本摘要模型中引入了一种新的覆盖率(coverage)机制,通过覆盖向量记录历史时刻的注意力权重分布信息,并用来改变当前时刻注意力机制的权重分布,使模型更多地关注没有利用到的信息。改进后的模型在新浪微博数据集上进行了实验,实验结果表明,基于新提出的覆盖率机制的文本摘要模型的准确度高于普通的序列到序列模型。