计算机科学与探索 ›› 2016, Vol. 10 ›› Issue (7): 989-994.DOI: 10.3778/j.issn.1673-9418.1507044
李天辰1+,殷建平2
LI Tianchen1+, YIN Jianping2
摘要: 目前,大多数方法在判别文本情感极性上采用的是提取情感特征并应用分类器进行分类的方式。然而由于网络文本表述方式多样,主题分散等特点,使得情感特征提取过程变得愈发困难。借助LDA(latent Dirichlet allocation)主题模型,首先对文本进行主题聚类,然后在每个主题子类上应用循环神经网络的方法对正、负情感样本分别建立主题模型,最后基于所属主题和所属情感的概率进行联合判断。采用这种方法,通过划分子类的方式规整了不同主题下文本的表述方式,限制了不同主题下词汇词义改变的问题,并且利用训练语言模型的方法很好地规避了直接提取特征的困难,将特征的挖掘过程内化在了训练模型的过程中。通过在IMDB电影评论样本上的实验可以看出,在应用了主题聚类后,模型分类的准确性有了显著提高。