计算机科学与探索 ›› 2018, Vol. 12 ›› Issue (6): 950-960.DOI: 10.3778/j.issn.1673-9418.1705045
刘晓琳1,2,曹付元1,2,梁吉业1,2+
LIU Xiaolin1,2, CAO Fuyuan1,2, LIANG Jiye1,2+
摘要: 对新闻评论进行增量聚类可以有效地发现网民对新闻事件的观点,在舆情分析领域具有十分重要的意义。针对传统的增量聚类算法存在对文本输入顺序敏感的缺点,提出了一种基于待定循环策略的增量聚类算法(uncertain cyclic Single-Pass,UCSP)。在聚类过程中,针对传统的短文本向量空间模型语义信息匮乏、特征项稀疏的问题,结合神经网络训练的词向量模型,构建了一种基于多特征组合的短文本表示模型。在爬取的5个腾讯新闻评论数据集进行实验,并与传统的文本表示模型和聚类算法进行对比分析,结果表明,所提算法可以有效地提高聚类质量。