计算机科学与探索 ›› 2018, Vol. 12 ›› Issue (7): 1036-1046.DOI: 10.3778/j.issn.1673-9418.1709034
周凯文,杨智慧,马会心,何震瀛,荆一楠,王晓阳
ZHOU Kaiwen, YANG Zhihui, MA Huixin, HE Zhenying, JING Yinan, WANG X. Sean
摘要:
利用主题模型对文本数据进行处理、分析在如今的数据挖掘领域应用十分广泛,其中LDA(latent Dirichlet allocation)作为一个简单易用的主题模型受到了广泛的关注。然而LDA假设每篇文本都来源于一个独立的生成过程,忽略了文本之间的联系。从生成模型的角度建模文本之间的联系,基于LDA设计了一个新的主题模型DbLDA(LDA over text database)。DbLDA针对文本数据库的特定划分(例如时间、地点)建模,充分利用每个子集中的共性,提高了模型的表达能力。由于DbLDA模型复杂,使用部分收缩变分贝叶斯法对DbLDA进行模型推断,加快了模型训练速度。在新闻数据库上对DbLDA及LDA进行了训练和测试,实验结果验证了DbLDA拥有更好的模型效果。