计算机科学与探索 ›› 2023, Vol. 17 ›› Issue (12): 2861-2879.DOI: 10.3778/j.issn.1673-9418.2303083
HE Dongbin, TAO Sha, ZHU Yanhong, REN Yanzhao, CHU Yunxia
摘要: 主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。
何东彬, 陶莎, 朱艳红, 任延昭, 褚云霞. 主题模型自动标记方法研究综述[J]. 计算机科学与探索, 2023, 17(12): 2861-2879.
HE Dongbin, TAO Sha, ZHU Yanhong, REN Yanzhao, CHU Yunxia. Survey of Automatic Labeling Methods for Topic Models[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(12): 2861-2879.
