计算机科学与探索 ›› 2019, Vol. 13 ›› Issue (5): 742-752.DOI: 10.3778/j.issn.1673-9418.1710025
唐 爽1,2,张灵箫1,2,赵俊峰1,2,3+,谢 冰1,2,3,邹艳珍1,2,3
TANG Shuang1,2, ZHANG Lingxiao1,2, ZHAO Junfeng1,2,3+, XIE Bing1,2,3, ZOU Yanzhen1,2,3
摘要: 随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼。主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中。提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了所提的多源数据分析框架的有效性。