计算机科学与探索 ›› 2011, Vol. 5 ›› Issue (9): 826-834.
田晶华1, 李翠平1,2, 陈 红1,2
TIAN Jinghua1, LI Cuiping1,2, CHEN Hong1,2
摘要: 问题分类是问答社区系统的关键技术, 分析用户提出的自然语言问题, 并返回一个确切而适当的问题类别。针对网络社区中问题分类标签众多(>1 000)、有一定层次且易受时间演化影响的问题, 提出了针对两种不同流动粒度的问题分类算法, 运用不同时刻的数据集层次集成学习方法提高了问题分类精度和效率。同时, 针对单次分类标签过多引起的特征集混淆问题, 将已有层次的分类标签树基于基分类器错误率和混淆矩阵进行聚类, 进一步提高了问题分类的精度和效率。