计算机科学与探索 ›› 2018, Vol. 12 ›› Issue (9): 1444-1453.DOI: 10.3778/j.issn.1673-9418.1705037
周斌斌1,2,张敏灵1,2+,刘胥影1,2
ZHOU Binbin1,2, ZHANG Minling1,2+, LIU Xuying1,2
摘要: 偏标记学习是一类重要的弱监督学习框架,在该框架下,每个训练样本与一组候选标记相关联,在候选标记集合中有且仅有一个是其真实标记。很明显,候选标记数目越多,偏标记学习难度越大。为了减少候选标记数目以降低偏标记学习难度,提出了一种基于三元纠错输出码的偏标记学习算法(PL-TECOC),该算法将偏标记学习问题转换为多个二类学习问题,并对学到的多个二类分类器进行最终集成。在构建二类训练数据时采用编码“0”来忽略相应标记,仅依据非“0”编码标记进行正负类的构造,以达到减少候选标记数目的目的。实验表明,与多个流行的偏标记学习算法相比,PL-TECOC在人工数据集和真实数据集上均取得了较好的分类性能。