计算机科学与探索 ›› 2017, Vol. 11 ›› Issue (10): 1570-1578.DOI: 10.3778/j.issn.1673-9418.1608046
陆慧娟1+,刘亚卿1,孟亚琼1,关 伟2,刘砚秋1
LU Huijuan1+, LIU Yaqing1, MENG Yaqiong1, GUAN Wei2, LIU Yanqiu1
摘要: 旋转森林(rotation forest,RoF)是一种运用线性分析理论和决策树的集成分类算法,在分类器个数较少的情况下仍可以取得良好的结果,同时能保证集成分类的准确性。但对于部分基因数据集,存在线性不可分的情况,原始的算法分类效果不佳。提出了一种运用核主成分分析变换的旋转森林算法(rotation forest algorithm based on kernel principal component analysis,KPCA-RoF),选择高斯径向基核函数和主成分分析的方法对基因数据集进行非线性映射和差异性变化,着重于参数的选择问题,再利用决策树算法进行集成学习。实验证明,改进后的算法能很好地解决数据线性不可分的情形,同时也提高了基因数据集上的分类精度。