计算机科学与探索 ›› 2012, Vol. 6 ›› Issue (1): 67-77.DOI: 10.3778/j.issn.1673-9418.2012.01.005
郭颖婕, 刘晓燕, 郭茂祖, 邹 权
GUO Yingjie, LIU Xiaoyan, GUO Maozu, ZOU Quan
摘要: 为了解决传统基于同源序列比对的抗性基因识别方法中假阳性高、无法发现新的抗性基因的问题, 提出了一种利用随机森林分类器和K-Means聚类降采样方法的抗性基因识别算法。针对目前研究工作中挖掘盲目性大的问题, 进行两点改进:引入了随机森林分类器和188维组合特征来进行抗性基因识别, 这种基于样本统计学习的方法能够有效地捕捉抗性基因内在特性; 对于训练过程中存在的严重类别不平衡现象, 使用基于聚类的降采样方法得到了更具代表性的训练集, 进一步降低了识别误差。实验结果表明, 该算法可以有效地进行抗性基因的识别工作, 能够对现有实验验证数据进行准确的分类, 并在反例集上也获得了较高的精度。