差异性随机子空间集成

doi:10.3778/j.issn.1673-9418.1705041

计算机科学与探索 ›› 2018, Vol. 12 ›› Issue (9): 1434-1443.DOI: 10.3778/j.issn.1673-9418.1705041

差异性随机子空间集成

丁毅，王明亮，张道强+

南京航空航天大学计算机科学与技术学院，南京 211100

出版日期:2018-09-01 发布日期:2018-09-10

Diverse Random Subspace Ensemble

DING Yi, WANG Mingliang, ZHANG Daoqiang+

College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211100, China

Online:2018-09-01 Published:2018-09-10

摘要/Abstract

摘要： 随机子空间集成方法是集成学习中的一个重要部分，它通过随机选取原特征空间中的数个子空间构建基分类器并集成基学习器得到最终的结果。随机子空间集成方法尤其适用于特征维度高于样本数量的情况，而传统的随机子空间集成对高维数据采集大量的子空间且子空间之间存在很高的冗余度，从而导致模型获得较差的性能。因此，提出了一种无监督和不需要训练的差异性随机子空间集成算法。该算法利用多核最大均值差异（maximum mean discrepancy，MMD）作为子空间的相似性度量，并利用谱聚类算法将高相似性子空间聚类，从中选择一个代表性子空间，从而得到差异性子空间集合。实验表明，基于差异性随机子空间集成的模型在使用较少的基学习器时依然能获得较好的性能，尤其在具有很高的特征-样本比的数据集上。

关键词: 随机子空间集成, 差异性度量, 集成学习, 机器学习

Abstract: Random subspace ensemble method is an essential part of ensemble learning research. It constructs several base learners on randomly selected feature subspaces, and finds a suitable way to combine the results of these base learners to give a final result. Random subspace ensemble method is much suitable for datasets with much higher feature dimensions than samples. However, because of the high feature dimensions, the ensemble model should sample numerous subspaces but cannot keep enough diversity between these subspaces, which causes low efficiency and bad performance. This paper proposes a diverse random subspace ensemble method without supervision and training. This method uses the multi-kernel MMD (maximum mean discrepancy) as similarity measure of subspace, and uses the spectral clustering algorithm on high similarity subspaces to select a representative subspace among lots of random subspaces with similar distribution structure. The experimental results demonstrate the effectiveness and efficiency of the proposed method when using less base learners, especially on datasets with high feature-sample ratio.

Key words: random subspace ensemble, diversity, ensemble learning, machine learning

丁毅，王明亮，张道强. 差异性随机子空间集成[J]. 计算机科学与探索, 2018, 12(9): 1434-1443.

DING Yi, WANG Mingliang, ZHANG Daoqiang. Diverse Random Subspace Ensemble[J]. Journal of Frontiers of Computer Science and Technology, 2018, 12(9): 1434-1443.

[1]	杨悦，王士同. 随机特征映射的四层神经网络及其增量学习[J]. 计算机科学与探索, 2021, 15(7): 1265-1278.
[2]	赵雪莉，卢光跃，吕少卿，张潘. 结合属性信息的二分网络表示学习[J]. 计算机科学与探索, 2021, 15(3): 495-505.
[3]	马永杰，徐小冬，张茹，谢艺蓉，陈宏. 生成式对抗网络及其在图像生成中的研究进展[J]. 计算机科学与探索, 2021, 15(10): 1795-1811.
[4]	黄宇翔，黄栋，王昌栋，赖剑煌. 基于集成学习的改进深度嵌入聚类算法[J]. 计算机科学与探索, 2021, 15(10): 1949-1957.
[5]	宋雨萌，谷峪，李芳芳，于戈. 人工智能赋能的查询处理与优化新技术研究综述[J]. 计算机科学与探索, 2020, 14(7): 1081-1103.
[6]	孙伟, 张羽. 利用流挖掘和图挖掘的内网异常检测方法[J]. 计算机科学与探索, 2020, 14(7): 1154-1163.
[7]	陈兴国，徐修颖，陈康扬，杨光. 基于CMAES集成学习方法的地表水质分类[J]. 计算机科学与探索, 2020, 14(3): 426-436.
[8]	杨浩，陈红梅. 结合样本局部密度的非平衡数据集成分类算法[J]. 计算机科学与探索, 2020, 14(2): 274-284.
[9]	马毓敏，王士同. 最大化AUC的正例未标注分类及其增量算法[J]. 计算机科学与探索, 2020, 14(11): 1879-1887.
[10]	梁俊杰，韦舰晶，蒋正锋. 生成对抗网络GAN综述[J]. 计算机科学与探索, 2020, 14(1): 1-17.
[11]	孙涛，周志华. 近似多元信息多样性[J]. 计算机科学与探索, 2019, 13(4): 639-646.
[12]	龙廷艳，万良，丁红卫. 自编码网络在JavaScript恶意代码检测中的应用研究[J]. 计算机科学与探索, 2019, 13(12): 2073-2084.
[13]	张贤贤，王浩宇，郭耀，徐国爱. 基于众包和机器学习的移动应用隐私评级研究[J]. 计算机科学与探索, 2018, 12(8): 1238-1251.
[14]	王建飞，亢良伊，刘杰，叶丹. 分布式随机方差消减梯度下降算法topkSVRG[J]. 计算机科学与探索, 2018, 12(7): 1047-1054.
[15]	李盼，赵文涛，刘强，崔建京，殷建平. 机器学习安全性问题及其防御技术研究综述[J]. 计算机科学与探索, 2018, 12(2): 171-184.

差异性随机子空间集成

Diverse Random Subspace Ensemble

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics