面向大规模数据的快速多代表点仿射传播算法

doi:10.3778/j.issn.1673-9418.1505034

计算机科学与探索 ›› 2016, Vol. 10 ›› Issue (2): 268-276.DOI: 10.3778/j.issn.1673-9418.1505034

面向大规模数据的快速多代表点仿射传播算法

刘季+，陈秀宏，杭文龙

江南大学数字媒体学院，江苏无锡 214122

出版日期:2016-02-01 发布日期:2016-02-03

Fast Multi-Exemplar Affinity Propagation Algorithm for Large Data Sets

LIU Ji+, CHEN Xiuhong, HANG Wenlong

School of Digital Media, Jiangnan University, Wuxi, Jiangsu 214122, China

Online:2016-02-01 Published:2016-02-03

摘要/Abstract

摘要： 针对原始的仿射传播（affinity propagation，AP）聚类算法难以处理多代表点聚类，以及空间和时间开销过大等问题，提出了快速多代表点仿射传播（multi-exemplar affinity propagation using fast reduced set density estimator，FRSMEAP）聚类算法。该算法在聚类初始阶段，引入快速压缩集密度估计算法（fast reduced set density estimator，FRSDE）对大规模数据集进行预处理，得到能够充分代表样本属性的压缩集；在聚类阶段，使用多代表点仿射传播（multi-exemplar affinity propagation，MEAP）聚类算法，获得比AP更加明显的聚类决策边界，从而提高聚类的精度；最后再利用K-邻近（K-nearest neighbor，KNN）算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明，该算法不仅能在大规模数据集上进行聚类，而且具有聚类精度高和运行速度快等优点。

关键词: 仿射传播, 聚类, 大数据, 多代表点

Abstract: The traditional affinity propagation (AP) is difficult to handle with multi-exemplar clustering, and has large space and time complexity, so it is not suitable for large data sets. To address these problems, this paper proposes a multi-exemplar affinity propagation using fast reduced set density estimator (FRSMEAP). At the beginning of clustering, fast reduced set density estimator (FRSDE) is introduced to preprocess large-scale data sets, and then the condensed set fully representing sample properties can be obtained. Multi-exemplar affinity propagation (MEAP) algorithm is used to cluster the condensed set, which can find better decision boundaries than AP. So the accuracy of clustering is improved. In order to get the final data partition, the K-nearest neighbor (KNN) is used to assign the remained data. The simulation results on synthetic and standard data sets show that the proposed algorithm can not only cluster on large-scale data sets, but also has the advantage of high precision and fast speed.

Key words: affinity propagation, clustering, large data sets, multi-exemplar

刘季，陈秀宏，杭文龙. 面向大规模数据的快速多代表点仿射传播算法[J]. 计算机科学与探索, 2016, 10(2): 268-276.

LIU Ji, CHEN Xiuhong, HANG Wenlong. Fast Multi-Exemplar Affinity Propagation Algorithm for Large Data Sets[J]. Journal of Frontiers of Computer Science and Technology, 2016, 10(2): 268-276.

[1]	陈俊芬, 张明, 赵佳成, 谢博鋆, 李艳. 结合降噪和自注意力的深度聚类算法[J]. 计算机科学与探索, 2021, 15(9): 1717-1727.
[2]	王大刚, 丁世飞, 钟锦. 基于二阶[k]近邻的密度峰值聚类算法研究[J]. 计算机科学与探索, 2021, 15(8): 1490-1500.
[3]	陈剑南, 杜军平, 薛哲, 寇菲菲. 基于多重注意力的金融事件大数据精准画像[J]. 计算机科学与探索, 2021, 15(7): 1237-1244.
[4]	沈学利, 秦鑫宇. 密度Canopy的增强聚类与深度特征的KNN算法[J]. 计算机科学与探索, 2021, 15(7): 1289-1301.
[5]	赵学武, 吴宁, 王军, 阮利, 李玲玲, 徐涛. 航空大数据研究综述[J]. 计算机科学与探索, 2021, 15(6): 999-1025.
[6]	范瑞东, 侯臣平. 鲁棒自加权的多视图子空间聚类[J]. 计算机科学与探索, 2021, 15(6): 1062-1073.
[7]	柏锷湘, 罗可, 罗潇. 结合自然和共享最近邻的密度峰值聚类算法[J]. 计算机科学与探索, 2021, 15(5): 931-940.
[8]	张倪妮, 葛洪伟. 稳定的K-多均值聚类算法[J]. 计算机科学与探索, 2021, 15(5): 941-948.
[9]	郭子菁, 罗玉川, 蔡志平, 郑腾飞. 医疗健康大数据隐私保护综述[J]. 计算机科学与探索, 2021, 15(3): 389-402.
[10]	郑娅峰, 赵亚宁, 白雪, 傅骞. 教育大数据可视化研究综述[J]. 计算机科学与探索, 2021, 15(3): 403-422.
[11]	马瑞强, 宋宝燕, 丁琳琳, 王俊陆. 面向时间序列事件的动态矩阵聚类方法[J]. 计算机科学与探索, 2021, 15(3): 468-477.
[12]	薛红艳, 钱雪忠, 周世兵. 超簇加权的集成聚类算法[J]. 计算机科学与探索, 2021, 15(12): 2362-2373.
[13]	张培, 祝恩, 蔡志平. 单步划分融合多视图子空间聚类算法[J]. 计算机科学与探索, 2021, 15(12): 2413-2420.
[14]	姚晓红, 黄恒君. 非负半监督函数型聚类方法[J]. 计算机科学与探索, 2021, 15(12): 2438-2448.
[15]	王沐贤，丁小欧，王宏志，李建中. 基于相关性的多维时序数据异常溯源方法[J]. 计算机科学与探索, 2021, 15(11): 2142-2150.

面向大规模数据的快速多代表点仿射传播算法

Fast Multi-Exemplar Affinity Propagation Algorithm for Large Data Sets

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics