摘要: 针对密度峰值聚类算法DPC(Clustering by fast search and find of Density Peaks)的样本局部密度受到数据集规模大小和截断距离dc影响,及其一步分配策略会带来样本分配的“多米诺骨牌效应”,提出基于加权共享近邻优化的密度峰值聚类算法WSN-DPC (Density peak clustering algorithm based on weighted shared neighbors optimization)。算法利用基于标准差加权的距离代替欧氏距离,强化样本不同特征对距离的贡献,利用共享近邻信息定义样本相似度,进而定义样本局部密度和相对距离,以尽可能体现样本真实分布信息。同时,采用不同分配策略对离群点和非离群点依次进行分配,使得每个样本能够尽可能地分配到正确类簇。多个数据集的实验测试和统计性检验结果表明,WSN-DPC算法优于DPC及其改进算法,但不是与所有对比算法均有统计意义上的显著不同。因此,提出的WSN-DPC算法有效地解决了DPC算法的缺陷,成为当前最优的密度峰值聚类算法。