计算机科学与探索 ›› 2020, Vol. 14 ›› Issue (6): 996-1004.DOI: 10.3778/j.issn.1673-9418.1901045
赵萌萌,王士同
ZHAO Mengmeng, WANG Shitong
摘要:
现有的基于共享近邻紧密度的谱聚类算法由于能很好地探索出数据点之间的潜在相似性关系,对未能完全分离的数据集具有健壮性,受到了越来越多的关注。但是,在运行时间和内存需求方面,它要花费的代价仍然十分昂贵,这使得其聚类处理能力不太高效,具有运行速度较慢,运行时间过长,面对大数据集时算法失效等缺点,因此该算法对于大规模数据集来说是不切实际的。为了克服这些缺点,提出了一种它的增量版本。该算法的思想是先将数据集分解为若干子集,然后以增量的方式在每个子集上运行,从而保证其具有良好的聚类性能。通过对人工数据集和仿真数据集进行大量的实验验证了该谱聚类算法的有效性。同时,该算法的时间消耗低,聚类精度高,且能够有效地对不断增加的数据集进行聚类。