计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (9): 859-864.DOI: 10.3778/j.issn.1673-9418.2010.09.009
• 学术研究 • 上一篇
任家东1,2, 周玮玮1+, 何海涛1
REN Jiadong1,2, ZHOU Weiwei1+, HE Haitao1
摘要: 高维数据流聚类是数据挖掘领域中的研究热点。由于数据流具有数据量大、快速变化、高维性等特点, 许多聚类算法不能取得较好的聚类质量。提出了高维数据流的自适应子空间聚类算法SAStream。该算法改进了HPStream中的微簇结构并定义了候选簇, 只在相应的子空间内计算新来数据点到候选簇质心的距离, 减少了聚类时被检查微簇的数目, 将形成的微簇存储在金字塔时间框架中, 使用时间衰减函数删除过期的微簇; 当数据流量大时, 根据监测的系统资源使用情况自动调整界限半径和簇选择因子, 从而调节聚类的粒度。实验结果表明, 该算法具有良好的聚类质量和快速的数据处理能力。
中图分类号: