高维数据流的自适应子空间聚类算法

doi:10.3778/j.issn.1673-9418.2010.09.009

计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (9): 859-864.DOI: 10.3778/j.issn.1673-9418.2010.09.009

• 学术研究 • 上一篇

高维数据流的自适应子空间聚类算法

任家东^1,2, 周玮玮¹⁺, 何海涛¹

1. 燕山大学信息科学与工程学院, 河北秦皇岛 066004
2. 北京理工大学计算机科学技术学院, 北京 100081

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-09-09 发布日期:2010-09-09
通讯作者: 周玮玮

Adaptive Clustering Algorithm for Mining Subspace Clusters in High-Dimensio¬nal Data Stream*

REN Jiadong^1,2, ZHOU Weiwei¹⁺, HE Haitao¹

1. College of Information Science and Engineering, Yanshan University, Qinhuangdao, Hebei 066004, China
2. School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China

Received:1900-01-01 Revised:1900-01-01 Online:2010-09-09 Published:2010-09-09
Contact: ZHOU Weiwei

摘要/Abstract

摘要： 高维数据流聚类是数据挖掘领域中的研究热点。由于数据流具有数据量大、快速变化、高维性等特点, 许多聚类算法不能取得较好的聚类质量。提出了高维数据流的自适应子空间聚类算法SAStream。该算法改进了HPStream中的微簇结构并定义了候选簇, 只在相应的子空间内计算新来数据点到候选簇质心的距离, 减少了聚类时被检查微簇的数目, 将形成的微簇存储在金字塔时间框架中, 使用时间衰减函数删除过期的微簇; 当数据流量大时, 根据监测的系统资源使用情况自动调整界限半径和簇选择因子, 从而调节聚类的粒度。实验结果表明, 该算法具有良好的聚类质量和快速的数据处理能力。

关键词: 高维数据流, 子空间聚类, 数据流流量, 自适应

Abstract: Clustering high-dimensional data streams is a research focused on the area of data mining. As the data stream is large volume, rapidly, high-dimensional, many clustering algorithms cannot achieve good clustering quali¬ty. This paper proposes a new adaptive clustering algorithm for mining subspace clusters in high-dimensional data stream, called SAStream. It improves the cluster structure in HPStream and defines the candidate clusters. The algorithm only computes the distance between the newly coming data points and the centroids of the candidate clusters instead of all clusters, so the number of examined clusters is reduced during clustering process. The created clusters are stored in pyramidal time frame and time fading function is used to discount the history of past behavior. When the data rate is fast, the LimitingRadius and cluster selection factor adjust automatically, and the clustering granularity adjusts all along. The experimental results show that the algorithm can group well with high speed.

Key words: high-dimensional data stream, subspace clustering, data rate, adaptive

中图分类号:

TP301.6

任家东1,2 , 周玮玮1+ , 何海涛1 . 高维数据流的自适应子空间聚类算法[J]. 计算机科学与探索, 2010, 4(9): 859-864.

REN Jiadong^1,2, ZHOU Weiwei¹⁺, HE Haitao¹. Adaptive Clustering Algorithm for Mining Subspace Clusters in High-Dimensio¬nal Data Stream*[J]. Journal of Frontiers of Computer Science and Technology, 2010, 4(9): 859-864.

[1]	黄镓辉, 彭力, 谢林柏. 无人机场景下尺度自适应的车辆跟踪算法[J]. 计算机科学与探索, 2021, 15(7): 1302-1309.
[2]	范瑞东, 侯臣平. 鲁棒自加权的多视图子空间聚类[J]. 计算机科学与探索, 2021, 15(6): 1062-1073.
[3]	毛清华, 张强. 融合柯西变异和反向学习的改进麻雀算法[J]. 计算机科学与探索, 2021, 15(6): 1155-1164.
[4]	刘晓龙, 王士同. 面向开放集图像分类的模糊域自适应方法[J]. 计算机科学与探索, 2021, 15(3): 515-523.
[5]	张炜, 邓赵红, 王士同. 基于核诱导的不完整多视角聚类[J]. 计算机科学与探索, 2021, 15(2): 284-293.
[6]	朱方圆, 马志强, 陈艳, 张晓旭, 王洪彬, 宝财吉拉呼. 语音识别中说话人自适应方法研究综述[J]. 计算机科学与探索, 2021, 15(12): 2241-2255.
[7]	张培, 祝恩, 蔡志平. 单步划分融合多视图子空间聚类算法[J]. 计算机科学与探索, 2021, 15(12): 2413-2420.
[8]	范虹，史肖敏，姚若侠. 头脑风暴算法优化的乳腺MR图像软子空间聚类算法[J]. 计算机科学与探索, 2020, 14(8): 1348-1357.
[9]	许鹏，邓赵红，王骏，王士同. 基于联合信息保持的异构领域自适应[J]. 计算机科学与探索, 2020, 14(7): 1183-1193.
[10]	张德惠，游晓明，刘升. 融合猫群算法的动态分组蚁群算法[J]. 计算机科学与探索, 2020, 14(5): 880-891.
[11]	赵慧，景丽萍，于剑. 自适应监督下降方法的姿态鲁棒人脸对齐算法[J]. 计算机科学与探索, 2020, 14(4): 649-656.
[12]	陈兴国，徐修颖，陈康扬，杨光. 基于CMAES集成学习方法的地表水质分类[J]. 计算机科学与探索, 2020, 14(3): 426-436.
[13]	李超，门昌骞，王文剑. PAC最优的RMAX-KNN探索算法[J]. 计算机科学与探索, 2020, 14(3): 513-526.
[14]	杜师帅，邱天，李灵巧，胡锦泉，郑安兵，冯艳春，胡昌勤，杨辉华. 多层梯度提升树在药品鉴别中的应用[J]. 计算机科学与探索, 2020, 14(2): 260-273.
[15]	罗养霞，马迪，常言说. PID参数调节的谱多流形聚类算法研究[J]. 计算机科学与探索, 2019, 13(8): 1360-1369.

高维数据流的自适应子空间聚类算法

Adaptive Clustering Algorithm for Mining Subspace Clusters in High-Dimensio¬nal Data Stream*

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics