不确定数据流上Top-k异常点查询算法

doi:10.3778/j.issn.1673-9418.1405050

计算机科学与探索 ›› 2015, Vol. 9 ›› Issue (2): 172-181.DOI: 10.3778/j.issn.1673-9418.1405050

不确定数据流上Top-k异常点查询算法

曹科研+，王国仁，韩东红，李硕儒

东北大学信息科学与工程学院，沈阳 110819

出版日期:2015-02-01 发布日期:2015-02-03

Top-k Outlier Detection Algorithm on Uncertain Data Stream

CAO Keyan+, WANG Guoren, HAN Donghong, LI Shuoru

College of Information Science and Engineering, Northeastern University, Shenyang 110819, China

Online:2015-02-01 Published:2015-02-03

摘要/Abstract

摘要： 近几年，随着数据流和不确定数据的产生，不确定数据流上的异常点检测成为新的研究热点。然而，现有的不确定数据的异常点定义中涉及3个参数，这对于用户是非常难设定的，以致不能查询到适合的异常点。在大多时候，用户更想知道最可能是异常点的对象，因此提出了不确定数据流上的top-k异常点查询算法。该算法通过估计数据对象异常点的概率范围而进行剪枝，从而减少了一些不必要的计算，同时增量地计算数据对象异常点的概率范围。在真实数据集和合成数据集上进行了一系列的模拟实验，证明了算法的性能。

关键词: 不确定数据, 数据挖掘, 异常点, top-k

Abstract: In recent years, along with the appearance of uncertain data, outlier detection on uncertain data stream becomes a new hotspot. However, three parameters are contained in the existing definition of outlier on uncertain data, it is very difficult for users to set these parameters, the user cannot get the suitable outlier. Most of the time, the users would like to get the objects which are most likely to be outliers. This paper proposes the top-k outlier detection on uncertain data stream. The proposed method prunes objects based on the estimation of the range of probabilities being outlier and reduces some unnecessary computation. Meanwhile, this paper proposes the incremental method for computing the range of probabilities to improve efficiency. Finally, the performance of the proposed method is verified through a number of simulation experiments on real and synthetic datasets.

Key words: uncertain data, data mining, outlier, top-k

曹科研，王国仁，韩东红，李硕儒. 不确定数据流上Top-k异常点查询算法[J]. 计算机科学与探索, 2015, 9(2): 172-181.

CAO Keyan, WANG Guoren, HAN Donghong, LI Shuoru. Top-k Outlier Detection Algorithm on Uncertain Data Stream[J]. Journal of Frontiers of Computer Science and Technology, 2015, 9(2): 172-181.

[1]	孙冬璞, 曲丽. 时间序列特征表示与相似性度量研究综述[J]. 计算机科学与探索, 2021, 15(2): 195-205.
[2]	王光耀, 王丽珍, 杨培忠, 陈红梅. 极小负co-location模式及有效的挖掘算法[J]. 计算机科学与探索, 2021, 15(2): 366-378.
[3]	储传鑫，王丽珍，周丽华，李旭阳. 恶性肿瘤与工业污染之间的模糊关系挖掘[J]. 计算机科学与探索, 2020, 14(12): 2061-2071.
[4]	王素琴，吴子锐. 利用LSTM网络和课程关联分类的推荐模型[J]. 计算机科学与探索, 2019, 13(8): 1380-1389.
[5]	崔美玉，万静，何云斌，李松. 障碍空间中基于网格的不确定数据聚类算法[J]. 计算机科学与探索, 2019, 13(3): 408-417.
[6]	周凯文，杨智慧，马会心，何震瀛，荆一楠，王晓阳. 面向特定划分的主题模型的设计与实现[J]. 计算机科学与探索, 2018, 12(7): 1036-1046.
[7]	于嘉希，李松，张丽平，刘蕾. 面向不确定数据的概率障碍k聚集最近邻查询[J]. 计算机科学与探索, 2018, 12(2): 231-240.
[8]	舒敏，刘华文，郑忠龙，徐晓丹. 结合局部敏感哈希和随机游走的异常检测算法[J]. 计算机科学与探索, 2018, 12(12): 1950-1960.
[9]	朱命冬，徐立新，申德荣，寇月，聂铁铮. 面向不确定文本数据的余弦相似性查询方法[J]. 计算机科学与探索, 2018, 12(1): 49-64.
[10]	韩楠，乔少杰，李天瑞，宫兴伟，舒红平，元昌安. 面向复杂网络的中药方剂配伍规律挖掘算法[J]. 计算机科学与探索, 2017, 11(7): 1159-1165.
[11]	朱焕雄，刘波. 基于人工蜂群智能技术的属性异常点检测[J]. 计算机科学与探索, 2017, 11(12): 1984-1992.
[12]	陆莉莉，张永潘，谈海宇，季一木. 大数据分类挖掘算法及其概念漂移应用研究[J]. 计算机科学与探索, 2016, 10(12): 1683-1692.
[13]	沈琰辉，刘华文，徐晓丹，赵建民，陈中育. 基于邻域离散度的异常点检测算法[J]. 计算机科学与探索, 2016, 10(12): 1763-1772.
[14]	李亚芳，贾彩燕，于剑. 应用非负矩阵分解模型的社区发现方法综述[J]. 计算机科学与探索, 2016, 10(1): 1-13.
[15]	王虹旭，吴斌，刘旸. 基于Spark的并行图数据分析系统[J]. 计算机科学与探索, 2015, 9(9): 1066-1074.

不确定数据流上Top-k异常点查询算法

Top-k Outlier Detection Algorithm on Uncertain Data Stream

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics