计算机科学与探索 ›› 2022, Vol. 16 ›› Issue (1): 163-175.DOI: 10.3778/j.issn.1673-9418.2007042
收稿日期:
2020-07-07
修回日期:
2020-09-04
出版日期:
2022-01-01
发布日期:
2020-09-15
通讯作者:
+ E-mail: jnlibeibei1995@163.com作者简介:
李贝贝(1995—),男,山东滨州人,硕士研究生,主要研究方向为异常数据检测、不确定数据聚类。基金资助:
Received:
2020-07-07
Revised:
2020-09-04
Online:
2022-01-01
Published:
2020-09-15
About author:
LI Beibei, born in 1995, M.S. candidate. His research interests include anomaly data detection and uncertain data clustering.Supported by:
摘要:
近年来,自编码器和神经网络技术已被广泛研究并应用于轴承振动等工业数据的异常检测问题上,但仍存在着训练数据量大、网络参数初始化、训练效率较低、异常检测效果较差等问题。为解决上述问题,提出了一种结合马氏距离和自编码网络的异常检测方法。利用轴承振动数据特征之间具有一定相关性的特点,通过数据的马氏距离快速检测出部分异常数据,减少了自编码网络的训练数据量;用自编码器结合分类器构建自编码网络,解决了网络参数初始化问题并且显著提高了训练效率;将数据的马氏距离作为特征加入训练中提升了自编码网络的异常检测效果;在自编码器中加入稀疏性限制并构造先升维再编码的结构,增强了自编码器的特征学习能力和收敛性。实验结果表明,针对低维轴承振动数据,提出的方法较其他异常检测方法具有较好的检测效果且具有一定的稳定性和泛化能力。
中图分类号:
李贝贝, 彭力. 基于改进自编码网络的轴承振动异常检测[J]. 计算机科学与探索, 2022, 16(1): 163-175.
LI Beibei, PENG Li. Bearing Vibration Abnormal Detection Based on Improved Autoencoder Network[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(1): 163-175.
实际类别 | 预测为异常数据 | 预测为正常数据 |
---|---|---|
实际异常数据 | TP | FN |
实际正常数据 | FP | TN |
表1 评价指标混淆矩阵
Table 1 Evaluation index confusion matrix
实际类别 | 预测为异常数据 | 预测为正常数据 |
---|---|---|
实际异常数据 | TP | FN |
实际正常数据 | FP | TN |
类别标签 | 类别名 | 样本数 | 数据占比/% |
---|---|---|---|
0 | 正常数据 | 537 | 54.7 |
1 | 异常数据 | 445 | 45.3 |
表2 数据集1样本大小
Table 2 Size of dataset 1
类别标签 | 类别名 | 样本数 | 数据占比/% |
---|---|---|---|
0 | 正常数据 | 537 | 54.7 |
1 | 异常数据 | 445 | 45.3 |
类别标签 | 类别名 | 样本数 | 数据占比/% |
---|---|---|---|
0 | 正常数据 | 537 | 86.3 |
1 | 异常数据 | 85 | 13.7 |
表3 不确定数据集
Table 3 Uncertain dataset
类别标签 | 类别名 | 样本数 | 数据占比/% |
---|---|---|---|
0 | 正常数据 | 537 | 86.3 |
1 | 异常数据 | 85 | 13.7 |
参数 | 数值 |
---|---|
学习率 | 0.001 |
L2正则化惩罚因子 | 0.001 |
稀疏惩罚项权重系数 | 0.2 |
稀疏常数 | 0.04 |
一次训练选取样本数 | 10 |
输出层激活函数 | sigmoid |
输入层及隐层激活函数 | ReLU |
表4 自编码器参数设置
Table 4 Parameter setting of autoencoder
参数 | 数值 |
---|---|
学习率 | 0.001 |
L2正则化惩罚因子 | 0.001 |
稀疏惩罚项权重系数 | 0.2 |
稀疏常数 | 0.04 |
一次训练选取样本数 | 10 |
输出层激活函数 | sigmoid |
输入层及隐层激活函数 | ReLU |
网络 | Acc | Pre | Rec | F1 |
---|---|---|---|---|
不加入马氏距离 | 0.875 | 0.875 | 1.000 | 0.934 |
加入马氏距离 | 0.976 | 0.973 | 1.000 | 0.986 |
表5 训练数据是否加入马氏距离的对比
Table 5 Comparison of training data with or without Mahalanobis distance
网络 | Acc | Pre | Rec | F1 |
---|---|---|---|---|
不加入马氏距离 | 0.875 | 0.875 | 1.000 | 0.934 |
加入马氏距离 | 0.976 | 0.973 | 1.000 | 0.986 |
网络 | 一次训练所需平均时间/μs | 训练次数 | 训练所需总时间/μs |
---|---|---|---|
传统AE | 113 | 50 | 5 650 |
改进AE | 142 | 15 | 2 130 |
表6 自编码器训练时间的对比
Table 6 Comparison of autoencoder training time
网络 | 一次训练所需平均时间/μs | 训练次数 | 训练所需总时间/μs |
---|---|---|---|
传统AE | 113 | 50 | 5 650 |
改进AE | 142 | 15 | 2 130 |
网络 | 一次训练所需平均时间/μs | 训练次数 | 训练所需总时间/μs |
---|---|---|---|
传统AN | 121 | 60 | 7 260 |
改进AN | 162 | 30 | 4 860 |
表7 自编码网络训练时间的对比
Table 7 Comparison of autoencoder network training time
网络 | 一次训练所需平均时间/μs | 训练次数 | 训练所需总时间/μs |
---|---|---|---|
传统AN | 121 | 60 | 7 260 |
改进AN | 162 | 30 | 4 860 |
网络 | Acc | Pre | Rec | F1 |
---|---|---|---|---|
传统AN | 0.927 | 0.923 | 1.000 | 0.960 |
改进AN | 0.989 | 1.000 | 0.979 | 0.989 |
表8 传统自编码网络与改进自编码网络的对比
Table 8 Comparison between traditional autoencoder network and improved autoencoder network
网络 | Acc | Pre | Rec | F1 |
---|---|---|---|---|
传统AN | 0.927 | 0.923 | 1.000 | 0.960 |
改进AN | 0.989 | 1.000 | 0.979 | 0.989 |
训练数据量 | 网络 | Acc | Pre | Rec | F1 |
---|---|---|---|---|---|
20% | 传统AN | 0.883 | 0.882 | 1.000 | 0.937 |
改进AN | 0.891 | 0.889 | 1.000 | 0.941 | |
40% | 传统AN | 0.870 | 0.869 | 1.000 | 0.930 |
改进AN | 0.934 | 0.931 | 1.000 | 0.964 | |
60% | 传统AN | 0.869 | 0.867 | 1.000 | 0.929 |
改进AN | 0.942 | 0.940 | 1.000 | 0.968 | |
80% | 传统AN | 0.890 | 0.888 | 1.000 | 0.941 |
改进AN | 0.977 | 0.976 | 0.999 | 0.987 |
表9 不同训练数据量下的实验结果对比
Table 9 Experimental results comparison under different amounts of training data
训练数据量 | 网络 | Acc | Pre | Rec | F1 |
---|---|---|---|---|---|
20% | 传统AN | 0.883 | 0.882 | 1.000 | 0.937 |
改进AN | 0.891 | 0.889 | 1.000 | 0.941 | |
40% | 传统AN | 0.870 | 0.869 | 1.000 | 0.930 |
改进AN | 0.934 | 0.931 | 1.000 | 0.964 | |
60% | 传统AN | 0.869 | 0.867 | 1.000 | 0.929 |
改进AN | 0.942 | 0.940 | 1.000 | 0.968 | |
80% | 传统AN | 0.890 | 0.888 | 1.000 | 0.941 |
改进AN | 0.977 | 0.976 | 0.999 | 0.987 |
检测方法 | Acc | Pre | Rec | F1 |
---|---|---|---|---|
iForest | 0.644 | 0.606 | 0.998 | 0.754 |
KNN | 0.931 | 0.927 | 1.000 | 0.962 |
LOF | 0.920 | 0.965 | 0.885 | 0.923 |
SVM | 0.960 | 0.964 | 1.000 | 0.981 |
K-means | 0.968 | 0.982 | 1.000 | 0.981 |
DNN | 0.976 | 0.973 | 1.000 | 0.986 |
本文方法 | 0.995 | 0.991 | 1.000 | 0.995 |
表10 异常检测算法与所提方法的对比
Table 10 Comparison of anomaly detection algorithms with proposed method
检测方法 | Acc | Pre | Rec | F1 |
---|---|---|---|---|
iForest | 0.644 | 0.606 | 0.998 | 0.754 |
KNN | 0.931 | 0.927 | 1.000 | 0.962 |
LOF | 0.920 | 0.965 | 0.885 | 0.923 |
SVM | 0.960 | 0.964 | 1.000 | 0.981 |
K-means | 0.968 | 0.982 | 1.000 | 0.981 |
DNN | 0.976 | 0.973 | 1.000 | 0.986 |
本文方法 | 0.995 | 0.991 | 1.000 | 0.995 |
数据集 | 标签 | 类别名 | 样本数 | 数据占比/% |
---|---|---|---|---|
数据集2 | 0 | 正常数据 | 1 464 | 75.3 |
1 | 异常数据 | 479 | 24.7 | |
数据集3 | 0 | 正常数据 | 5 936 | 93.9 |
1 | 异常数据 | 388 | 6.1 | |
XJTU-SY数据集 | 0 | 正常数据 | 29 124 | 78.8 |
1 | 异常数据 | 7 836 | 21.2 |
表11 3个数据集样本大小
Table 11 Size of 3 datasets
数据集 | 标签 | 类别名 | 样本数 | 数据占比/% |
---|---|---|---|---|
数据集2 | 0 | 正常数据 | 1 464 | 75.3 |
1 | 异常数据 | 479 | 24.7 | |
数据集3 | 0 | 正常数据 | 5 936 | 93.9 |
1 | 异常数据 | 388 | 6.1 | |
XJTU-SY数据集 | 0 | 正常数据 | 29 124 | 78.8 |
1 | 异常数据 | 7 836 | 21.2 |
数据集 | Acc | Pre | Rec | F1 |
---|---|---|---|---|
数据集2 | 0.985 | 1.000 | 0.980 | 0.990 |
数据集3 | 0.993 | 0.994 | 0.998 | 0.996 |
XJTU-SY数据集 | 0.984 | 0.982 | 1.000 | 0.991 |
表12 在3个数据集上的实验结果
Table 12 Experimental results on 3 datasets
数据集 | Acc | Pre | Rec | F1 |
---|---|---|---|---|
数据集2 | 0.985 | 1.000 | 0.980 | 0.990 |
数据集3 | 0.993 | 0.994 | 0.998 | 0.996 |
XJTU-SY数据集 | 0.984 | 0.982 | 1.000 | 0.991 |
[1] |
LEI Y G, LI N P, GUO L, et al. Machinery health prognostics: a systematic review from data acquisition to RUL prediction[J]. Mechanical Systems and Signal Processing, 2018, 104:799-834.
DOI URL |
[2] | 毛文涛, 田思雨, 窦智, 等. 一种基于深度迁移学习的滚动轴承早期故障在线检测方法[J/OL]. 自动化学报 [2020-05-10]. https://doi.org/10.16383/j.aas.c190593. |
MAO W T, TIAN S Y, DOU Z, et al. A new deep transfer learning-based online detection method of rolling bearing early fault[J/OL]. Acta Automatica Sinica [2020-05-10]. https://doi.org/10.16383/j.aas.c190593. | |
[3] |
LING L, CUI X, WANG Y G, et al. A novel switching unscented Kalman filter method for remaining useful life prediction of rolling bearing[J]. Measurement, 2019, 135:678-684.
DOI URL |
[4] | 程艳云, 张守超, 杨杨. 基于大数据的时间序列异常点检测研究[J]. 计算机技术与发展, 2016, 26(5):139-144. |
CHENG Y Y, ZHANG S C, YANG Y. Research on the detection of outliers in time series based on big data[J]. Computer Technology and Development, 2016, 26(5):139-144. | |
[5] |
GUO W Y, JI Y, LUO Y, et al. Substation equipment 3D identification based on KNN classification of subspace feature vector[J]. Journal of Intelligent Systems, 2019, 28(5):807-819.
DOI URL |
[6] | 刘芳, 齐建鹏, 于彦伟, 等. 基于密度的Top-n局部异常点快速检测算法[J]. 自动化学报, 2019, 45(9):1756-1771. |
LIU F, QI J P, YU Y W, et al. A fast algorithm for density-based top-n local outlier detection[J]. Acta Automatica Sinica, 2019, 45(9):1756-1771. | |
[7] | SCHÖLKOPF B, WILLIAMSON R C, SMOLA A J, et al. Support vector method for novelty detection[C]// Proceedings of the 12th International Conference on Neural Information Processing Systems, Denver, Nov 29-Dec 4, 2000. Cambridge: MIT Press, 2000: 582-588. |
[8] | LIU F T, TING K M, ZHOU Z H. Isolation forest[C]// Proceedings of the 8th IEEE International Conference on Data Mining, Pisa, Dec 15-19, 2008. Washington: IEEE Computer Society, 2008: 413-422. |
[9] |
JIA F, LEI Y G, GUO L, et al. A neural network constructed by deep learning technique and its application to intelligent fault diagnosis of machines[J]. Neurocomputing, 2018, 272:619-628.
DOI URL |
[10] |
RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088):533-536.
DOI URL |
[11] |
HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.
DOI URL |
[12] | NG A. Sparse autoencoder[R]. CS294A Lecture Notes, 2011: 1-19. |
[13] |
XU J, XIANG L, LIU Q S, et al. Stacked sparse autoencoder (SSAE) for nuclei detection on breast cancer histopathology images[J]. IEEE Transactions on Medical Imaging, 2016, 35(1):119-130.
DOI URL |
[14] | JIN W. A deep autoencoder based outlier detection for time series[C]// Proceedings of the 2018 3rd International Conference on Computer Science and Information Engineering, Xi’an, Sep 21-22, 2018. Piscataway: IEEE, 2018: 305-309. |
[15] | 张西宁, 向宙, 唐春华. 一种深度卷积自编码网络及其在滚动轴承故障诊断中的应用[J]. 西安交通大学学报, 2018, 52(7):1-8. |
ZHANG X N, XIANG Z, TANG C H. A deep convolutional auto-encoding neural network and its application in bearing fault diagnosis[J]. Journal of Xi’an Jiaotong University, 2018, 52(7):1-8. | |
[16] |
IMANI M. Difference-based target detection using Mahala-nobis distance and spectral angle[J]. International Journal of Remote Sensing, 2019, 40(3/4):811-831.
DOI URL |
[17] | THEODORIDIS S. Neural networks and deep learning[M]// Machine Learning. Orlando: Academic Press, 2016: 875-936. |
[18] |
KULLBACK S, LEIBLER R A. On information and sufficiency[J]. The Annals of Mathematical Statistics, 1951, 22(1):79-86.
DOI URL |
[19] | COATES A, NG A Y, LEE H. An analysis of single-layer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, Apr 11-13, 2011: 215-233. |
[20] |
TOBON-MEJIA DIEGO A, MEDJAHER K, ZERHOUNI N. A data-driven failure prognostics method based on mixture of Gaussians hidden Markov models[J]. IEEE Transactions on Reliability, 2012, 61(2):491-503.
DOI URL |
[21] |
WANG B, LEI Y G, LI N P, et al. A hybrid prognostics approach for estimating remaining useful life of rolling element bearings[J]. IEEE Transactions on Reliability, 2020, 69(1):401-412.
DOI URL |
[1] | 杨政, 邓赵红, 罗晓清, 顾鑫, 王士同. 利用ELM-AE和迁移表征学习构建的目标跟踪系统[J]. 计算机科学与探索, 2022, 16(7): 1633-1648. |
[2] | 朱壮壮, 周治平. 高斯混合生成模型检测健康数据异常[J]. 计算机科学与探索, 2022, 16(5): 1128-1135. |
[3] | 邬开俊, 黄涛, 王迪聪, 白晨帅, 陶小苗. 视频异常检测技术研究进展[J]. 计算机科学与探索, 2022, 16(3): 529-540. |
[4] | 陈俊芬, 张明, 赵佳成, 谢博鋆, 李艳. 结合降噪和自注意力的深度聚类算法[J]. 计算机科学与探索, 2021, 15(9): 1717-1727. |
[5] | 杨章静, 王文博, 黄璞, 张凡龙. 基于潜子空间去噪的子空间学习图像分类方法[J]. 计算机科学与探索, 2021, 15(12): 2374-2389. |
[6] | 王沐贤,丁小欧,王宏志,李建中. 基于相关性的多维时序数据异常溯源方法[J]. 计算机科学与探索, 2021, 15(11): 2142-2150. |
[7] | 孙伟, 张羽. 利用流挖掘和图挖掘的内网异常检测方法[J]. 计算机科学与探索, 2020, 14(7): 1154-1163. |
[8] | 程玉胜,李志伟,庞淑芳. 特征标记依赖自编码器的多标记特征提取方法[J]. 计算机科学与探索, 2020, 14(3): 470-481. |
[9] | 杨杰,唐亚纯,谭道军,刘小兵. 多通道自编码器深度学习的入侵检测方法[J]. 计算机科学与探索, 2020, 14(12): 2050-2060. |
[10] | 徐超,詹天明. 基于低秩全变差正则化的高光谱异常检测方法[J]. 计算机科学与探索, 2020, 14(12): 2140-2149. |
[11] | 刘少钦,唐爽,赵俊峰,王亚沙,卓琳. 基于扩展主题模型的异常医疗处方检测方法[J]. 计算机科学与探索, 2020, 14(1): 30-39. |
[12] | 龙廷艳,万良,丁红卫. 自编码网络在JavaScript恶意代码检测中的应用研究[J]. 计算机科学与探索, 2019, 13(12): 2073-2084. |
[13] | 张蕾,钱峰,赵姝,陈洁,张燕平. 利用变分自编码器进行网络表示学习[J]. 计算机科学与探索, 2019, 13(10): 1733-1744. |
[14] | 刘晓燕,张诚诚,郭茂祖,邢林林. 基于组合模型的转录调控网络构建算法研究[J]. 计算机科学与探索, 2018, 12(7): 1154-1161. |
[15] | 许欧阳,李光辉. 萤火虫优化和随机森林的WSN异常数据检测[J]. 计算机科学与探索, 2018, 12(10): 1633-1644. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||