计算机科学与探索 ›› 2022, Vol. 16 ›› Issue (10): 2345-2356.DOI: 10.3778/j.issn.1673-9418.2102055
张涛1,2,+(), 林丽琴1,2, 张亚娟1,2, 牛晓霞1,2
收稿日期:
2021-02-24
修回日期:
2021-05-20
出版日期:
2022-10-01
发布日期:
2021-05-31
通讯作者:
+ E-mail: zhtao@ysu.edu.cn作者简介:
张涛(1979—),男,河北秦皇岛人,博士,副教授,CCF会员,主要研究方向为医学信息处理、机器学习、概念认知学习等。基金资助:
ZHANG Tao1,2,+(), LIN Liqin1,2, ZHANG Yajuan1,2, NIU Xiaoxia1,2
Received:
2021-02-24
Revised:
2021-05-20
Online:
2022-10-01
Published:
2021-05-31
About author:
ZHANG Tao, born in 1979, Ph.D., associate professor, member of CCF. His research interests include medical signal processing, machine learning, concept-cognitive learning, etc.Supported by:
摘要:
帕金森病语音障碍分析是进行基于语音的帕金森病早期诊断的信息分析基础。近年来,随着研究的深入,Mel变换域信息在本领域表现出越来越多的优势,同时提取结构特征对分类性能的提升日益显现。从帕金森病人语音信号的Mel变换域信息结构出发,提出Mel变换域局部梯度统计特征提取方法。该方法首先通过Mel频率变换的方法将语音信号转化为时频变换域能量信号,并将能量谱进行可视化表示;其次对能量数据进行滑动窗口处理,计算检测窗口内每个能量点的梯度与角度,获得Mel变换域的局部结构信息;最后根据角度统计所有检测窗口能量点的梯度,从而得到整体的局部梯度统计特征,以此表示Mel变换域中能量值的变化情况。在不同的帕金森病语音数据集上利用不同分类器进行实验,实验结果表明,与Mel变换域分析、倒谱分析和深度学习等方法相比,所提算法具有高准确度、高灵敏性的特点,从而验证了提出的局部梯度统计特征在帕金森语音障碍分析中的有效性。
中图分类号:
张涛, 林丽琴, 张亚娟, 牛晓霞. 帕金森语音障碍的Mel变换域局部梯度统计分析[J]. 计算机科学与探索, 2022, 16(10): 2345-2356.
ZHANG Tao, LIN Liqin, ZHANG Yajuan, NIU Xiaoxia. Statistical Analysis of Local Gradient in Mel Transform Domain for Parkinson’s Dysphonia[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(10): 2345-2356.
图2 健康人与PD患者语音时域、频域及Mel域对比
Fig.2 Comparison of speech in time domain, frequency domain and Mel transform domain between healthy people and patients with PD
数据集名称 | SPDD | CPPDD |
---|---|---|
采集方式 | 持续发音 | 持续发音 |
采样频率/kHz | 44.1 | 44.1 |
样本数据 | 534(282患病) | 918(495患病) |
患者/健康比例 | 20∶20 | 36∶32 |
用药情况 | 未提供 | 有记录 |
表1 SPDD和CPPDD数据集对比
Table 1 Comparison of SPDD and CPPDD datasets
数据集名称 | SPDD | CPPDD |
---|---|---|
采集方式 | 持续发音 | 持续发音 |
采样频率/kHz | 44.1 | 44.1 |
样本数据 | 534(282患病) | 918(495患病) |
患者/健康比例 | 20∶20 | 36∶32 |
用药情况 | 未提供 | 有记录 |
核函数 | 数据集 | 特征维度 | AC/% |
---|---|---|---|
Gaussian | SPDD | 5 | 98.77 |
CPPDD | 12 | 92.02 |
表2 SVM分类器SFLG最优参数
Table 2 SFLG optimal parameters of SVM classifier
核函数 | 数据集 | 特征维度 | AC/% |
---|---|---|---|
Gaussian | SPDD | 5 | 98.77 |
CPPDD | 12 | 92.02 |
| 数据集 | 特征维度 | AC/% |
---|---|---|---|
1 | SPDD | 3 | 96.50 |
3 | CPPDD | 11 | 92.62 |
表3 KNN分类器SFLG最优参数
Table 3 SFLG optimal parameters of KNN classifier
| 数据集 | 特征维度 | AC/% |
---|---|---|---|
1 | SPDD | 3 | 96.50 |
3 | CPPDD | 11 | 92.62 |
分类器 | SPDD数据集 | CPPDD数据集 | ||
---|---|---|---|---|
训练集 | 测试集 | 训练集 | 测试集 | |
SVM | 98.13 | 98.03 | 92.19 | 92.10 |
KNN | 97.06 | 96.86 | 92.32 | 92.45 |
表4 SPDD、CPPDD数据集分类准确率
Table 4 Accuracy for SPDD and CPPDD datasets 单位:%
分类器 | SPDD数据集 | CPPDD数据集 | ||
---|---|---|---|---|
训练集 | 测试集 | 训练集 | 测试集 | |
SVM | 98.13 | 98.03 | 92.19 | 92.10 |
KNN | 97.06 | 96.86 | 92.32 | 92.45 |
分类器 | SPDD训练 | CPPDD测试 | CPPDD训练 | SPDD测试 |
---|---|---|---|---|
SVM | 95.70 | 64.41 | 92.35 | 64.79 |
KNN | 94.15 | 57.08 | 92.03 | 55.81 |
表5 数据集间交叉验证分类准确率结果
Table 5 Cross validation classification accuracy
分类器 | SPDD训练 | CPPDD测试 | CPPDD训练 | SPDD测试 |
---|---|---|---|---|
SVM | 95.70 | 64.41 | 92.35 | 64.79 |
KNN | 94.15 | 57.08 | 92.03 | 55.81 |
分类器 | 验证 方法 | SPDD数据集 | CPPDD数据集 | ||||
---|---|---|---|---|---|---|---|
AC | SE | SP | AC | SE | SP | ||
SVM | 5折 | 97.53 | 97.61 | 96.05 | 92.17 | 93.46 | 90.34 |
10折 | 97.81 | 97.88 | 96.61 | 92.28 | 94.13 | 90.43 | |
留一 | 97.22 | 97.29 | 97.02 | 92.93 | 92.01 | 91.84 | |
KNN | 5折 | 96.85 | 96.23 | 94.03 | 91.14 | 96.75 | 84.53 |
10折 | 97.85 | 97.98 | 96.69 | 92.04 | 96.75 | 87.72 | |
留一 | 96.63 | 97.70 | 89.09 | 90.69 | 95.51 | 85.89 |
表6 SPDD和CPPDD数据集内交叉验证的分类准确率 单位:%
Table 6 Classification accuracy of cross validation in SPDD and CPPDD datasets
分类器 | 验证 方法 | SPDD数据集 | CPPDD数据集 | ||||
---|---|---|---|---|---|---|---|
AC | SE | SP | AC | SE | SP | ||
SVM | 5折 | 97.53 | 97.61 | 96.05 | 92.17 | 93.46 | 90.34 |
10折 | 97.81 | 97.88 | 96.61 | 92.28 | 94.13 | 90.43 | |
留一 | 97.22 | 97.29 | 97.02 | 92.93 | 92.01 | 91.84 | |
KNN | 5折 | 96.85 | 96.23 | 94.03 | 91.14 | 96.75 | 84.53 |
10折 | 97.85 | 97.98 | 96.69 | 92.04 | 96.75 | 87.72 | |
留一 | 96.63 | 97.70 | 89.09 | 90.69 | 95.51 | 85.89 |
方法 | 分类器 | SPDD数据集 | CPPDD数据集 | ||||
---|---|---|---|---|---|---|---|
AC | SE | SP | AC | SE | SP | ||
MFCC[ | SVM | 82.50 | 80.00 | 85.00 | — | — | — |
HFCC[ | SVM | 87.50 | 90.00 | 85.00 | — | — | — |
IMFCC[ | RF | 92.34 | 88.67 | 90.00 | 82.89 | 80.66 | 86.47 |
IMFCC[ | SVM | 94.74 | 88.24 | 100.00 | 81.36 | 79.66 | 82.46 |
卷积神经网络[ | — | 99.82 | — | — | — | — | — |
VGG16混合模型[ | — | 90.50 | 91.00 | 90.00 | — | — | — |
SFLG(ours) | SVM | 97.81 | 97.88 | 97.02 | 92.93 | 94.13 | 91.84 |
SFLG(ours) | KNN | 97.85 | 97.98 | 96.69 | 92.04 | 96.75 | 87.72 |
表7 Comparison results between method in this paper and existing technology 单位:%
Table 7
方法 | 分类器 | SPDD数据集 | CPPDD数据集 | ||||
---|---|---|---|---|---|---|---|
AC | SE | SP | AC | SE | SP | ||
MFCC[ | SVM | 82.50 | 80.00 | 85.00 | — | — | — |
HFCC[ | SVM | 87.50 | 90.00 | 85.00 | — | — | — |
IMFCC[ | RF | 92.34 | 88.67 | 90.00 | 82.89 | 80.66 | 86.47 |
IMFCC[ | SVM | 94.74 | 88.24 | 100.00 | 81.36 | 79.66 | 82.46 |
卷积神经网络[ | — | 99.82 | — | — | — | — | — |
VGG16混合模型[ | — | 90.50 | 91.00 | 90.00 | — | — | — |
SFLG(ours) | SVM | 97.81 | 97.88 | 97.02 | 92.93 | 94.13 | 91.84 |
SFLG(ours) | KNN | 97.85 | 97.98 | 96.69 | 92.04 | 96.75 | 87.72 |
[1] | DUFFY J R. Motor speech disorders:substrates, differential diagnosis, and management[M]. Boston: Addison-Wesley, 2005. |
[2] |
LITTLE M A, MCSHARRY P E, ROBERTS S J, et al. Exploiting nonlinear recurrence and fractal scaling properties for voice disorder detection[J]. BioMedical Engineering OnLine, 2007, 6(1): 23.
DOI URL |
[3] |
LITTLE M A, MC SHARRY P E, HUNTER E J, et al. Suitability of dysphonia measurements for telemonitoring of Parkinson’s disease[J]. IEEE Transactions on Biomedical Engineering, 2009, 56(4): 1015-1022.
DOI URL |
[4] | 张涛, 洪文学, 常凤香, 等. 基于元音分类度的帕金森病语音特征分析[J]. 中国生物医学工程学报, 2011, 30(3): 476-480. |
ZHANG T, HONG W X, CHANG F X, et al. Speech features analysis of Parkinson’s disease by vowel class separability[J]. Chinese Journal of Biomedical Engineering, 2011, 30(3): 476-480. | |
[5] |
SAKAR B E, ISENKUL M E, SAKAR C O, et al. Collec-tion and analysis of a Parkinson speech dataset with multiple types of sound recordings[J]. IEEE Journal of Biomedical and Health Informatics, 2013, 17(4): 828-834.
DOI URL |
[6] | BENBA A, JILBAB A, HAMMOUCH A. Using human factor cepstral coefficient on multiple types of voice recordings for detecting patients with Parkinson’s disease[J]. Innovation and Research in BioMedical Engineering, 2017, 38(6): 346-351. |
[7] | KARAN B, MAHTO K, SAHU S S. Detection of Parkinson disease using variational mode decomposition of speech signal[C]// Proceedings of the 2018 International Conference on Communication and Signal Processing, Chennai, Apr 3-5, 2018. Piscataway: IEEE, 2018: 508-512. |
[8] | 张小恒, 王力锐, 曹垚, 等. 混合语音段特征双边式优选算法用于帕金森病分类研究[J]. 生物医学工程学杂志, 2017, 34(6): 942-948. |
ZHANG X H, WANG L R, CAO Y, et al. Combining speech sample and feature bilateral selection algorithm for classification of Parkinson’s disease[J]. Chinese Journal of Biomedical Engineering, 2017, 34(6): 942-948. | |
[9] | 李勇明, 张成, 王品, 等. 面向帕金森病语音数据挖掘的分包融合集成算法[J]. 生物医学工程学杂志, 2019, 36(4): 548-556. |
LI Y M, ZHANG C, WANG P, et al. A partition bagging ensemble learning algorithm for Parkinson’s speech data mining[J]. Chinese Journal of Biomedical Engineering, 2019, 36(4): 548-556. | |
[10] | ZHANG T, ZHANG Y J, CAO Y Y, et al. Diagnosing Parkinson’s disease with speech signal based on convolutional neural network[J]. International Journal of Computer Applica- tions in Technology, 2020, 63(4): 348-353. |
[11] | 王娟, 徐志京. HR-DCGAN方法的帕金森声纹样本扩充及识别研究[J]. 小型微型计算机系统, 2019, 40(9): 2026-2032. |
WANG J, XU Z J. Study on augmentation and recognition of Parkinson’s voiceprint samples by HR-DCGAN method[J]. Journal of Chinese Computer Systems, 2019, 40(9): 2026- 2032. | |
[12] | AI-FATLAWI A H, JABARDI M H, LING S H. Efficient diagnosis system for Parkinson’s disease using deep belief network[C]// Proceedings of the 2016 IEEE Congress on Evo-lutionary Computation, Vancouver, Jul 24-29, 2016. Piscata-way: IEEE, 2016: 1324-1330. |
[13] | KHAN T, WESTIN J, DOUGHERTY M. Cepstral separation difference: a novel approach for speech impairment quant-ification in Parkinson’s disease[J]. Biocybernetics & Biomedical Engineering, 2014, 34(1): 25-34. |
[14] |
OROZCO-ARROYAVE J R, HÖNIG F, ARIAS-LONDOÑO J D, et al. Automatic detection of Parkinson’s disease in running speech spoken in three different languages[J]. The Journal of the Acoustical Society of America, 2016, 139(1):481-500.
DOI URL |
[15] | NARANJO L, PÉREZ C J, MARTÍN J. Addressing voice recording replications for tracking Parkinson’s disease progression[J]. Medical & Biological Engineering & Computing, 2017, 55(3): 365-373. |
[16] |
NARANJO L, PÉREZ C J, MARTÍN J, et al. A two-stage variable selection and classification approach for Parkinson’s disease detection by using voice recording replications[J]. Computer Methods and Programs in Biomedicine, 2017, 142: 147-156.
DOI URL |
[17] | 张涛, 蒋培培, 张亚娟, 等. 基于时频混合域局部统计的帕金森病语音障碍分析方法研究[J]. 生物医学工程学杂志, 2021, 38(1): 21-29. |
ZHANG T, JIANG P P, ZHANG Y J, et al. Parkinson’s disease diagnosis based on local statistics of speech signal in transformation domain[J]. Journal of Biomedical Engineering, 2021, 38(1): 21-29. | |
[18] | ZHANG T, ZHANG Y J, SUN H, et al. Parkinson disease detection using energy direction features based on EMD from voice signal[J]. Biocybernetics and Biomedical Eng-ineering, 2020, 41(1): 127-141. |
[19] | 张涛, 蒋培培, 李林, 等. 基于偏序拓扑图的帕金森病语音障碍分析方法[J]. 中国生物医学工程学报, 2019, 38(1): 62-72. |
ZHANG T, JIANG P P, LI L, et al. Dysphonic analysis of speech disorders in Parkinson’s disease based on partially ordered topological graph[J]. Chinese Journal of Biomedical Engineering, 2019, 38(1): 62-72. | |
[20] | LITTLE M A, VAROQUAUX G, SAEB S, et al. Using and understanding cross-validation strategies. Perspectives on Saeb et al[J]. GigaScience, 2017, 6(5): 1-6. |
[21] |
BENBA A, JILBAB A, HAMMOUCH A. Analysis of multiple types of voice recordings in cepstral domain using MFCC for discriminating between patients with Parkinson’s disease and healthy people[J]. International Journal of Speech Technology, 2016, 19(3): 449-456.
DOI URL |
[22] |
KARAN B, SAHU S S, MAHTO K. Parkinson disease prediction using intrinsic mode function based features from speech signal[J]. Biocybernetics and Biomedical Engineering, 2020, 40(1): 249-264.
DOI URL |
[1] | 徐杨杨, 王艳. 区块链在云制造资源分配的研究[J]. 计算机科学与探索, 2022, 16(10): 2298-2309. |
[2] | 王飞龙, 刘萍, 张玲, 李钢. 改进胶囊网络的小样本图像分类算法[J]. 计算机科学与探索, 2022, 16(10): 2387-2394. |
[3] | 李春标, 谢林柏, 彭力. 特征混合增强与多损失融合的显著性目标检测[J]. 计算机科学与探索, 2022, 16(10): 2395-2404. |
[4] | 李新春, 詹德川. 使用多分类器的分布式模型重用技术[J]. 计算机科学与探索, 2022, 16(10): 2310-2319. |
[5] | 石敏, 沈佳林, 易清明, 骆爱文. 快速超轻量城市交通场景语义分割[J]. 计算机科学与探索, 2022, 16(10): 2377-2386. |
[6] | 耿耀港, 梅红岩, 张兴, 李晓会. 编码-解码技术的图像标题生成方法研究综述[J]. 计算机科学与探索, 2022, 16(10): 2234-2248. |
[7] | 白晓波, 邵景峰, 王铁山, 李勃. 分段搜索的果蝇算法及其对纺织企业资源配置[J]. 计算机科学与探索, 2022, 16(10): 2330-2344. |
[8] | 吴静, 谢辉, 姜火文. 图神经网络推荐系统综述[J]. 计算机科学与探索, 2022, 16(10): 2249-2263. |
[9] | 罗海银, 郑钰辉. 图像修复方法研究综述[J]. 计算机科学与探索, 2022, 16(10): 2193-2218. |
[10] | 张祥平, 刘建勋. 基于深度学习的代码表征及其应用综述[J]. 计算机科学与探索, 2022, 16(9): 2011-2029. |
[11] | 李冬梅, 罗斯斯, 张小平, 许福. 命名实体识别方法研究综述[J]. 计算机科学与探索, 2022, 16(9): 1954-1968. |
[12] | 杨才东, 李承阳, 李忠博, 谢永强, 孙方伟, 齐锦. 深度学习的图像超分辨率重建技术综述[J]. 计算机科学与探索, 2022, 16(9): 1990-2010. |
[13] | 李珍琦, 王晶, 贾子钰, 林友芳. 融合注意力的多维特征图卷积运动想象分类[J]. 计算机科学与探索, 2022, 16(9): 2050-2060. |
[14] | 杨军, 雷喜文. 弱监督学习下的三维点云模型簇协同分割[J]. 计算机科学与探索, 2022, 16(9): 2121-2131. |
[15] | 吕晓琦, 纪科, 陈贞翔, 孙润元, 马坤, 邬俊, 李浥东. 结合注意力与循环神经网络的专家推荐算法[J]. 计算机科学与探索, 2022, 16(9): 2068-2077. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||