• 学术研究 • 下一篇
张石清, 陈晨, 赵小明
ZHANG Shiqing, CHEN Chen, ZHAO Xiaoming
摘要: 在语音情感识别任务中,当处理不同时长的语音信号时,通常将每句语音信号分割成若干等长片段,然后根据所有片段预测结果的平均值来获得最终的情感分类。然而,这种处理方法要求用户的情绪表达在整个语音信号中是均匀分布的,但是这并不符合实际情况。针对上述问题,提出一种采用双阶段多示例学习网络的语音情感识别方法。第一阶段,将每句语音信号视为“包”,并将其分割成若干等长片段。每个语音片段视为“示例”,并提取多种声学特征,输入到相应的局部声学特征编码器,学习出各自对应的深度特征向量。然后,使用一致性注意力对不同的声学特征进行特征交互和增强。第二阶段,设计一个基于多示例学习的混合聚合器,用于在全局尺度上融合示例预测和示例特征,计算“包”级预测得分。首先,提出一种示例蒸馏模块,用于过滤情感信息较弱的冗余示例。然后,将蒸馏结果组成伪包,采用一种自适应特征聚合策略对伪包进行特征聚合,并通过分类器获得预测结果。最后,将示例级和伪包预测结果进行自适应决策聚合,以获得最终的情感分类结果。该方法在IEMOCAP和MELD公开数据集分别获得73.02%和44.92%的识别率,实验结果表明了该方法的有效性。