• 学术研究 • 下一篇
马飞, 王玉婷, 杨飞霞, 徐光宪
MA Fei, WANG Yuting, YANG Feixia, XU Guangxian
摘要: 人类多模态情绪识别在通过文本、视觉和声音等各种异构模态数据用于感知并理解人类情感。与单一模态相比,多模态数据中的互补信息有助于更稳健地理解情感。然而,在实际多模态场景中常存在不完全或缺失模态信息,严重阻碍对多模态特征的理解,从而导致情绪识别精度下降。针对以往的多模态情绪识别方法未能有效地处理模态在不完全或缺失情况下产生的识别精度下降的问题,提出了一种融合生成扩散模型的不完全多模态情绪识别,通过重构不完全模态数据信息,以提升情绪识别的精度。首先,构建基于跨模态条件随机微分方程的生成扩散模型,在逆扩散过程中将可用模态信息通过可学习投影转化为漂移项的动态约束,生成不完全模态信息特征;其次,构建不完全模态生成网络与融合重构模块的双向协同优化框架,利用联合目标函数实现生成质量与特征融合的梯度反向传播交互,通过分层注意力机制建立补全的不完全模态特征与真实特征的情感语义一致性约束。经过几组数据集测试结果表明,所提出的多模态情绪识别方法在多种不完全模态场景中取得了优越的情绪识别性能。