计算机科学与探索 ›› 2022, Vol. 16 ›› Issue (2): 280-295.DOI: 10.3778/j.issn.1673-9418.2104042
王春喻1, 马志强1,2,+(), 杜宝祥1, 贾文超1, 王洪彬1, 宝财吉拉呼1
收稿日期:
2021-04-12
修回日期:
2021-09-07
出版日期:
2022-02-01
发布日期:
2021-09-13
通讯作者:
+ E-mail: mzq_bim@imut.edu.cn作者简介:
王春喻(1997—),男,山西忻州人,硕士研究生,主要研究方向为自然语言处理、对话生成。基金资助:
WANG Chunyu1, MA Zhiqiang1,2,+(), DU Baoxiang1, JIA Wenchao1, WANG Hongbin1, BAO Caijilahu1
Received:
2021-04-12
Revised:
2021-09-07
Online:
2022-02-01
Published:
2021-09-13
About author:
WANG Chunyu, born in 1997, M.S. candidate. His research interests include natural language processing and dialogue generation.Supported by:
摘要:
人机对话作为人工智能的重要研究内容,受到了学术界和工业界的广泛关注。受到深度学习在自然语言处理成功应用的启发,越来越多的神经网络模型被研究者关注。其中基于端到端的神经网络模型能够从大规模语料中学习到有价值的规律和特征,生成有意义且多样性的回复,被广泛地应用于情感对话生成研究中。面向基于端到端模型的情感对话生成研究展开综述。首先,针对现有的研究成果,梳理并介绍了当前情感对话生成研究面向的任务和主要解决的问题,并且做出了详细的定义,整理并介绍了情感对话生成模型建模所需的数据集。其次,对端到端的神经网络模型的原理进行了简单的概述,并且分析和总结了情感对话生成研究在每个基础模型中的改进、研究现状、模型涉及的评价指标以及模型的性能。再次,对现阶段涉及到的模型评价方式按照自动评价以及人工评价方式进行了总结。最后,对未来情感对话生成研究的发展方向进行了展望。
中图分类号:
王春喻, 马志强, 杜宝祥, 贾文超, 王洪彬, 宝财吉拉呼. 面向端到端的情感对话生成研究综述[J]. 计算机科学与探索, 2022, 16(2): 280-295.
WANG Chunyu, MA Zhiqiang, DU Baoxiang, JIA Wenchao, WANG Hongbin, BAO Caijilahu. Survey of Research on End-to-End Emotional Dialogue Generation[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(2): 280-295.
输入/回复 | 情感类别 | 举例 |
---|---|---|
输入 回复 | 悲伤 | 还没有到啊?辛苦了 呜呜呜,施工的日子很辛苦的! |
输入 回复 | 喜爱 | 小美女啊 呵呵,是不是很可爱啊! |
输入 回复 | 高兴 | 生日快乐! 多谢!谢谢你啊! |
输入 回复 | 生气 | 我可没惹你,别说脏话! 你傻啊,我也没说你啊。 |
输入 回复 | 厌恶 | 6点起身去搭车,好困好难啊! 坐公交车太痛苦了! |
表1 情感对话生成示例
Table 1 Example of emotional dialogue generation
输入/回复 | 情感类别 | 举例 |
---|---|---|
输入 回复 | 悲伤 | 还没有到啊?辛苦了 呜呜呜,施工的日子很辛苦的! |
输入 回复 | 喜爱 | 小美女啊 呵呵,是不是很可爱啊! |
输入 回复 | 高兴 | 生日快乐! 多谢!谢谢你啊! |
输入 回复 | 生气 | 我可没惹你,别说脏话! 你傻啊,我也没说你啊。 |
输入 回复 | 厌恶 | 6点起身去搭车,好困好难啊! 坐公交车太痛苦了! |
数据集 | 语言 | 描述 |
---|---|---|
MojiTalk[ | 英文 | 在推特上抓取了由原始帖子和回复组成的对话对。对对话的回应必须包括64个表情标签中的至少1个 |
Cornell[ | 英文 | 包含从原始电影脚本中提取的83 097个对话框。总共有304 713句话 |
Twitter[ | 英文 | 包含130万条推特对话 |
Weibo[ | 中文 | 来自微博的960万条消息-回复对 |
Ubuntu[ | 英文 | 摘自Ubuntu IRC聊天日志 |
Daily dialog[ | 英文 | 练习英语对话服务的网站上抓取的 |
STC[ | 中文 | 中文短文对话 |
DST-1[ | 英文 | 英文多轮对话 |
Subtle[ | 英文 | 积极情感对话 |
Open subtitles[ | 英文 | 句子总数为1 130万,每个句子的最小长度为6个单词 |
Douban[ | 中文 | 从豆瓣群中抓取了110万个大于2轮的二元对话 |
表2 情感对话数据集
Table 2 Emotional dialogue dataset
数据集 | 语言 | 描述 |
---|---|---|
MojiTalk[ | 英文 | 在推特上抓取了由原始帖子和回复组成的对话对。对对话的回应必须包括64个表情标签中的至少1个 |
Cornell[ | 英文 | 包含从原始电影脚本中提取的83 097个对话框。总共有304 713句话 |
Twitter[ | 英文 | 包含130万条推特对话 |
Weibo[ | 中文 | 来自微博的960万条消息-回复对 |
Ubuntu[ | 英文 | 摘自Ubuntu IRC聊天日志 |
Daily dialog[ | 英文 | 练习英语对话服务的网站上抓取的 |
STC[ | 中文 | 中文短文对话 |
DST-1[ | 英文 | 英文多轮对话 |
Subtle[ | 英文 | 积极情感对话 |
Open subtitles[ | 英文 | 句子总数为1 130万,每个句子的最小长度为6个单词 |
Douban[ | 中文 | 从豆瓣群中抓取了110万个大于2轮的二元对话 |
作者 | 时间 | 解决的问题 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|
Zhou等人[ | 2018 | 对话中的情感响应问题 | STC[ | A.E: PPL M.E: Content、Emotion | PPL相对于Seq2Seq降低2.10,内容与情感得分分别提高0.440、0.270 |
Shantala等人[ | 2018 | 对话中的情感响应问题 | Cornell[ | A.E: PPL | PPL相对于Seq2Seq降低0.35 |
Huang等人[ | 2018 | 强迫对话生成表达情感的问题 | Open subtitles[ | A.E: EC (emotional consistency) | 模型生成的9类情感准确率达到70%,情感表达优于基线 |
Yuan等人[ | 2017 | 对话中的情感一致性问题 | Weibo[ | M.E: Content、Emotion | 情感与内容的生成显著提高 |
Sun等人[ | 2018 | 内容与情感层面回复差的问题 | Weibo[ | A.E: EC、Coherence | EC方面相对于基线模型提高了0.014 |
Zhou等人[ | 2018 | 未考虑对话者之间的情感交互 | Weibo[ | A.E: BLEU、Distinct M.E: Content、Emotion | 相对于Seq2Seq模型BLEU提高0.04,Distinct提高0.18,情感准确率提高0.04 |
Huang等人[ | 2018 | 对话中的情感响应问题 | Open subtitles[ | A.E: EC M.E: Emotion | 相对于基线模型,EC有显著提升 |
Wei等人[ | 2019 | 生成时忽略上文的情感信息 | STC[ | A.E: Distinct M.E: Content、Emotion | 相对于基线模型Distinct提高0.01,内容与情感得分分别提高0.025、0.070 |
Song等人[ | 2019 | 响应时无法表达特定的情感问题 | STC[ | A.E: E-b (embedding-based)、Distinct、EC、BLEU M.E: Content、Emotion | BLEU、Distinct、EC分别提高0.23、0.007 5、0.45,内容与情感得分分别提高0.026、0.392 |
Guo等人[ | 2020 | 解决开放域对话系统的情感回复问题 | Weibo[ | A.E: BLEU、E-b、Distinct、EC | BLEU、Distinct、EC分别提高0.24、0.008 3、0.46 |
Chen等人[ | 2019 | 回复生成情感的恰当性问题 | STC[ | M.E: Content、Emotion | 情感与内容的生成显著提高 |
Ma等人[ | 2020 | 生成情感匮乏且与上下文无关的回复 | Douban[ | A.E: BLEU M.E: Content、Emotion | BLEU提高1.60,内容与情感得分分别提高0.011、0.604 |
表3 情感嵌入编码任务研究
Table 3 Research on emotional embedding encoding task
作者 | 时间 | 解决的问题 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|
Zhou等人[ | 2018 | 对话中的情感响应问题 | STC[ | A.E: PPL M.E: Content、Emotion | PPL相对于Seq2Seq降低2.10,内容与情感得分分别提高0.440、0.270 |
Shantala等人[ | 2018 | 对话中的情感响应问题 | Cornell[ | A.E: PPL | PPL相对于Seq2Seq降低0.35 |
Huang等人[ | 2018 | 强迫对话生成表达情感的问题 | Open subtitles[ | A.E: EC (emotional consistency) | 模型生成的9类情感准确率达到70%,情感表达优于基线 |
Yuan等人[ | 2017 | 对话中的情感一致性问题 | Weibo[ | M.E: Content、Emotion | 情感与内容的生成显著提高 |
Sun等人[ | 2018 | 内容与情感层面回复差的问题 | Weibo[ | A.E: EC、Coherence | EC方面相对于基线模型提高了0.014 |
Zhou等人[ | 2018 | 未考虑对话者之间的情感交互 | Weibo[ | A.E: BLEU、Distinct M.E: Content、Emotion | 相对于Seq2Seq模型BLEU提高0.04,Distinct提高0.18,情感准确率提高0.04 |
Huang等人[ | 2018 | 对话中的情感响应问题 | Open subtitles[ | A.E: EC M.E: Emotion | 相对于基线模型,EC有显著提升 |
Wei等人[ | 2019 | 生成时忽略上文的情感信息 | STC[ | A.E: Distinct M.E: Content、Emotion | 相对于基线模型Distinct提高0.01,内容与情感得分分别提高0.025、0.070 |
Song等人[ | 2019 | 响应时无法表达特定的情感问题 | STC[ | A.E: E-b (embedding-based)、Distinct、EC、BLEU M.E: Content、Emotion | BLEU、Distinct、EC分别提高0.23、0.007 5、0.45,内容与情感得分分别提高0.026、0.392 |
Guo等人[ | 2020 | 解决开放域对话系统的情感回复问题 | Weibo[ | A.E: BLEU、E-b、Distinct、EC | BLEU、Distinct、EC分别提高0.24、0.008 3、0.46 |
Chen等人[ | 2019 | 回复生成情感的恰当性问题 | STC[ | M.E: Content、Emotion | 情感与内容的生成显著提高 |
Ma等人[ | 2020 | 生成情感匮乏且与上下文无关的回复 | Douban[ | A.E: BLEU M.E: Content、Emotion | BLEU提高1.60,内容与情感得分分别提高0.011、0.604 |
作者 | 时间 | 解决的问题 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|
Colombo等人[ | 2019 | 没有对响应的情感内容进行明确的控制 | Open subtitles[ | A.E: BLEU、Distinct M.E: Content、Emotion | BLEU提高0.12,Distinct提高0.13 |
Ma等人[ | 2020 | 对话中的情感一致性问题 | Weibo[ | A.E: BLEU、PPL、ROUGE M.E: Content、Emotion | PPL取得了最低的分数,BLEU与ROUGE提高了0.04 |
Asghar等人[ | 2020 | 忽略交互者的情感身份 | Cornell[ | M.E: SC (syntactic coherence)、Naturalness、Emotional | 与基线模型相比,SC、自然性、情感得分分别提高0.11、0.02、0.04 |
Sun等人[ | 2020 | 解决响应缺乏逻辑和情感的问题 | Weibo[ | A.E: PPL M.E: Emotional、Consistency、Logic | PPL相对于Seq2Seq降低5.20,情感、一致性、逻辑性得分分别提高0.705、0.102、0.306 |
Li等人[ | 2020 | 解决忽略对话响应中的情感因素 | Weibo[ | A.E: PPL、Accuracy M.E: Content、Emotion | PPL相对于Seq2Seq降低5.00,情感与内容得分远高于基线 |
表4 回复生成情感控制任务研究
Table 4 Research on emotional control task of responsive generation
作者 | 时间 | 解决的问题 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|
Colombo等人[ | 2019 | 没有对响应的情感内容进行明确的控制 | Open subtitles[ | A.E: BLEU、Distinct M.E: Content、Emotion | BLEU提高0.12,Distinct提高0.13 |
Ma等人[ | 2020 | 对话中的情感一致性问题 | Weibo[ | A.E: BLEU、PPL、ROUGE M.E: Content、Emotion | PPL取得了最低的分数,BLEU与ROUGE提高了0.04 |
Asghar等人[ | 2020 | 忽略交互者的情感身份 | Cornell[ | M.E: SC (syntactic coherence)、Naturalness、Emotional | 与基线模型相比,SC、自然性、情感得分分别提高0.11、0.02、0.04 |
Sun等人[ | 2020 | 解决响应缺乏逻辑和情感的问题 | Weibo[ | A.E: PPL M.E: Emotional、Consistency、Logic | PPL相对于Seq2Seq降低5.20,情感、一致性、逻辑性得分分别提高0.705、0.102、0.306 |
Li等人[ | 2020 | 解决忽略对话响应中的情感因素 | Weibo[ | A.E: PPL、Accuracy M.E: Content、Emotion | PPL相对于Seq2Seq降低5.00,情感与内容得分远高于基线 |
作者 | 时间 | 解决的问题 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|
Asghar等人[ | 2018 | 忽略对话层面情感内容的问题 | Cornell[ | M.E: SC、Natural、EAp (emotional appropriateness) | SC、自然性、EAp分别提高0.28、0.38、0.41 |
Zhong等人[ | 2019 | 回复情感内容单调的问题 | Open subtitles[ | M.E: Content、Emotion | 内容情感得分分别提高0.18、0.27 |
Liu等人[ | 2019 | 忽略情感状态对响应生成的影响 | Weibo[ | A.E: BLEU、PPL M.E: Content、Emotion | PPL降低5.60,BLEU提高0.20,内容与情感得分分别提高0.180、0.270 |
Peng等人[ | 2019 | 忽略回复中结合主题与情感的必要性 | Weibo[ | A.E: Distinct M.E: Content、Emotion | Distinct提高0.10,在内容与情感得分方面分别提高0.200、0.120 |
Sun等人[ | 2018 | 在内容和情感层面回应较差 | Weibo[ | M.E: EC、Coherence | EC得分提高0.02,内容得分降低0.07 |
Sun等人[ | 2019 | 生成回复逻辑差的问题 | Weibo[ | A.E: Distinct、E-b M.E: Emotional、Consistency、Logic | 在A.E方面优于基线,情感、一致性、逻辑性得分分别提高0.070、0.350、0.280 |
表5 情感回复生成解码任务研究
Table 5 Research on decoding task of emotional response generation
作者 | 时间 | 解决的问题 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|
Asghar等人[ | 2018 | 忽略对话层面情感内容的问题 | Cornell[ | M.E: SC、Natural、EAp (emotional appropriateness) | SC、自然性、EAp分别提高0.28、0.38、0.41 |
Zhong等人[ | 2019 | 回复情感内容单调的问题 | Open subtitles[ | M.E: Content、Emotion | 内容情感得分分别提高0.18、0.27 |
Liu等人[ | 2019 | 忽略情感状态对响应生成的影响 | Weibo[ | A.E: BLEU、PPL M.E: Content、Emotion | PPL降低5.60,BLEU提高0.20,内容与情感得分分别提高0.180、0.270 |
Peng等人[ | 2019 | 忽略回复中结合主题与情感的必要性 | Weibo[ | A.E: Distinct M.E: Content、Emotion | Distinct提高0.10,在内容与情感得分方面分别提高0.200、0.120 |
Sun等人[ | 2018 | 在内容和情感层面回应较差 | Weibo[ | M.E: EC、Coherence | EC得分提高0.02,内容得分降低0.07 |
Sun等人[ | 2019 | 生成回复逻辑差的问题 | Weibo[ | A.E: Distinct、E-b M.E: Emotional、Consistency、Logic | 在A.E方面优于基线,情感、一致性、逻辑性得分分别提高0.070、0.350、0.280 |
作者 | 时间 | 解决的问题 | 任务 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|---|
Xie等人[ | 2019 | 忽略人机交互过程中的情感互动 | 情感回复解码任务 | Cornell[ Daily dialog[ | A.E: BLEU、PPL M.E: GC (grammatical correctness)、Contextual Cohe-rence、EAp | 相比于基线模型,BLEU提高0.20,PPL降低0.12,在GC、上下文连贯性、EAp得分方面分别提高0.03、0.28、0.23 |
Lubis等人[ | 2018 | 忽略用户在响应生成过程中的情感 | 情感嵌入编码任务 | Subtle[ | A.E: PPL M.E: Emotional Impact、Na-turalness | PPL降低18.30,情感影响力得分与自然性得分分别提高1.02、0.88 |
表6 基于HRED模型的情感对话生成研究
Table 6 Research on generation of emotional dialogue based on HRED model
作者 | 时间 | 解决的问题 | 任务 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|---|
Xie等人[ | 2019 | 忽略人机交互过程中的情感互动 | 情感回复解码任务 | Cornell[ Daily dialog[ | A.E: BLEU、PPL M.E: GC (grammatical correctness)、Contextual Cohe-rence、EAp | 相比于基线模型,BLEU提高0.20,PPL降低0.12,在GC、上下文连贯性、EAp得分方面分别提高0.03、0.28、0.23 |
Lubis等人[ | 2018 | 忽略用户在响应生成过程中的情感 | 情感嵌入编码任务 | Subtle[ | A.E: PPL M.E: Emotional Impact、Na-turalness | PPL降低18.30,情感影响力得分与自然性得分分别提高1.02、0.88 |
作者 | 时间 | 解决的问题 | 任务 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|---|
Gu等人[ | 2019 | 当前研究缺乏决定恰当的情感策略的能力 | 回复情感控制任务 | Weibo[ | A.E: PPL、EA (emotion accuracy) M.E: Content、Emotion | PPL降低32.50,EA提高0.48,在内容与情感得分方面分别提高0.07、0.26 |
Xu等人[ | 2019 | 内容一致性与情感可控性较差 | 回复情感控制任务 | Weibo[ | A.E: PPL、EA、Distinct M.E: Content、Emotion | PPL降低32.30,EA提高0.43,Distinct提高0.39,内容与情感得分分别提高0.24、0.08 |
Kong等人[ | 2019 | 缺乏对对话中情感控制策略的研究 | 回复情感控制任务 | Mojitalk[ | A.E: PPL、EA M.E: Quality | PPL降低88.04,EA提高0.23,回复质量提高1.8 |
Yao等人[ | 2021 | 在相同情感背景下的回复情感的恰当性 | 回复情感控制任务 | Weibo[ | A.E: PPL、EA M.E: Content、Emotion | PPL降低13.80,EA提高0.62,内容与情感得分分别提高0.05、0.32 |
Peng等人[ | 2020 | 改善情感的响应表达 | 回复情感控制任务 | Twitter[ | A.E: PPL、EA、BLEU M.E: GC、Naturalness、EC | BLEU降低0.15,PPL降低47.01,EA提高0.92,GC提高0.14,自然性提高0.35,EC提高0.69 |
Huo等人[ | 2020 | 未同时考虑情感表达和生成过程中的主题相关性 | 情感回复解码任务 | Weibo[ | A.E: PPL、EA、E-b M.E: Fluency、Topic relevance | PPL降低19.90,流畅性与主题相关性得分分别提高0.35、1.38 |
Deng等人[ | 2020 | 未能满足用户情感交流的需求,且响应生成质量较差 | 回复情感控制任务 | Weibo[ | A.E: PPL、EA、Distinct M.E: Content、Emotion | PPL降低33.70,EA提高0.54,Distinct提高0.28,内容与情感得分分别提高0.08、0.28 |
表7 基于CVAE模型的情感对话生成研究
Table 7 Research on generation of emotional dialogue based on CVAE model
作者 | 时间 | 解决的问题 | 任务 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|---|
Gu等人[ | 2019 | 当前研究缺乏决定恰当的情感策略的能力 | 回复情感控制任务 | Weibo[ | A.E: PPL、EA (emotion accuracy) M.E: Content、Emotion | PPL降低32.50,EA提高0.48,在内容与情感得分方面分别提高0.07、0.26 |
Xu等人[ | 2019 | 内容一致性与情感可控性较差 | 回复情感控制任务 | Weibo[ | A.E: PPL、EA、Distinct M.E: Content、Emotion | PPL降低32.30,EA提高0.43,Distinct提高0.39,内容与情感得分分别提高0.24、0.08 |
Kong等人[ | 2019 | 缺乏对对话中情感控制策略的研究 | 回复情感控制任务 | Mojitalk[ | A.E: PPL、EA M.E: Quality | PPL降低88.04,EA提高0.23,回复质量提高1.8 |
Yao等人[ | 2021 | 在相同情感背景下的回复情感的恰当性 | 回复情感控制任务 | Weibo[ | A.E: PPL、EA M.E: Content、Emotion | PPL降低13.80,EA提高0.62,内容与情感得分分别提高0.05、0.32 |
Peng等人[ | 2020 | 改善情感的响应表达 | 回复情感控制任务 | Twitter[ | A.E: PPL、EA、BLEU M.E: GC、Naturalness、EC | BLEU降低0.15,PPL降低47.01,EA提高0.92,GC提高0.14,自然性提高0.35,EC提高0.69 |
Huo等人[ | 2020 | 未同时考虑情感表达和生成过程中的主题相关性 | 情感回复解码任务 | Weibo[ | A.E: PPL、EA、E-b M.E: Fluency、Topic relevance | PPL降低19.90,流畅性与主题相关性得分分别提高0.35、1.38 |
Deng等人[ | 2020 | 未能满足用户情感交流的需求,且响应生成质量较差 | 回复情感控制任务 | Weibo[ | A.E: PPL、EA、Distinct M.E: Content、Emotion | PPL降低33.70,EA提高0.54,Distinct提高0.28,内容与情感得分分别提高0.08、0.28 |
作者 | 时间 | 问题 | 任务 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|---|
Sun等人[ | 2019 | 生成语义逻辑差、没有情感的通用回复 | 情感回复解码任务 | Weibo[ | A.E: PPL、EA M.E: Consistency、Logic、Emotion | PPL降低0.56,EA提高0.70,一致性、逻辑性、情感得分分别提高0.14、0.45、0.70 |
Li等人[ | 2020 | 未考虑用户情感对生成的影响 | 情感回复解码任务 | Mojitalk[ | A.E: BLEU、Distinct、Accuracy M.E: GC、TC (topic coherency)、EC | Distinct提高3.56,BLEU提高3.99,准确率提高1.6,GC、TC、EC分别提高1.50、0.10、0.70 |
表8 基于Transformer模型的情感对话生成研究
Table 8 Research on emotional dialogue generation based on Transformer model
作者 | 时间 | 问题 | 任务 | 数据集 | 评价指标 | 性能 |
---|---|---|---|---|---|---|
Sun等人[ | 2019 | 生成语义逻辑差、没有情感的通用回复 | 情感回复解码任务 | Weibo[ | A.E: PPL、EA M.E: Consistency、Logic、Emotion | PPL降低0.56,EA提高0.70,一致性、逻辑性、情感得分分别提高0.14、0.45、0.70 |
Li等人[ | 2020 | 未考虑用户情感对生成的影响 | 情感回复解码任务 | Mojitalk[ | A.E: BLEU、Distinct、Accuracy M.E: GC、TC (topic coherency)、EC | Distinct提高3.56,BLEU提高3.99,准确率提高1.6,GC、TC、EC分别提高1.50、0.10、0.70 |
评价内容 | 分值 | 评价标准 |
---|---|---|
内容 | 0 | 回复要么有语法错误,要么完全不相关 |
1 | 回复应有正确的语法,但过于普遍 | |
2 | 回复应有正确的语法,并且相关和自然 | |
情感 | 0 | 回复要么没有或者传达了不恰当的情感 |
1 | 回复传达了不充分但恰当的情感 | |
2 | 回复传达了足够和恰当的情感 |
表9 情感对话生成人工评价标准
Table 9 Standard of emotional dialogue generation manual evaluation
评价内容 | 分值 | 评价标准 |
---|---|---|
内容 | 0 | 回复要么有语法错误,要么完全不相关 |
1 | 回复应有正确的语法,但过于普遍 | |
2 | 回复应有正确的语法,并且相关和自然 | |
情感 | 0 | 回复要么没有或者传达了不恰当的情感 |
1 | 回复传达了不充分但恰当的情感 | |
2 | 回复传达了足够和恰当的情感 |
[1] | TURINGA M. Computing machinery and intelligence[J]. Mind, 1950, 59(236):433-460. |
[2] | PICARD R W. Affective computing[M]. Cambridge: MIT Press, 1997. |
[3] |
PRENDINGER H, ISHIZUKA M. The empathic companion: a character-based interface that addresses users’ affective states[J]. Applied Artificial Intelligence, 2005, 19(3/4):267-285.
DOI URL |
[4] | KESHTKAR F, INKPEN D. A pattern-based model for generating text to express emotion[C]//LNCS 6975: Proceedings of the 4th International Conference on Affective Computing and Intelligent Interaction, Memphis, Oct 9-12, 2011. Berlin, Heidelberg: Springer, 2011: 11-21. |
[5] | SKOWRON M. Affect listeners: acquisition of affective states by means of conversational systems[C]//LNCS 5967: Proceedings of the 2nd COST 2102 International Training School, Dublin, Mar 23-27, 2009. Berlin, Heidelberg: Springer, 2009: 169-181. |
[6] | 李赟, 武斌. 情感对话生成研究综述[J]. 新一代信息技术, 2019, 2(24):15-23. |
LI Y, WU B. Survey on emotional dialogue generation[J]. New Generation of Information Technology, 2019, 2(24):15-23. | |
[7] | PAMUNGKAS E W. Emotionally-aware chatbots: a survey[J]. arXiv:1906.09774, 2019. |
[8] |
MA Y K, NGUYEN K L, XING F Z, et al. A survey on empathetic dialogue systems[J]. Information Fusion, 2020, 64:50-70.
DOI URL |
[9] | 庄寅, 刘箴, 刘婷婷, 等. 文本情感对话系统研究综述[J]. 计算机科学与探索, 2021, 15(5):825-837. |
ZHUANG Y, LIU Z, LIU T T, et al. Survey of affective-based dialogue system[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(5):825-837. | |
[10] | ZHOU X D, WANG W Y. Mojitalk: generating emotional responses at scale[J]. arXiv:1711.04090, 2017. |
[11] | DANESCU-NICULESCU-MIZIL C, LEE L. Chameleons in imagined conversations: a new approach to understanding coordination of linguistic style in dialogs[J]. arXiv:1106. 3077, 2011. |
[12] | HU T R, XU A B, LIU Z, et al. Touch your heart: a tone-aware chatbot for customer care on social media[C]//Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, Montreal, Apr 21-26, 2018. New York: ACM, 2018: 415. |
[13] | HUANG X J, JIANG J, ZHAO D Y, et al. Natural language processing and Chinese computing[C]//LNCS 10619: Proceedings of the 6th CCF International Conference, Dalian, Nov 8-12, 2017. Cham: Springer, 2018. |
[14] | UTHUS D C, AHA D W. The ubuntu chat corpus for multiparticipant chat analysis[C]//Proceedings of the 2013 AAAI Spring Symposium on Analyzing Microtext, Palo Alto, Mar 25-27, 2013. Menlo Park: AAAI, 2013: 1-4. |
[15] | LI Y R, SU H, SHEN X Y, et al. Dailydialog: a manually labelled multi-turn dialogue dataset[J]. arXiv:1710.03957, 2017. |
[16] | SHANG L F, LU Z D, LI H. Neural responding machine for short-text conversation[J]. arXiv:1503.02364, 2015. |
[17] | RAUX A, LANGNER B, BOHUS D, et al. Let’s go public! Taking a spoken dialog system to the real world[C]// Proceedings of the 9th European Conference on Speech Communication and Technology, Lisbon, Sep 4-8, 2005: 885-888. |
[18] | LUBIS N, SAKTI S, YOSHINO K, et al. Eliciting positive emotion through affect-sensitive dialogue response generation: a neural network approach[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence, the 30th Innovative Applications of Artificial Intelligence, and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence, New Orleans, Feb 2-7, 2018. Menlo Park: AAAI, 2018: 5293-5300. |
[19] | TIEDEMANN J. News from OPUS—A collection of multilingual parallel corpora with tools and interfaces[M]//NICOLOV N, BONTCHEVA K, ANGELOVA G, eds. Advances in Natural Language Processing. Amsterdam: John Benjamins, 2009: 237-248. |
[20] | SONG Y P, YAN R, LI X, et al. Two are better than one: an ensemble of retrieval-and generation-based dialog systems[J]. arXiv:1610.07149, 2016. |
[21] | RITTER A, CHERRY C, DOLAN W B. Data-driven response generation in social media[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, Edinburgh, Jul 27-31, 2011. Stroudsburg: ACL, 2011: 583-593. |
[22] | VINYALS O, LE Q V. A neural conversational model[J]. arXiv:1506.05869, 2015. |
[23] | MOU L L, SONG Y P, YAN R, et al. Sequence to backward and forward sequences: a content-introducing approach to generative short-text conversation[J]. arXiv:1607.00970, 2016. |
[24] | WU Y, WU W, XING C, et al. Sequential matching network: a new architecture for multi-turn response selection in retrieval-based chatbots[J]. arXiv:1612.01627, 2016. |
[25] | LI J W, MONROE W, RITTER A, et al. Deep reinforcement learning for dialogue generation[J]. arXiv:1606.01541, 2016. |
[26] | SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the Annual Conference on Neural Information Processing Systems, Montreal, Dec 8-13, 2014. Red Hook: Curran Associates, 2014: 3104-3112. |
[27] | SERBAN I V, SORDONI A, BENGIO Y, et al. Building end-to-end dialogue systems using generative hierarchical neural network models[C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence, Phoenix, Feb 12-17, 2016. Stroudsburg: ACL, 2016: 3776-3784. |
[28] | KINGMA D P, WELLING M. Auto-encoding variational Bayes[J]. arXiv:1312.6114, 2013. |
[29] | VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. arXiv:1706.03762, 2017. |
[30] | BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. arXiv:1409.0473, 2014. |
[31] | CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv:1406. 1078, 2014. |
[32] | MIKOLOV T, KARAFIÁT M, BURGET L, et al. Recurrent neural network based language model[C]// Proceedings of the 11th Annual Conference of the International Speech Communication Association, Makuhari, Sep 26-30, 2010: 1045-1048. |
[33] | CHUNG J, GÜLÇEHRE Ç, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[J]. arXiv:1412.3555, 2014. |
[34] |
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.
DOI URL |
[35] |
SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11):2673-2681.
DOI URL |
[36] | ZHOU H, HUANG M L, ZHANG T Y, et al. Emotional chatting machine: emotional conversation generation with internal and external memory[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence, the 30th Innovative Applications of Artificial Intelligence, and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence, New Orleans, Feb 2-7, 2018. Menlo Park: AAAI, 2018: 730-738. |
[37] | SHANTALA R, KYSELOV G, KYSELOVA A. Neural dialogue system with emotion embeddings[C]//Proceedings of the 2018 IEEE 1st International Conference on System Analysis and Intelligent Computing, Ukraine, Oct 8-12, 2018. Piscataway: IEEE, 2018: 1-4. |
[38] | HUANG C Y, ZAÏANE O R, TRABELSI A, et al. Automatic dialogue generation with expressed emotions[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, New Orleans, Jun 1-6, 2018. Stroudsburg: ACL, 2018: 49-54. |
[39] | YUAN J H, ZHAO H P, ZHAO Y Y, et al. Babbling-the HIT-SCIR system for emotional conversation generation[C]//LNCS 10619: Proceedings of the 6th CCF International Conference on Natural Language Processing and Chinese Computing, Dalian, Nov 8-12, 2017. Cham: Springer, 2017: 632-641. |
[40] |
SUN X, PENG X Q, DING S. Emotional human-machine conversation generation based on long short-term memory[J]. Cognitive Computation, 2018, 10(3):389-397.
DOI URL |
[41] | ZHOU Z H, LAN M, WU Y B. A neural generation-based conversation model using fine-grained emotion-guide attention[C]//Proceedings of the 2018 International Joint Conference on Neural Networks, Rio de Janeiro, Jul 8-13, 2018. Piscataway: IEEE, 2018: 1-8. |
[42] | HUANG C Y, ZAÏANE O R. Generating responses expressing emotion in an open-domain dialogue system[C]//LNCS 11551: Proceedings of the 2018 International Conference on Internet Science, St. Petersburg, Oct 24-26, 2018. Cham: Springer, 2018: 100-112. |
[43] | WEI W, LIU J Y, MAO X L, et al. Emotion-aware chat machine: automatic emotional response generation for human-like emotional interaction[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management, Beijing, Nov 3-7, 2019. New York: ACM, 2019: 1401-1410. |
[44] | SONG Z Q, ZHENG X Q, LIU L, et al. Generating responses with a specific emotion in dialog[C]//Proceedings of the 57th Conference of the Association for Computational Linguistics, Florence, Jul 28- Aug 2, 2019. Stroudsburg: ACL, 2019: 3685-3695. |
[45] |
GUO Q Q, ZHU Z F, LU Q, et al. A dynamic emotional session generation model based on Seq2Seq and a dictionary-based attention mechanism[J]. Applied Sciences, 2020, 10(6):1967.
DOI URL |
[46] | CHEN Z X, SONG R H, XIE X, et al. Neural response generation with relevant emotions for short text conversation[C]//LNCS 11838: Proceedings of the 8th CCF International Conference on Natural Language Processing and Chinese Computing, Dunhuang, Oct 9-14, 2019. Cham: Springer, 2019: 117-129. |
[47] | ZHOU G Y, FANG Y Z, PENG Y H, et al. Neural conversation generation with auxiliary emotional supervised models[J]. ACM Transactions on Asian and Low-Resource Language Information Processing, 2019, 19(2):1-17. |
[48] | MA Z Q, DU B X, SHEN J, et al. A sentimental and context-sensitive model for the Seq2Seq-based dialogue generation[J]. Elektrotehniški Vestnik, 2020, 87(3):127-134. |
[49] | COLOMBO P, WITON W, MODI A, et al. Affect-driven dialog generation[J]. arXiv:1904.02793, 2019. |
[50] |
MA Z Q, YANG R, DU B X, et al. A control unit for emotional conversation generation[J]. IEEE Access, 2020, 8:43168-43176.
DOI URL |
[51] | ASGHAR N, KOBYZEV I, HOEY J, et al. Generating emotionally aligned responses in dialogues using affect control theory[J]. arXiv:2003.03645, 2020. |
[52] |
SUN X, LI J, WEI X, et al. Emotional editing constraint conversation content generation based on reinforcement learning[J]. Information Fusion, 2020, 56:70-80.
DOI URL |
[53] | LI Y, WU B. Emotional dialogue generation with generative adversarial networks[C]//Proceedings of the 2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference, Chongqing, Jun 12-14, 2020. Piscataway: IEEE, 2020: 868-873. |
[54] | ASGHAR N, POUPART P, HOEY J, et al. Affective neural response generation[C]//LNCS 10772: Proceedings of the 40th European Conference on IR Research Advances in Information Retrieval, Grenoble, Mar 26-29, 2018. Cham: Springer, 2018: 154-166. |
[55] | ZHONG P X, WANG D, MIAO C Y. An affect-rich neural conversational model with biased attention and weighted cross-entropy loss[C]//Proceedings of the 33rd AAAI Conference on Artificial Intelligence, the 31st Innovative Applications of Artificial Intelligence Conference, the 9th AAAI Symposium on Educational Advances in Artificial Intelligence, Honolulu, Jan 27 - Feb 1, 2019. Menlo Park: AAAI, 2019: 7492-7500. |
[56] |
LIU F, MAO Q R, WANG L J, et al. An emotion-based responding model for natural language conversation[J]. World Wide Web, 2019, 22(2):843-861.
DOI URL |
[57] |
PENG Y H, FANG Y Z, XIE Z W, et al. Topic-enhanced emotional conversation generation with attention mechanism[J]. Knowledge-Based Systems, 2019, 163:429-437.
DOI URL |
[58] | SUN X, CHEN X M, PEI Z M, et al. Emotional human machine conversation generation based on SeqGAN[C]// Proceedings of the 2018 1st Asian Conference on Affective Computing and Intelligent Interaction, Beijing, May 20-22, 2018. Piscataway: IEEE, 2018: 1-6. |
[59] | SUN X, LI J Y, TAO J H. Emotional conversation generation orientated syntactically constrained bidirectional-asynchronous framework[J]. IEEE Transactions on Affective Computing, 2019. |
[60] | BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3:1137-1155. |
[61] | PAPINENI K, ROUKOS S, WARD T, et al. Bleu: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, Jul 6-12, 2002. Stroudsburg: ACL, 2002: 311-318. |
[62] | LIN C Y. Rouge: a package for automatic evaluation of summaries[C]//Proceedings of the 2004 Workshop on Text Summarization Branches Out, Post-Conference Workshop of ACL 2004, Barcelona, Jul 25-26, 2004. Stroudsburg: ACL, 2004: 74-81. |
[63] | LIU C W, LOWE R, SERBAN I V, et al. How not to evaluate your dialogue system: an empirical study of unsupervised evaluation metrics for dialogue response generation[J]. arXiv:1603.08023, 2016. |
[64] | LI J W, GALLEY M, BROCKETT C, et al. A diversity-promoting objective function for neural conversation models[J]. arXiv:1510.03055, 2015. |
[65] | XIE Y, SVIKHNUSHINA E, PU P. A multi-turn emotionally engaging dialog model[J]. arXiv:1908.07816, 2019. |
[66] | 陈晨, 朱晴晴, 严睿, 等. 基于深度学习的开放领域对话系统研究综述[J]. 计算机学报, 2019, 42(7):1439-1466. |
CHEN C, ZHU Q Q, YAN R, et al. Survey on deep learning based open domain dialogue system[J]. Chinese Journal of Computers, 2019, 42(7):1439-1466. | |
[67] | SOHN K, LEE H, YAN X C. Learning structured output representation using deep conditional generative models[C]//Proceedings of the Annual Conference on Neural Information Processing Systems, Montreal, Dec 7-12, 2015. Red Hook: Curran Associates, 2015: 3483-3491. |
[68] | GU X S, XU W R, LI S. Towards automated emotional conversation generation with implicit and explicit affective strategy[C]//Proceedings of the 2019 International Symposium on Signal Processing Systems, Beijing, Sep 20-22, 2019. New York: ACM, 2019: 125-130. |
[69] |
XU W R, GU X S, CHEN G. Generating emotional controllable response based on multi-task and dual attention framework[J]. IEEE Access, 2019, 7:93734-93741.
DOI URL |
[70] | KONG X, LI B H, NEUBIG G, et al. An adversarial approach to high-quality, sentiment-controlled neural dialogue generation[J]. arXiv:1901.07129, 2019. |
[71] |
YAO K C, ZHANG L B, LUO T J, et al. Non-deterministic and emotional chatting machine: learning emotional conversation generation using conditional variational autoencoders[J]. Neural Computing and Applications, 2021, 33(11):5581-5589.
DOI URL |
[72] | PENG D L, ZHOU M, LIU C, et al. Human-machine dialogue modelling with the fusion of word-and sentence-level emotions[J]. Knowledge-Based Systems, 2020, 192:105319. |
[73] | HUO P, YANG Y, ZHOU J, et al. TERG: topic-aware emotional response generation for chatbot[C]//Proceedings of the 2020 International Joint Conference on Neural Networks, Glasgow, Jul 19-24, 2020. Piscataway: IEEE, 2020: 1-8. |
[74] | DENG Z R, LIN H Q, HUANG W M, et al. Emotional dialogue generation based on conditional variational autoencoder and dual emotion framework[J]. Wireless Communications and Mobile Computing, 2020: 8881616. |
[75] | OLABIYI O, MUELLER E T. DLGNet: a Transformer-based model for dialogue response generation[J]. arXiv:1908.01841, 2019. |
[76] | SUN X, LI J, WEI X, et al. Emotional conversation generation based on a Bayesian deep neural network[J]. ACM Transactions on Information Systems, 2019, 38(1):1-24. |
[77] | LI S F, FENG S, WANG D L, et al. EmoElicitor: an open domain response generation model with user emotional reaction awareness[C]// Proceedings of the 29th International Joint Conference on Artificial Intelligence, Yokohama, Jul 11-17, 2020: 3637-3643. |
[1] | 安凤平, 李晓薇, 曹翔. 权重初始化-滑动窗口CNN的医学图像分类[J]. 计算机科学与探索, 2022, 16(8): 1885-1897. |
[2] | 曾凡智, 许露倩, 周燕, 周月霞, 廖俊玮. 面向智慧教育的知识追踪模型研究综述[J]. 计算机科学与探索, 2022, 16(8): 1742-1763. |
[3] | 刘艺, 李蒙蒙, 郑奇斌, 秦伟, 任小广. 视频目标跟踪算法综述[J]. 计算机科学与探索, 2022, 16(7): 1504-1515. |
[4] | 赵小明, 杨轶娇, 张石清. 面向深度学习的多模态情感识别研究进展[J]. 计算机科学与探索, 2022, 16(7): 1479-1503. |
[5] | 夏鸿斌, 肖奕飞, 刘渊. 融合自注意力机制的长文本生成对抗网络模型[J]. 计算机科学与探索, 2022, 16(7): 1603-1610. |
[6] | 孙方伟, 李承阳, 谢永强, 李忠博, 杨才东, 齐锦. 深度学习应用于遮挡目标检测算法综述[J]. 计算机科学与探索, 2022, 16(6): 1243-1259. |
[7] | 刘雅芬, 郑艺峰, 江铃燚, 李国和, 张文杰. 深度半监督学习中伪标签方法综述[J]. 计算机科学与探索, 2022, 16(6): 1279-1290. |
[8] | 程卫月, 张雪琴, 林克正, 李骜. 融合全局与局部特征的深度卷积神经网络算法[J]. 计算机科学与探索, 2022, 16(5): 1146-1154. |
[9] | 钟梦圆, 姜麟. 超分辨率图像重建算法综述[J]. 计算机科学与探索, 2022, 16(5): 972-990. |
[10] | 裴利沈, 赵雪专. 群体行为识别深度学习方法研究综述[J]. 计算机科学与探索, 2022, 16(4): 775-790. |
[11] | 许嘉, 韦婷婷, 于戈, 黄欣悦, 吕品. 题目难度评估方法研究综述[J]. 计算机科学与探索, 2022, 16(4): 734-759. |
[12] | 朱伟杰, 陈莹. 双流时间域信息交互的微表情识别卷积网络[J]. 计算机科学与探索, 2022, 16(4): 950-958. |
[13] | 姜艺, 胥加洁, 柳絮, 朱俊武. 边缘指导图像修复算法研究[J]. 计算机科学与探索, 2022, 16(3): 669-682. |
[14] | 张全贵, 胡嘉燕, 王丽. 耦合用户公共特征的单类协同过滤推荐算法[J]. 计算机科学与探索, 2022, 16(3): 637-648. |
[15] | 邬开俊, 黄涛, 王迪聪, 白晨帅, 陶小苗. 视频异常检测技术研究进展[J]. 计算机科学与探索, 2022, 16(3): 529-540. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||