• 学术研究 • 下一篇
何静, 沈阳, 谢润锋
HE Jing, SEHN Yang, XIE Runfeng
摘要: 随着大语言模型在自然语言理解和生成任务上的广泛应用,其在医疗、法律和科研等高精度领域的表现被愈发关注。然而,幻觉现象作为大语言模型普遍存在的问题,极大制约了其在这些领域的实际应用。当前,针对大语言模型幻觉现象的评估和优化尚存在显著不足:首先,缺乏高质量的高精度领域幻觉评估数据集;其次,现有幻觉评估方法大多依赖单一模型,未能充分利用多模型间的差异性优势;最后,不同模型在幻觉类型和幻觉率上表现存在较大差异,尚未有有效方法来降低高幻觉率模型的幻觉现象。本研究采用数据集构建-群体智能选举-幻觉分类与量化-先验知识优化的系统流程,全面评估和优化了大语言模型在医疗问答领域的幻觉现象。首先,根据公开数据集Huatuo,结合GPT4生成问题答案和人工标注的形式构建了医疗问答领域大模型幻觉评估数据集;其次,使用GPT4o、GPT4、ChatGLM4、Baichuan-13B和Claude 3.5等先进的大语言模型对数据集中的问题生成答案。通过一种基于群体智能的方法,选举出一个LeaderAI,它将各模型的回答与参考答案进行比较,从而确定各模型的幻觉率。最后,进一步将幻觉分为事实性幻觉和忠实性幻觉两类。研究结果表明,在LeaderAI的指导下,被评估的大模型的幻觉率显著下降,特别是忠实性幻觉率明显降低。