近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现。多模态大语言模型(Multimodal Large Language Model, MLLM)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。然而,多模态大模型的构建与应用仍面临诸多挑战:如何有效融合异构模态数据,实现跨模态语义对齐与知识迁移?如何提升模型对复杂场景的泛化能力与可解释性?如何降低多模态大模型的训练与推理成本,并保障其安全性与伦理合规性?如何在不同垂直领域适配优化多模态大模型,以解决领域特定应用问题?这些问题亟需学术界与工业界共同探索创新解决方案。
为深入探讨多模态大模型的前沿理论与技术突破,推动其在各领域的创新应用,《计算机科学与探索》特设“多模态大模型理论与技术”专题。本专题旨在汇聚多模态学习、大模型架构设计、跨模态知识融合等领域的优秀研究成果,为构建高效、可靠、可扩展的多模态大模型提供理论支持与实践指导,助力人工智能向更通用、更智能的方向发展。
特邀编辑
o 王 鑫 教授 天津大学
o 熊 赟 教授 复旦大学
o 陈俊颖 教授 华南理工大学
o 王 萌 副教授 同济大学
本专题在《计算机科学与探索》2025年第12期发表了5篇论文,概述如下:
面向推荐系统的多模态生成研究综述
张 瑞,卞志鹏
华中科技大学 计算机科学与技术学院,武汉 430074
介绍:随着大语言模型与多模态生成模型的快速发展,推荐系统正从“匹配现有内容”向“生成个性化内容”的范式转型。个性化多模态生成强调根据用户历史行为与生成目标指令,输出可直接用于推荐流程的符合用户偏好的文本、图像、音频或视频内容,从而提升用户体验与推荐系统的效果。尽管近年来相关技术快速演进,已有研究在图像、文本等模态生成中初步展现出良好效果,但在方法定义、关键技术、任务共性与研究范式等方面仍缺乏系统总结与统一视角。聚焦推荐场景中的个性化多模态生成问题展开系统性综述,率先界定了“偏好捕捉、目标内容与个性化生成”的三元建模关系,将个性化多模态生成严格限定为:在推荐系统中,基于用户历史行为和画像所捕捉的个性偏好,生成直接作为推荐候选或展示内容的多模态输出(如封面图、新闻标题、音视频片段等),而非一般意义上的开放式文生图或对话生成任务。随后构建统一的技术框架,围绕“偏好与目标建模”“偏好注入与生成器结构”“优化策略与个性化输出”三大核心模块展开,并结合图像、文本、音频与跨模态任务总结典型技术路径和应用场景。对现有评估指标及其在衡量个性化与推荐有效性方面的局限进行了批判性分析,并讨论大型多模态模型在推荐系统中的适配性、推理效率与安全性挑战。最后展望未来的发展方向,为个性化多模态生成研究提供系统化参考。
链接:http://fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.2511039
引用格式:张瑞, 卞志鹏. 面向推荐系统的多模态生成研究综述[J]. 计算机科学与探索, 2025, 19(12): 3224-3242.
多模态信息融合指导的OpenFOAM图形界面代码生成框架
卢 斌,刘建峰,王浩琳,张玉志,陈 锐
南开大学 软件学院,天津 300457
介绍:针对OpenFOAM因依赖命令行操作而导致的使用门槛高,以及传统仿真界面普遍存在开发周期长、定制成本高的多重挑战,提出AutoCode4OF框架,旨在实现从多模态输入到完整OpenFOAM可执行界面代码的端到端自动生成。该框架主要创新包括:(1)在输入层面,框架融合图像、自然语言文本以及已有代码片段等多模态信息,联合表征用户意图;(2)在知识处理层面,通过构建计算流体力学(CFD)领域的专业知识图谱,并引入检索增强生成(RAG)与前后端双重验证机制,显著提升生成代码在物理意义上的合理性与可靠性;(3)在系统架构设计上,采用多智能体协同工作机制,将整体任务分解为知识检索、任务规划、代码生成、素材设置以及测试验证等多个专业模块,各模块分工协作,共同保障输出结果的质量与完整性。实验结果表明,AutoCode4OF在代码质量、功能完整性和编译成功率方面分别达到0.956、0.997和100%,在网格生成、求解计算以及后处理结果验证等多个环节中均展现出良好的适用性与稳定性,具备较高的实际工程应用价值,并为科学计算软件的智能化发展提供了新思路。
链接:http://fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.2508051
引用格式:卢斌, 刘建峰, 王浩琳, 等. 多模态信息融合指导的OpenFOAM图形界面代码生成框架[J]. 计算机科学与探索, 2025, 19(12): 3243-3256.
自适应路由与双阈值剪枝的多模态大模型检索增强感知
徐国愚1,张一丹2,魏 笑3,毛洋敏3
1. 河南财经政法大学 数据科学与电子商务学院,郑州 450016
2. 河南财经政法大学 计算机与信息工程学院,郑州 450016
3. 河南财经政法大学 管理科学与工程学院,郑州 450016
介绍:检索增强感知算法能有效提升多模态大模型对高分辨率图像的感知能力,具有重要应用价值。但是现有算法存在检索时间过长问题,难以满足系统实时性需求。提出一种融合自适应路由机制与双阈值剪枝搜索策略的多模态大模型检索增强感知算法,以优化处理效率。设置了自适应路由机制,通过计算整图任务可行性概率,并结合问题空间复杂度与模型规模自适应设定动态阈值,实现对简单样本的有效预筛选,使其无需分块处理即可直接获得答案,从而从源头规避无效计算。针对必须处理的复杂样本,在树搜索过程中采用双阈值剪枝的搜索策略:第一级剪枝基于语义质量评分的动态衰减约束,提前终止低质量分支的扩展;第二级剪枝则基于置信度评分差异,对通过第一级剪枝的节点,进一步合并那些决策稳定性高、置信度相近的冗余路径,从而有效抑制搜索空间的膨胀。实验结果表明,在V*Bench、HR-Bench等数据集上,该方案在保持感知精度(准确度仅损失2个百分点以内)的同时,实现了检索效率的显著提升,在LLaVA-ov-0.5B模型上检索速度最高提升达48.3%,尤其适用于低资源场景下的部署应用。
链接:http://fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.2508035
引用格式:徐国愚, 张一丹, 魏笑, 等. 自适应路由与双阈值剪枝的多模态大模型检索增强感知[J]. 计算机科学与探索, 2025, 19(12): 3257-3266.
面向涉案财物的业务知识视觉问答技术框架
薛 迪1,李 欣1,2,3,蒋章涛1,王晓宇1,刘明帅1
1. 中国人民公安大学 信息网络安全学院,北京 100038
2. 安全防范技术与风险评估公安部重点实验室,北京 100026
3. 中国人民公安大学 公安大数据战略研究中心,北京 100038
介绍:针对业务知识视觉问答模型涉案财物业务知识信息缺失、常规检索增强生成技术召回率低、模型推理性能差等问题,提出了涉案财物业务知识视觉问答技术框架。使用多模态大模型根据图像改写补全问题,解决了直接检索无法命中相关信息的问题。通过Conan-embedding模型对知识库以及查询进行向量化,提高了模型的知识检索能力。构建了关于涉案财物业务知识视觉问答数据集与公安知识库,针对法律法规类型文件,摒弃常规的固定切块储存方法,采用动态分割技术按条保存数据。使用LongLLMLingua模型根据改写后的问题对检索的外部知识进行压缩,在有效降低上下文长度的基础上提高了模型准确率。实验结果显示,提出的方法准确率达到71.98%,相较直接使用GLM-V提升了18.68个百分点,优于其他基线模型,验证了该方法的有效性。
链接:http://fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.2502029
引用格式:薛迪, 李欣, 蒋章涛, 等. 面向涉案财物的业务知识视觉问答技术框架[J]. 计算机科学与探索, 2025, 19(12): 3267-3278.
基于分子结构与课程学习的跨模态分子检索
林楠铠1,伍奕倩1,黄丽霓1,武洪艳2,徐 榛1,王连喜1
1. 广东外语外贸大学 信息科学与技术学院,广州 510006
2. 国防科技大学 计算机学院,长沙 410073
介绍:近年来,跨模态检索方法快速发展,早期主要依赖统计分析或哈希映射来关联不同模态,而深度学习的引入则显著提升了对齐效果。然而在提高对齐能力的同时,现有方法也带来了较高的训练开销。为此,一些研究引入课程学习以提升检索效率,但其样本的难度度量多依赖于表征相似度,忽视了分子结构信息,从而可能导致排序结果存在偏差。针对上述问题,提出了一种结构感知的课程学习框架,从分子层级结构出发定义样本难度,使课程学习过程能够更好地捕捉分子的内在结构信息,减少误判样本在训练过程中的干扰,增强模型在处理结构相似但表征差异较大的分子样本时的鲁棒性。在多个主流基准数据集上的实验结果表明,该方法在Hits@1、MRR等指标上均优于现有方法。在文本-分子与分子-文本两类检索任务中,现有SOTA模型在所提框架下均取得了比现有课程学习方法更明显的性能提升,验证了所提策略在双向检索中的普适性与有效性。
链接:http://fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.2508057
引用格式:林楠铠, 伍奕倩, 黄丽霓, 等. 基于分子结构与课程学习的跨模态分子检索[J]. 计算机科学与探索, 2025, 19(12): 3279-3289.