计算机科学与探索

2024年第11期目次

2024, 18(11): 0-0.

摘要 ( )

PDF (538KB) ( )

相关文章 | 计量指标

量子计算模拟物理系统进展

栾添, 匡学衡, 王维, 岳寰宇

2024, 18(11): 2787-2797. DOI: 10.3778/j.issn.1673-9418.2401060

摘要 ( )

PDF (3951KB) ( )

参考文献 | 相关文章 | 计量指标

当前量子计算作为量子科技的前沿领域，在模拟物理系统方面取得了显著进展，但仍面临硬件噪声、量子误差等技术挑战。综述了量子计算在物理系统模拟中的最新进展，聚焦于量子-经典混合算法和错误缓解技术的应用，探讨其在不同物理系统中的优势与局限性。研究内容包括基于超导量子计算机的分子体系模拟、凝聚态物理系统的多体问题模拟、复杂流体力学系统的方程求解，以及在天体物理与高能物理中的应用。针对分子体系，变分量子算法（VQE）被广泛用于求解多电子体系的基态能量，并通过错误缓解方法提升了模拟的准确性。对于凝聚态物理系统，量子计算在模拟强关联自旋模型方面展现出较高的精度和效率，特别是在更大规模的自旋链模拟中实现了前所未有的精确度。流体力学领域的研究表明，量子-经典混合算法在求解纳维-斯托克斯方程时，能够实现一定程度的加速，为未来的流体动力学研究提供了新的工具。天体物理模拟中，量子计算被用于黑洞和暗物质性质的研究，展示了潜在的指数级加速能力，为理解宇宙中极端条件下的物理现象提供了可能性。在高能物理领域，量子计算在解决施温格模型等问题中表现出良好的应用前景，并初步探索了量子机器学习在高能实验数据分析中的潜力。为量子计算在多领域物理系统模拟的应用提供了全面的视角，指出了未来的发展方向与技术挑战。

结合区块链的车联网可信认证与激励机制综述

高春祺, 李雷孝, 史建平

2024, 18(11): 2798-2822. DOI: 10.3778/j.issn.1673-9418.2312080

摘要 ( )

PDF (9632KB) ( )

参考文献 | 相关文章 | 计量指标

随着车联网数据共享需求的日益增长，安全可靠的身份认证协议与科学合理的激励机制成为保障车联网络稳定运行的首要条件。区块链作为去中心化的分布式账本为车联网提供了技术完善的数据共享平台，结合区块链技术的车联网成为切实可行的数据共享新思路。该研究总结车联网需求，梳理分析基于区块链的车联网架构并将其分为云端层、机制层与边缘层。对相关文献进行归纳总结，分析现有基于区块链的车联网中认证协议与激励机制存在的问题，对其相应的解决方案进行分类比较。从分布式与集中式两种认证架构总结分析现有的可信认证机制的工作流程与实现方案，梳理现有的激励机制工作并将其归纳为基于价值的激励机制、基于信任的激励机制与基于个体决策的激励机制。从隐私保护与典型攻击两方面总结可信认证与激励机制的现存问题与解决方法，在数据共享、多车辆协同与结合6G技术方面对基于区块链的车联网的未来研究方向作出展望。

基于深度学习的抽取式摘要研究综述

田萱, 李嘉梁, 孟晓欢

2024, 18(11): 2823-2847. DOI: 10.3778/j.issn.1673-9418.2308100

摘要 ( )

PDF (10370KB) ( )

参考文献 | 相关文章 | 计量指标

自动文本摘要（ATS）是自然语言处理的热门研究方向，主要实现方法分为抽取式和生成式两类。抽取式摘要直接采用源文档中的文字内容，相比生成式摘要具有更高的语法正确性和事实正确性，在政策解读、官方文件总结、法律和医药等要求较为严谨的领域具有广泛应用前景。目前基于深度学习的抽取式摘要研究受到广泛关注。主要梳理了近几年基于深度学习的抽取式摘要技术研究进展；针对抽取式摘要的两个关键步骤——文本单元编码和摘要抽取，分别分析了相关研究工作。根据模型框架的不同，将文本单元编码方法分为层级序列编码、基于图神经网络的编码、融合式编码和基于预训练的编码四类进行介绍；根据摘要抽取阶段抽取粒度的不同，将摘要抽取方法分为文本单元级抽取和摘要级抽取两类进行分析。介绍了抽取式摘要任务常用的公共数据集和性能评估指标。预测并分析总结了该领域未来可能的研究方向及相应的发展趋势。

面向文本实体关系抽取研究综述

任安琪, 柳林, 王海龙, 刘静

2024, 18(11): 2848-2871. DOI: 10.3778/j.issn.1673-9418.2401033

摘要 ( )

PDF (9902KB) ( )

参考文献 | 相关文章 | 计量指标

信息抽取是知识图谱构建的基础，关系抽取作为信息抽取的关键流程和核心步骤，旨在从文本数据中定位实体并识别实体间的语义联系。因此提高关系抽取的效率可以有效提升信息抽取的质量，进而影响到知识图谱的构建以及后续的下游任务。关系抽取按照抽取文本长度可以分为句子级关系抽取和文档级关系抽取，两种级别的抽取方法在不同应用场景下各有优缺点。句子级关系抽取适用于较小规模数据集的应用场景，而文档级关系抽取适用于新闻事件分析、长篇报告或文章的关系挖掘等场景。不同于已有的关系抽取，介绍了关系抽取的基本概念以及领域内近年来的发展历程，罗列了两种级别关系抽取所采用的数据集，对数据集的特点进行概述；分别对句子级关系抽取和文档级关系抽取进行了阐述，介绍了不同级别关系抽取的优缺点，并分析了各类方法中代表模型的性能以及局限性；总结了当前研究领域中存在的问题并对关系抽取发展前景进行了展望。

遗忘学习综述

何黎松, 杨洋

2024, 18(11): 2872-2886. DOI: 10.3778/j.issn.1673-9418.2405027

摘要 ( )

PDF (5730KB) ( )

参考文献 | 相关文章 | 计量指标

为了有效保护数据隐私并实现“被遗忘的权力”，需要从机器学习模型中消除特定训练数据子集的影响，并确保这些数据不会被反向推测。为了解决这一问题，近年来形成了“遗忘学习”的研究领域。从定义、度量方法和算法三个方面全面介绍遗忘学习的研究进展。梳理了遗忘学习的核心概念定义和评价指标，并着重分析了可认证性指标的重要意义。按照算法设计原理将遗忘算法划分为结构化初训练、影响函数近似估计、梯度更新、噪声遗忘、知识蒸馏遗忘和边界遗忘六大类，并详细介绍了其中九种代表性的遗忘学习算法及其演变。在总结比较已有算法优劣基础上，讨论了遗忘学习统一框架的意义，并分析了遗忘学习研究与隐私保护的理论和实践关系。展望了遗忘学习未来的研究方向，包括：机器学习的公平性、迁移学习和强化学习等子领域尚需拓展遗忘学习算法；未来遗忘算法有可能综合多种设计思路；遗忘实践需要技术与法规的协同合作；遗忘学习与增量学习的统一将有助于提高机器学习模型的管理和运营效率。

大语言模型增强的知识图谱问答研究进展综述

冯拓宇, 李伟平, 郭庆浪, 王刚亮, 张雨松, 乔子剑

2024, 18(11): 2887-2900. DOI: 10.3778/j.issn.1673-9418.2407069

摘要 ( )

PDF (5121KB) ( )

参考文献 | 相关文章 | 计量指标

知识图谱问答（knowledge graph question answering，KGQA）是一种通过处理用户提出的自然语言问题，从知识图谱中获取相关答案的技术。早期的知识图谱问答技术受到知识图谱规模、计算能力以及自然语言处理能力的限制，准确率较低。近年来，随着人工智能技术的进步，特别是大语言模型（large language model，LLM）的发展，知识图谱问答技术的性能得到显著提升。大语言模型如GPT-3等已经被广泛应用于增强知识图谱问答的性能。为了更好地研究学习增强知识图谱问答的技术，对现有的各种大语言模型增强的知识图谱问答方法进行了归纳分析。总结了大语言模型和知识图谱问答的相关知识，即大语言模型的技术原理、训练方法，以及知识图谱、问答和知识图谱问答的基本概念。从语义解析和信息检索两个维度，综述了大语言模型增强知识图谱问答的现有方法，分析了方法所解决的问题及其局限性。收集整理了大语言模型增强知识图谱问答的相关资源和评测方法，并对现有方法的性能表现进行了总结。最后针对现有方法的局限性，分析并提出了未来的重点研究方向。

基于多模态和知识蒸馏的教材知识图谱构建方法

刘军, 冷芳玲, 吴旺旺, 鲍玉斌

2024, 18(11): 2901-2911. DOI: 10.3778/j.issn.1673-9418.2406054

摘要 ( )

PDF (4316KB) ( )

参考文献 | 相关文章 | 计量指标

为了高效构建教育领域多模态学科知识图谱，提出了基于大模型知识蒸馏和多模型协作推理的教材文本实体关系抽取算法。在模型训练阶段，利用闭源的千亿参数模型对文本数据进行标注，实现隐式知识蒸馏。然后对开源十亿规模参数模型进行领域数据指令微调，提升开源模型实体关系抽取任务的指令遵循能力。在模型推理阶段，闭源模型作为指导模型，开源的十亿规模参数模型作为执行模型。实验结果表明知识蒸馏、多模型协作、领域数据指令微调具有有效性，显著提高了基于指令提示的教材文本实体关系抽取任务的效果。提出了显隐式知识增强的教材示意图多模态命名实体识别算法。利用图像OCR、视觉语言模型等技术提取了教材示意图中的文字信息、全局内容描述信息。通过显式知识库检索增强和隐式LLM提示增强的方法，得到图像-标题对中可能关联的辅助知识，并将显式知识库和隐式LLM得到的知识进一步融合，形成最终的辅助知识。将示意图辅助知识和示意图标题进行拼接，实现教材示意图标题的多模态命名实体识别。实验结果表明，该算法具有先进性，同时增强了算法的可解释性。

基于大语言模型的PTCR外部知识型视觉问答框架

薛迪, 李欣, 刘明帅

2024, 18(11): 2912-2924. DOI: 10.3778/j.issn.1673-9418.2406028

摘要 ( )

PDF (8427KB) ( )

参考文献 | 相关文章 | 计量指标

针对外部知识型视觉问答（VQA）模型输入信息不足、推理性能差的问题，构建了一种基于大语言模型（LLM）的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多模态大模型生成针对性的图像描述，解决了以往图像标题覆盖不全面的问题；通过LLM自主生成思维链，并在推理过程中提供相似问题的思考过程，提高了模型的推理能力；在推理过程引入选项重排技术消除LLM的选择位置偏见，通过多数投票的方式降低了推理的随机性误差。实验结果表明，经PTCR框架增强的CogVLM模型，其准确率在OK-VQA、A-OKVQA数据集上分别提升了16.7个百分点、13.3个百分点。同时，与Prophet相比，PTCR框架在OK-VQA、A-OKVQA数据集上准确率分别提升了3.4个百分点、5.0个百分点。消融实验的结果证明，所使用的针对性图像描述、自主式思维链等方法对准确率均有提升效果。可见PTCR框架在改进外部知识型VQA任务性能方面有所提升。

基于大语言模型多阶段推理的情绪支持对话生成方法

桑晨扬, 马廷淮, 谢欣彤, 孙圣杰, 黄锐

2024, 18(11): 2925-2939. DOI: 10.3778/j.issn.1673-9418.2406036

摘要 ( )

PDF (6879KB) ( )

参考文献 | 相关文章 | 计量指标

情绪支持对话任务需在充分理解用户心理状态的基础上，采取特定的对话策略进行支持性回复，以减轻用户的情绪困扰。现有的研究大多采用端到端生成的方法，通过微调的方式调整小型预训练语言模型，以对情绪支持任务进行适配。然而，这些方法缺乏对用户心理状态的细粒度理解，导致共情程度不足，并且模型决策过程不透明，导致可解释性较差。为解决上述问题，受目前大语言模型出色的推理能力启发，提出了一种基于大语言模型的情绪支持对话推理框架CoES（chain-of-emotional-support），将端到端的生成问题转化为分阶段的推理问题，从而将复杂的情绪支持任务分解为简单子任务来逐步解决。该框架由情绪推理链、策略推理链、回复生成链三条思维链组成，分别用于用户心理状态的细粒度挖掘、情绪支持策略的选择以及回复的生成与优化。针对性地设计了不同的外部知识增强策略，以改善大模型在心理状态挖掘及支持策略选择过程中的推理效果。ESConv数据集上的人工评估及自动评估结果表明，所提出的推理方法在情绪支持的可解释性及内容生成质量方面达到了先进的性能。

融合知识推理与相似度检索的民众诉求大模型构建与应用

刘昕, 高会泉, 邵长恒, 陈子良, 卢文娟, 杨会如

2024, 18(11): 2940-2953. DOI: 10.3778/j.issn.1673-9418.2406057

摘要 ( )

PDF (6879KB) ( )

参考文献 | 相关文章 | 计量指标

高效回复民众诉求是实现智能化管理、提升民众满意度的必要措施，将智能问答应用于民众诉求能有效节约人力和时间资源。然而，智能问答中基于规则和检索的模型依赖预设知识，当诉求超出预设知识范围时无法提供有效回复，在处理多轮对话时也无法保持对话连贯性。现有的大语言模型可以和用户流畅对话，但通用大语言模型缺乏诉求领域知识。由于训练数据中问答对的信息没有覆盖回答用户问题所需要的知识，导致通用大语言模型生成错误回复或答非所问，产生幻觉。针对上述问题，构建了面向民众诉求领域的智能问答大语言模型（PC-LLM）。设计基于BERT-BiLSTM-CRF的实体关系抽取模型获得诉求工单中实体及其关系，进而构建诉求知识图谱，使用BERT模型对诉求工单向量化并构建诉求工单向量索引库；回复生成阶段，抽取用户诉求的实体和关系，在诉求知识图谱中通过实体链接进行知识推理，获取潜在关系提示，同时在诉求工单向量索引库内对诉求进行快速检索，获取相似诉求并构建相似诉求提示；将潜在关系提示、相似诉求提示与用户诉求融合形成综合提示，引导大语言模型生成准确的回复。实验分析显示，该大语言模型在诉求数据集中的表现明显优于ChatGPT4o、文心一言、通义千问等大语言模型。

融合无迹sigma点变异和交叉反向的鹈鹕优化算法

左锋琴, 张达敏, 何庆, 班云飞, 沈倩雯

2024, 18(11): 2954-2968. DOI: 10.3778/j.issn.1673-9418.2308010

摘要 ( )

PDF (7339KB) ( )

参考文献 | 相关文章 | 计量指标

针对鹈鹕优化算法（POA）在寻优过程中存在寻优速度慢、精度低以及易陷入局部最优等问题，提出了一种融合无迹sigma点变异和交叉学习的鹈鹕优化算法（MPOA）。使用随机反向学习策略对种群中劣势群体产生随机反向解，引入无迹sigma点对其反向解进行变异，增强算法在搜索域可见范围内精细开发，避免算法陷入局部最优；利用Levy飞行的随机性对交叉反向策略进行改进，动态探索丰富个体寻优过程，保持算法多样性，增强算法全局搜索能力；引入非线性收敛因子来平衡算法的开发和勘探能力，利用基于SPM的混沌序列扰动非线性收敛因子以增加解的多样性，避免算法在后期陷入局部最优，增强算法稳定性。利用12个基准测试函数、秩和检验和CEC2021函数进行实验仿真，对比分析寻优效果可知，改进算法具有更强的全局搜索能力和更快的寻优速度。将MPOA算法用于优化长短期记忆网络（LSTM）模型的参数，并应用于气候变化预测任务，与其他六种群智能算法优化的LSTM模型进行对比，结果表明，MPOA-LSTM模型具有更好的预测精度。

融合模糊聚类和自适应去噪的推荐遗忘学习算法

王建芳, 柴广文, 陈艺卿, 梁梦豪, 罗军伟

2024, 18(11): 2969-2979. DOI: 10.3778/j.issn.1673-9418.2312020

摘要 ( )

PDF (6790KB) ( )

参考文献 | 相关文章 | 计量指标

隐私保护在推荐系统中具有至关重要的地位，因为它有助于保护用户的敏感信息免受泄露风险。近年来，推荐遗忘学习作为一种有效的隐私保护手段引起了越来越多的关注。现有方法为了提高模型的训练效率，通常将数据划分为子分区进行训练。然而，简单划分子分区会破坏用户-项目间的完整性，降低数据的可用性。此外，子分区中隐式反馈的假阳性噪声会干扰模型的训练，使其无法准确地捕捉用户的真实偏好。为解决上述问题，提出了融合模糊聚类和自适应去噪的推荐遗忘学习算法（FDRU）。该算法使用模糊聚类来划分数据集，通过计算交互样本到各个聚类中心的余弦距离来确定隶属度，进而将训练集划分为若干个子分区。FDRU设计了一种自适应去噪方法，其能够根据阈值动态地剔除子分区中的假阳性噪声。通过动态权重聚合子模型进行预测和Top-N推荐。为了验证提出算法的性能，在三个公开数据集上进行实验验证，实验结果表明，提出的算法在召回率和归一化折损累计增益上优于其他基准算法。

随机通道扰动的图像数据增强方法

姜文涛, 刘玉薇, 张晟翀

2024, 18(11): 2980-2995. DOI: 10.3778/j.issn.1673-9418.2311022

摘要 ( )

PDF (8959KB) ( )

参考文献 | 相关文章 | 计量指标

数据增强中遮挡仿真方法将输入图像随机裁剪的区域像素全部置零，会擦除有效纹理特征，导致网络泛化能力欠佳。因此，提出一种随机通道扰动的图像数据增强方法（ChannelCut）。ChannelCut方法包括ChannelCut1和ChannelCut2两种方法。在输入图像上随机选取三个方形区域，并且对输入图像进行通道分离，得到三个通道图像；ChannelCut1方法在三个通道图像上分别选取一个方形区域将其像素置零，且三个通道选择的区域互不相同；ChannelCut2方法保留ChannelCut1方法中选取的方形区域像素，并将每个通道中剩余两个方形区域的像素置零；将两种方法处理后的三个通道图像分别进行合并，得到两种随机通道扰动图像。将所提方法融合到Resnet18、ShuffleNet V2、MobileNet V3等CNN模型中，并在CIFAR-10、Imagenette等五个数据集上开展实验。该方法在五个数据集上的分类准确率均优于主流方法，显著提高了基线模型的性能；在细粒度图像分类中更占有优势；在时间性能上优于使用强化学习的自动数据增强类型方法。该方法能够不同程度地保留图像纹理特征，丰富图像多样性，具有较强的通用性和有效性，显著地提高卷积神经网络模型的鲁棒性和泛化性。

面向遥感图像检索的自适应样本类型判别研究

邵徽虎, 葛芸, 熊俊杰, 余洁洁

2024, 18(11): 2996-3005. DOI: 10.3778/j.issn.1673-9418.2402031

摘要 ( )

PDF (5453KB) ( )

参考文献 | 相关文章 | 计量指标

遥感图像内容复杂，类别丰富，存在较多难以判别的图像，导致遥感图像检索性能不佳。为此，提出自适应样本类型判别方法（ASTD），将样本类型动态地分为简单样本、普通样本和困难样本，网络依据样本的类型进行不同程度的学习，从而有效提高特征的判别能力。设计了一个SHash网络，该网络以Swin Transformer为骨干，在网络的最后加上哈希层，该网络能够在全局上捕获图像的语义信息，提高特征的表达能力和检索效率；为了让同一类别图像更加聚集，并更好地区分不同类别的图像，给每个类别定义一个哈希中心，规定输入样本自身类别所对应的中心为该样本的正中心，其他中心为该样本的负中心；提出样本类型判别损失STDLoss，根据样本与正负中心的距离关系自适应判别样本的类型，从而提高网络对各类型样本的学习能力。在UC-Merced和AID两个遥感数据集上与DSH、CSQ、SHC等五种哈希方法进行了比较，实验结果表明，基于ASTD方法训练的网络可以更好地学习样本的特征，提高检索性能。

多级Transformer特征融合的三维点云目标跟踪

李志杰, 梁卜文, 丁昕苗, 郭文

2024, 18(11): 3006-3014. DOI: 10.3778/j.issn.1673-9418.2401071

摘要 ( )

PDF (4607KB) ( )

参考文献 | 相关文章 | 计量指标

三维点云目标跟踪的过程中时常会出现遮挡、稀疏性和随机噪声等问题。为了解决这些问题，提出了一种新颖的多级Transformer特征融合的三维点云目标跟踪方法。该方法主要由点注意嵌入模块和点注意力增强模块组成，且这两个模块分别用于特征提取和特征匹配的过程中。通过将两个注意力机制相互嵌入构成点注意力嵌入模块，并将其和PTTR所提出的关系感知采样法融合，实现充分提取特征的目的。将提取到的特征信息输入点注意力增强模块中，通过交叉注意力机制对不同层次的特征依次匹配，达到全局特征和局部特征深度融合的目标。为了获取判别性特征融合图，利用残差网络的方式对不同层的融合结果进行连接。将特征融合图输入目标预测的模块中，实现对最终3D目标对象的精准预测。在KITTI数据集、nuScenes数据集和Waymo数据集上的实验验证了该方法的有效性。若不计小样本数据，在目标跟踪的成功值中该方法平均提高了1.4个百分点，在跟踪的精确值上也提高了1.4个百分点。

基于信息融合和数据增强的篇章级事件检测方法

谭立君, 胡艳丽, 曹健威, 谭真

2024, 18(11): 3015-3026. DOI: 10.3778/j.issn.1673-9418.2312040

摘要 ( )

PDF (5616KB) ( )

参考文献 | 相关文章 | 计量指标

事件检测是自然语言处理领域的关键任务，旨在识别事件触发词并正确分类其事件类型。语句级事件检测方法未能有效利用文本中的句内和句间事件相关性信息，面临着一词多义、事件共现等众多难题。此外，基于神经网络的事件检测模型需要大量的文本数据作为训练支撑，但语料库的数据不足严重影响着结果的准确率及模型的稳定性。针对上述问题，提出了基于信息融合和数据增强的篇章级事件检测方法LGIA。该方法采用编-解码框架，设计了基于膨胀卷积网络的句子级局部信息抽取模块和基于条件层归一化的篇章级全局信息抽取模块，以深入挖掘整个文档的上下文语义信息和事件间的相关性。同时，采用了同义词替换的数据增强策略，有效扩充了数据样本，从而缓解了数据不足问题带来的影响。经实验验证，LGIA方法在ACE2005数据集上取得了较好的结果，并在数据增强后的TAC-KBP2017数据集上得到了显著的性能提升，F1值分别达到了77.6%和65.3%，相较于现有的基线方法展现出了更优越的性能表现。

稀疏矩阵和改进归一化切割的快速多视图聚类

杨明瑞, 周世兵, 王茜, 宋威

2024, 18(11): 3027-3040. DOI: 10.3778/j.issn.1673-9418.2309037

摘要 ( )

PDF (5268KB) ( )

参考文献 | 相关文章 | 计量指标

多视图聚类是一种新颖的聚类算法，它可以有效地探索出数据之间的内在聚类结构。大多数多视图聚类算法在构造相似图时容易受到噪声的影响，而且在聚类过程中还会面临信息损失问题，从而降低聚类结果的准确性。此外，现有多视图聚类算法通常使用交替迭代优化方法获得最优解，多次迭代会导致内存溢出或耗时过长。为了解决上述问题，提出了一种基于稀疏矩阵和改进归一化切割的快速多视图聚类算法（SINFMC）。该算法根据原始数据构造每个视图的相似图，并对相似图进行融合得到共识图矩阵。对共识图矩阵进行[l1]范数约束获得稀疏矩阵，实现数据降噪和加速计算。使用改进的归一化谱聚类算法对稀疏的共识图进行聚类得到聚类指标矩阵，这样不仅能够直接获得聚类结果，而且消除了聚类过程中的信息损失和偏差。该聚类算法无需交替迭代优化且通过稀疏矩阵表示精简计算过程，大幅降低了算法的时间和空间复杂度。人工和真实数据集上的比较实验结果表明该算法在质量和效率方面优于对比算法。

面向多模态情感分析的多通道时序卷积融合

孙杰, 车文刚, 高盛祥

2024, 18(11): 3041-3050. DOI: 10.3778/j.issn.1673-9418.2309071

摘要 ( )

PDF (3736KB) ( )

参考文献 | 相关文章 | 计量指标

多模态情感分析已成为情感计算领域中的热门研究方向，它将基于单模态的情感分析扩展到基于多模态信息交流的环境。词级表示融合是建模跨模态信息交互的关键技术之一，旨在建模不同模态元素之间的相互作用。该任务面临两大挑战：模态元素之间的局部交互和时间维度上的全局交互。现有方法在建模局部交互时，常采用注意力机制刻画模态元素整体特征间的相关性，但忽视了相邻元素及局部特征间的交互作用，计算成本也较高。为解决上述问题，提出一种多通道时序卷积融合（MCTCF）模型，该方法运用二维卷积网络获取多模态元素之间的局部交互。其中，局部连接可捕获相邻元素的关联，多通道卷积可学习多模态元素局部特征之间的融合，权重共享大幅降低了计算量。在得到局部交互后的序列上，时序LSTM网络可进一步建模时间维度上的全局关联。在MOSI和MOSEI数据集上的大量实验证明了MCTCF的有效性与高效性。仅用一个卷积核（三通道，28个权重参数），在许多指标上取得了最先进或具有竞争力的结果。消融研究表明，局部卷积融合和全局时序建模都是提高性能的关键。该研究强化了词级表示融合，降低了计算复杂度。

自动驾驶场景类间相似特征自适应分类网络

姜彦吉, 冯宇宙, 董浩, 田佳琳

2024, 18(11): 3051-3064. DOI: 10.3778/j.issn.1673-9418.2403033

摘要 ( )

PDF (5525KB) ( )

参考文献 | 相关文章 | 计量指标

解决类间相似度问题是自动驾驶场景分类研究中一项充满挑战的任务，主要研究在相似度较高的真实复杂交通场景中，利用网络学习目标特征的差异性，并构建特征之间整体关联性进行场景分类。提出一种多尺度自适应特征筛选的自动驾驶场景分类网络。采用双重多尺度特征提取模块预处理，初步提取不同尺度下的类间相似特征；设计了特征分化筛选模块完成场景相似特征筛选，使网络更关注不同场景类别的典型易区分特征；将特征筛选结果和多尺度特征图共同传递至特征融合分类模块进行场景分类，捕捉场景特征之间的关联性；由自适应学习算法通过输出结果动态调整训练参数，加快网络收敛速度并提升精度。所提方法在三种数据集BDD100k、BDD100k+和自制数据集上与现有网络方法进行比较，相较Top2网络在精度上分别领先了3.29%、5.59%、12.65%（相对），实验结果表明了所提方法的有效性，并展现了很好的泛化能力。提出的场景分类方法旨在学习不同复杂场景类别下的典型易区分的特征及其关联性，降低多目标类间相似的影响，使得在真实交通场景数据集中场景分类结果更加准确。

当期目录