摘要点击排行

    一年内发表文章 |  两年内 |  三年内 |  全部

    当前位置: 一年内发表文章
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 序列数据的数据增强方法综述
    葛轶洲, 许翔, 杨锁荣, 周青, 申富饶
    计算机科学与探索    2021, 15 (7): 1207-1219.   DOI: 10.3778/j.issn.1673-9418.2012062
    摘要853)      PDF(pc) (8914KB)(1023)    收藏

    为了追求精度,深度学习模型框架的结构越来越复杂,网络越来越深。参数量的增加意味着训练模型需要更多的数据。然而人工标注数据的成本是高昂的,且受客观原因所限,实际应用时可能难以获得特定领域的数据,数据不足问题非常常见。数据增强通过人为地生成新的数据增加数据量来缓解这一问题。数据增强方法在计算机视觉领域大放异彩,让人们开始关注类似方法能否应用在序列数据上。除了翻转、裁剪等在时间域进行增强的方法外,也描述了在频率域实现数据增强的方法;除了人们基于经验或知识而设计的方法以外,对一系列基于GAN的通过机器学习模型自动生成数据的方法也进行了详细的论述。介绍了应用在自然语言文本、音频信号和时间序列等多种序列数据上的数据增强方法,亦有涉及它们在医疗诊断、情绪判断等问题上的表现。尽管数据类型不同,但总结了应用在这些类型上的数据增强方法背后的相似的设计思路。以这一思路为线索,梳理应用在各类序列数据类型上的多种数据增强方法,并进行了一定的讨论和展望。

    参考文献 | 相关文章 | 多维度评价
    2. 时序知识图谱的增量构建
    张子辰, 岳昆, 祁志卫, 段亮
    计算机科学与探索    2022, 16 (3): 598-607.   DOI: 10.3778/j.issn.1673-9418.2009068
    摘要680)   HTML9)    PDF(pc) (4047KB)(576)    收藏

    带有时序特征的知识图谱(KG)称为时序知识图谱,用来描述知识库中增量式的概念及其相互关系。知识随着时间推移而变化,将新增知识实时、准确地添加到时序知识图谱中,可以实时反映知识的演化更新。对此,给出时序知识图谱的定义,并基于TransH提出一种时序知识图谱的增量构建方法。为了将新增且相关的三元组准确地添加到当前知识图谱中,提出了三元组与当前知识图谱之间吻合度的计算模型,以及基于贪心思想的待添加到知识图谱中的最优三元组子集提取算法,进而将最优的三元组集合添加到当前知识图谱中,完成时序知识图谱的增量更新。实验结果表明,提出的增量构建方法能够快速地提取出最优三元组并有效地添加到知识图谱中,验证了方法的高效性和有效性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    3. 基于深度学习的视频目标检测综述
    王迪聪, 白晨帅, 邬开俊
    计算机科学与探索    2021, 15 (9): 1563-1577.   DOI: 10.3778/j.issn.1673-9418.2103107
    摘要619)      PDF(pc) (3995KB)(1270)    收藏

    视频目标检测是为了解决每一个视频帧中出现的目标如何进行定位和识别的问题。相比于图像目标检测,视频具有高冗余度的特性,其中包含了大量的时空局部信息。随着深度卷积神经网络在静态图像目标检测领域的迅速普及,在性能上相较于传统方法显示出了非常大的优越性,并逐步在基于视频的目标检测任务上也发挥了应有的作用。但现有的视频目标检测算法仍然面临改进与优化主流目标检测算法的性能、保持视频序列的时空一致性、检测模型轻量化等关键技术的挑战。针对上述问题和挑战,在调研大量文献的基础上系统地对基于深度学习的视频目标检测算法进行了总结。从基于光流、检测等基础方法对这些算法进行了分类,从骨干网络、算法结构、数据集等角度细致探究了这些方法。结合在ImageNet VID等数据集上的实验结果,分析了该领域具有代表性算法的性能优势和劣势,以及算法之间存在的联系。对视频目标检测中待解决的问题与未来研究方向进行了阐述和展望。视频目标检测已成为众多的计算机视觉领域学者追逐的热点,将来会有更加高效、精度更高的算法被相继提出,其发展方向也会越来越好。

    参考文献 | 相关文章 | 多维度评价
    4. 多模态的情感分析技术综述
    刘继明, 张培翔, 刘颖, 张伟东, 房杰
    计算机科学与探索    2021, 15 (7): 1165-1182.   DOI: 10.3778/j.issn.1673-9418.2012075
    摘要618)      PDF(pc) (4471KB)(1437)    收藏

    情感分析是指利用计算机自动分析确定人们所要表达的情感,其在人机交互和刑侦破案等领域都能发挥重大作用。深度学习和传统特征提取算法的进步为利用多种模态进行情感分析提供了条件。结合多种模态进行情感分析可以弥补单模态情感分析的不稳定性以及局限性等缺点,能够有效提高准确度。近年来,研究者多用面部表情信息、文本信息以及语音信息三种模态进行情感分析。主要从这三种模态对多模态情感分析技术进行综述:首先对多模态情感分析的基本概念以及研究现状进行简要介绍;其次总结了常用的多模态情感分析数据集;然后分别对现有的基于面部表情信息、文本信息和语音信息的单模态情感分析技术进行简要叙述;接下来详细介绍了模态融合技术,并依据不同的模态融合方式对多模态情感分析技术的现有成果进行重点描述;最后讨论了多模态情感分析存在的问题以及未来的发展方向。

    参考文献 | 相关文章 | 多维度评价
    5. 改进YOLOv5的交通灯实时检测鲁棒算法
    钱伍, 王国中, 李国平
    计算机科学与探索    2022, 16 (1): 231-241.   DOI: 10.3778/j.issn.1673-9418.2105033
    摘要483)   HTML18)    PDF(pc) (9825KB)(447)    收藏

    交通灯检测算法作为自动驾驶任务中的一个重要环节,直接关系到智能汽车的行车安全。因为交通灯尺度小且环境复杂,给算法研究带来了困难。针对交通检测存在的痛点,提出改进YOLOv5的交通灯检测算法。首先使用可见标签比确定模型输入;然后引入ACBlock结构增加主干网络的特征提取能力,设计SoftPool减少主干网络的采样信息损失,使用DSConv卷积核减少模型参数;最后设计了记忆性特征融合网络,高效利用了高级语义信息和底层特征。对模型输入和主干网络的改进,直接提高模型在复杂环境下对特征的提取能力;对特征融合网络的改进,使模型能够充分利用特征信息,增加对目标定位和边界回归的精准度。实验结果表明,改进后的方法在BDD100K数据集上取得了74.3%的AP和111 frame/s的检测速度,比YOLOv5提高11.0个百分点的AP;在Bosch数据集上取得了84.4%的AP和126 frame/s的检测速度,比YOLOv5提高9.3个百分点的AP。鲁棒性测试结果表明,改进后的模型在各种复杂环境中对目标的检测能力都有显著提升,鲁棒性增加,做到了高精度实时检测。

    图表 | 参考文献 | 相关文章 | 多维度评价
    6. 自然语言处理预训练技术综述
    陈德光, 马金林, 马自萍, 周洁
    计算机科学与探索    2021, 15 (8): 1359-1389.   DOI: 10.3778/j.issn.1673-9418.2012109
    摘要460)      PDF(pc) (3911KB)(1083)    收藏

    在目前已发表的自然语言处理预训练技术综述中,大多数文章仅介绍神经网络预训练技术或者极简单介绍传统预训练技术,存在人为割裂自然语言预训练发展历程。为此,以自然语言预训练发展历程为主线,从以下四方面展开工作:首先,依据预训练技术更新路线,介绍了传统自然语言预训练技术与神经网络预训练技术,并对相关技术特点进行分析、比较,从中归纳出自然语言处理技术的发展脉络与趋势;其次,主要从两方面介绍了基于BERT改进的自然语言处理模型,并对这些模型从预训练机制、优缺点、性能等方面进行总结;再者,对自然语言处理的主要应用领域发展进行了介绍,并阐述了自然语言处理目前面临的挑战与相应解决办法;最后,总结工作,预测了自然语言处理的未来发展方向。旨在帮助科研工作者更全面地了解自然语言预训练技术发展历程,继而为新模型、新预训练方法的提出提供一定思路。

    参考文献 | 相关文章 | 多维度评价
    7. 卷积神经网络压缩中的知识蒸馏技术综述
    孟宪法, 刘方, 李广, 黄萌萌
    计算机科学与探索    2021, 15 (10): 1812-1829.   DOI: 10.3778/j.issn.1673-9418.2104022
    摘要438)      PDF(pc) (2262KB)(1053)    收藏

    近年来,卷积神经网络(CNN)凭借强大的特征提取和表达能力,在图像分析领域的诸多应用中取得了令人瞩目的成就。但是,CNN性能的不断提升几乎完全得益于网络模型的越来越深和越来越大,在这个情况下,部署完整的CNN往往需要巨大的内存开销和高性能的计算单元(如GPU)支撑,而在计算资源受限的嵌入式设备以及高实时要求的移动终端上,CNN的广泛应用存在局限性。因此,CNN迫切需要网络轻量化。目前解决以上难题的网络压缩和加速途径主要有知识蒸馏、网络剪枝、参数量化、低秩分解、轻量化网络设计等。首先介绍了卷积神经网络的基本结构和发展历程,简述和对比了五种典型的网络压缩基本方法;然后重点针对知识蒸馏方法进行了详细的梳理与总结,并在CIFAR数据集上对不同方法进行了实验对比;其后介绍了知识蒸馏方法目前的评价体系,给出多类型方法的对比分析和评价;最后对该技术未来的拓展研究给出了初步的思考。

    参考文献 | 相关文章 | 多维度评价
    8. 开放领域知识图谱问答研究综述
    陈子睿, 王鑫, 王林, 徐大为, 贾勇哲
    计算机科学与探索    2021, 15 (10): 1843-1869.   DOI: 10.3778/j.issn.1673-9418.2106095
    摘要436)      PDF(pc) (3502KB)(995)    收藏

    知识图谱问答是通过处理用户提出的自然语言问题,基于知识图谱的某种形式,从中获取相关答案的过程。由于知识规模、计算能力及自然语言处理能力的制约,早期知识库问答系统被应用于限定领域。近年来,随着知识图谱的发展,以及开放领域问答数据集的陆续提出,知识图谱已用于开放领域问答研究与实践。以技术发展为主线,对开放领域知识图谱问答进行综述。首先,介绍五种基于规则模板的开放领域知识图谱问答方法:传统语义解析、传统信息检索、三元组匹配、话语模板和查询模板,这类方法主要依赖人工定义的规则模板完成问答工作。其次,描述五种基于深度学习的方法,这类方法采用神经网络模型完成问答过程的各类子任务,包括知识图谱嵌入、记忆网络、基于神经网络的语义解析、基于神经网络的查询图、基于神经网络的信息检索。接着,介绍开放领域知识图谱问答常用的4个通用领域知识图谱和11个开放领域问答数据集。随后,按照问题的难易程度选择3个经典问答数据集比较各问答系统的性能指标,对比不同方法间的性能差异并进行分析。最后,展望开放领域知识图谱问答的未来研究方向。

    参考文献 | 相关文章 | 多维度评价
    9. 人体行为识别研究综述
    裴利沈, 刘少博, 赵雪专
    计算机科学与探索    2022, 16 (2): 305-322.   DOI: 10.3778/j.issn.1673-9418.2106055
    摘要432)   HTML21)    PDF(pc) (9508KB)(534)    收藏

    行为识别是计算机视觉领域意义重大的热点研究问题,它经历了从手工设计特征表征到深度学习特征表达的发展过程。从传统行为识别模型和深度学习模型两方面,对行为识别发展历程中产生的主流算法进行了归类梳理。传统行为识别模型主要包括基于轮廓剪影、时空兴趣点、人体关节点、运动轨迹的特征描述方法。其中改进的密集轨迹方式拥有良好的鲁棒性和可靠性;深度学习网络架构主要有双流网络、3D卷积网络和混合网络。首先,重点阐述了各行为识别算法的主要研究思路与创新点,并介绍了每类算法的模型架构、算法特色、适用情境等。然后,对广泛使用的公共行为数据库进行了分类阐述,着重对HMDB51和UCF101数据集进行了详细介绍,比较分析了传统方法和深度学习算法在各数据集上的识别效果。通过对比分析发现,传统方法不适用于高精细行为的识别,且不易实现跨数据库或跨场景的推广;深度架构中,双流网络和3D卷积网络获得了比较好的行为识别效果且被广泛使用。最后,对行为识别的未来发展进行了展望,指出了若干将来可行的研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    10. Transformer在语音识别任务中的研究现状与展望
    张晓旭, 马志强, 刘志强, 朱方圆, 王春喻
    计算机科学与探索    2021, 15 (9): 1578-1594.   DOI: 10.3778/j.issn.1673-9418.2103020
    摘要406)      PDF(pc) (3696KB)(534)    收藏

    Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点。Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习。对于语音识别任务来说,重点是把输入语音序列的信息转录为对应的语言文本。过去的做法是将声学模型、发音词典和语言模型组成语音识别系统来实现语音识别任务,而Transformer可以将声学、发音和语言模型集成到单个神经网络中形成端到端语音识别系统,解决了传统语音识别系统的强制对齐和多模块训练等问题。因此,探讨Transformer在语音识别任务中存在的问题是非常有必要的。首先介绍Transformer的模型结构,并且从输入语音序列、深层模型结构和模型推理过程三方面对语音识别任务面临的问题进行分析;其次对现阶段解决语音识别中Transformer模型存在输入语音序列、深层模型结构和模型推理过程的问题进行方法总结和简要概述;最后对Transformer在语音识别任务中的应用方向进行总结和展望。

    参考文献 | 相关文章 | 多维度评价
    11. 人脸合成技术综述
    费建伟,夏志华,余佩鹏,戴昀书
    计算机科学与探索    2021, 15 (11): 2025-2047.   DOI: 10.3778/j.issn.1673-9418.2105059
    摘要386)      PDF(pc) (2713KB)(646)    收藏

    人脸合成由于其应用与技术价值,是机器视觉领域的热点之一,而近年来深度学习的突破性进展使该领域吸引了更多关注。将该领域的研究分为四个子类:人脸身份合成、人脸动作合成、人脸属性合成与人脸生成,并系统地总结了这些子类的发展历程、现状,以及现有技术存在的问题。首先针对人脸身份合成,从图形学、数字图像处理与深度学习三个角度总结了各自的合成流程,对关键技术原理进行了详细的解释与分析。其次将人脸动作合成进一步分为利用标签驱动的表情编辑与利用真实人脸驱动的人脸重演,并指出了各自领域中存在的缺陷与难题。然后介绍了基于生成模型,尤其是生成对抗网络在人脸属性合成方面的发展,最终对人脸生成的各类工作进行了简单的阐述。此外,介绍了人脸合成技术的实际应用与当前面临的相关问题,并展望了该领域未来可能的研究方向。

    参考文献 | 相关文章 | 多维度评价
    12. 深度学习跨模态图文检索研究综述
    刘颖, 郭莹莹, 房杰, 范九伦, 郝羽, 刘继明
    计算机科学与探索    2022, 16 (3): 489-511.   DOI: 10.3778/j.issn.1673-9418.2107076
    摘要385)   HTML61)    PDF(pc) (9821KB)(909)    收藏

    随着深度神经网络的兴起,多模态学习受到广泛关注。跨模态检索是多模态学习的重要分支,其目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本。近年来,跨模态检索逐渐成为国内外学术界研究的前沿和热点,是信息检索领域未来发展的重要方向。首先,聚焦于深度学习跨模态图文检索研究的最新进展,对基于实值表示学习和基于二进制表示学习方法的发展动态进行了详细介绍,其中,基于实值表示的方法用于提升跨模态语义相关性,进而提高跨模态检索准确度,基于二进制表示学习的方法用于提升跨模态图文检索效率,减小存储空间;其次,总结了跨模态检索领域常用的公开数据集,对比了不同算法在不同数据集上的性能表现;此外,总结并分析了跨模态图文检索技术在公安、传媒及医学等领域的具体应用情况;最后,结合现有技术探讨了该领域的发展趋势及未来研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    13. 融合多种类型语法信息的属性级情感分析模型
    肖泽管, 陈清亮
    计算机科学与探索    2022, 16 (2): 395-402.   DOI: 10.3778/j.issn.1673-9418.2009003
    摘要379)   HTML14)    PDF(pc) (1897KB)(357)    收藏

    属性级情感分析(ABSA)的目标是识别出句子中属性的情感倾向。现有的方法大多使用注意力机制隐性地建模属性与上下文中情感表达的关系,而忽略了使用语法信息。一方面,属性的情感倾向与句子中的情感表达有紧密的联系,利用句子的句法结构可以更直接地对两者建模;另一方面,由于现有的基准数据集较小,模型无法充分学习通用语法知识,这使得它们难以处理复杂的句型和情感表达。针对以上问题,提出一种利用多种类型语法信息的神经网络模型。该模型采用基于依存句法树的图卷积神经网络(GCN),并利用句法结构信息直接匹配属性与其对应情感表达,缓解冗余信息对分类的干扰。同时,使用预训练模型BERT具有多种类型的语法信息的中间层表示作为指导信息,给予模型更多的语法知识。每一层GCN的输入结合上一层GCN的输出和BERT中间层指导信息。最后将属性在最后一层GCN的表示作为特征进行情感倾向分类。通过在SemEval 2014 Task4 Restaurant、Laptop和Twitter数据集上的实验结果表明,提出模型的分类效果超越了很多基准模型。

    图表 | 参考文献 | 相关文章 | 多维度评价
    14. 细粒度图像分类的深度学习方法
    李祥霞, 吉晓慧, 李彬
    计算机科学与探索    2021, 15 (10): 1830-1842.   DOI: 10.3778/j.issn.1673-9418.2103019
    摘要372)      PDF(pc) (2358KB)(890)    收藏

    细粒度图像分类旨在从某一类别的图像中区分出其子类别,通常细粒度数据集具有类间相似和类内差异大的特点,这使得细粒度图像分类任务更加具有挑战性。随着深度学习的不断发展,基于深度学习的细粒度图像分类方法表现出更强大的特征表征能力和泛化能力,能够获得更准确、稳定的分类结果,因此受到了越来越多研究人员的关注和研究。首先,从细粒度图像分类的研究背景出发,介绍了细粒度图像分类的难点和研究意义。其次,从基于强监督和弱监督两个角度,综述了基于深度学习的细粒度图像分类算法的研究进展,并介绍了多种典型的分类性能优秀的算法。此外,进一步论述了目前关于YOLO、多尺度CNN和生成对抗网络(GAN)等前沿深度学习模型在细粒度图像识别方面的应用,并且对比了最新的相关细粒度图像的数据增强方法的分类效果以及在复杂场景下不同类型的细粒度识别方法的性能特点分析。最后,通过对算法的分类性能进行对比和总结,探讨了未来发展方向和面临的挑战。

    参考文献 | 相关文章 | 多维度评价
    15. 轻量化神经网络卷积设计研究进展
    马金林, 张裕, 马自萍, 毛凯绩
    计算机科学与探索    2022, 16 (3): 512-528.   DOI: 10.3778/j.issn.1673-9418.2107056
    摘要368)   HTML30)    PDF(pc) (9802KB)(612)    收藏

    传统神经网络具有过度依赖硬件资源和对应用设备性能要求较高的缺点,因此无法部署于算力有限的边缘设备和移动终端上,人工智能技术的应用发展在一定程度上受到了限制。然而,随着科技时代的到来,受用户需求影响的人工智能迫切需要在便携式设备上能成功进行如计算机视觉应用等方面的操作。为此,以近几年流行的轻量化神经网络中的卷积部分为研究对象,详细比对了各类轻量化模型中卷积构成方式的区别,并针对卷积设计的主要思路和特点进行了较为详细的阐述。首先,通过引入轻量化神经网络的概念,介绍了轻量化神经网络的发展现状和网络中卷积方面所面临的问题;然后,将卷积分为卷积结构轻量化、卷积模块轻量化和卷积运算轻量化三方面进行介绍,具体通过对各类轻量化神经网络模型中卷积设计的研究,来展示不同卷积的轻量化效果,并对其中优化方法的优缺点进行阐述;最后,对文中所有轻量化模型卷积设计的主要思路和使用方式进行了总结分析,并对其未来的可能性发展进行了展望。

    图表 | 参考文献 | 相关文章 | 多维度评价
    16. UCTB:时空人群流动预测工具箱
    陈李越, 柴迪, 王乐业
    计算机科学与探索    2022, 16 (4): 835-843.   DOI: 10.3778/j.issn.1673-9418.2012072
    摘要366)   HTML10)    PDF(pc) (7562KB)(329)    收藏

    时空人群流动预测是智慧城市中的关键技术之一。目前主要有两大痛点困扰着相关研究、从业人员:第一,人群流动与多种因素相关,先前的研究总结出了多种时空先验知识,但由于人群流动预测应用场景的多样性,后续工作很难合理而全面地利用这些先验知识;第二,随着深度学习技术的发展,相关技术的实现越来越复杂,复现先进的模型是一件费时且愈发繁琐的事情。针对上述痛点,设计了时间序列采样接口和图构建接口,时间序列采样接口能够基于不同的先验知识产生不同类型的时间序列,图构建接口能够产生不同类型的空间图,上述两个接口还可通过继承接口实现自定义,以利用新的时空先验知识;基于TensorFlow框架实现了多种先进的时空图模型并封装了其中常用的时空建模单元,使用者不仅能够直接使用先进的时空模型,还能够基于这些高级模型层进行二次开发。综上,时空人群流动预测工具箱UCTB内同时集成了多种时空先验知识和多种先进的模型,对开发时空人群流动预测相关应用有着促进作用。相关的代码和配套文档均已开源,工具箱的网址是https://github.com/uctb/UCTB。

    图表 | 参考文献 | 相关文章 | 多维度评价
    17. 中文命名实体识别综述
    赵山, 罗睿, 蔡志平
    计算机科学与探索    2022, 16 (2): 296-304.   DOI: 10.3778/j.issn.1673-9418.2107031
    摘要351)   HTML19)    PDF(pc) (6886KB)(691)    收藏

    中文命名实体识别(NER)任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称。中文命名实体识别是一个自然语言处理(NLP)领域的基本任务,在许多下游NLP任务中,包括信息检索、关系抽取和问答系统中扮演着重要角色。全面回顾了现有的基于神经网络的单词-字符晶格结构的中文NER模型。首先介绍了中文NER相比英语NER难度更大,存在着中文文本相关实体边界难以确定和中文语法结构复杂等难点及挑战。然后调研了在不同神经网络架构下(RNN、CNN、GNN和Transformer)最具代表性的晶格结构的中文NER模型。由于单词序列信息可以给基于字符的序列学习更多边界信息,为了显式地利用每个字符所相关的词汇信息,过去的这些工作提出通过词-字符晶格结构将单词信息整合到字符序列中。这些在中文NER任务上基于神经网络的单词-字符晶格结构的性能要明显优于基于单词或基于字符的方法。最后介绍了中文NER的数据集及评价标准。

    图表 | 参考文献 | 相关文章 | 多维度评价
    18. 强化学习求解组合最优化问题的研究综述
    王扬, 陈智斌, 吴兆蕊, 高远
    计算机科学与探索    2022, 16 (2): 261-279.   DOI: 10.3778/j.issn.1673-9418.2107040
    摘要328)   HTML39)    PDF(pc) (5451KB)(636)    收藏

    组合最优化问题(COP)的求解方法已经渗透到人工智能、运筹学等众多领域。随着数据规模的不断增大、问题更新速度的变快,运用传统方法求解COP问题在速度、精度、泛化能力等方面受到很大冲击。近年来,强化学习(RL)在无人驾驶、工业自动化等领域的广泛应用,显示出强大的决策力和学习能力,故而诸多研究者尝试使用RL求解COP问题,为求解此类问题提供了一种全新的方法。首先简要梳理常见的COP问题及其RL的基本原理;其次阐述RL求解COP问题的难点,分析RL应用于组合最优化(CO)领域的优势,对RL与COP问题结合的原理进行研究;然后总结近年来采用RL求解COP问题的理论方法和应用研究,对各类代表性研究所解决COP问题的关键要点、算法逻辑、优化效果进行对比分析,以突出RL模型的优越性,并对不同方法的局限性及其使用场景进行归纳总结;最后提出了四个RL求解COP问题的潜在研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    19. 人脸识别系统的活体检测综述
    马玉琨, 徐姚文, 赵欣, 徐涛, 王泽瑞
    计算机科学与探索    2021, 15 (7): 1195-1206.   DOI: 10.3778/j.issn.1673-9418.2012010
    摘要316)      PDF(pc) (4446KB)(659)    收藏

    人脸识别系统的快速发展对人脸活体检测技术提出了新要求,包括检测实时性、面对复杂环境的泛化性、对多种攻击类型的鲁棒性以及用户体验的友好性等。主要阐述了人脸活体检测的必要性,对方法进行了分类、整理和总结,根据所提特征的不同,将活体检测分为基于手工特征的方法和基于深度学习的方法,并将近期针对算法泛化性的研究进展归纳为基于辅助监督信号方法、基于域适应域泛化的方法、基于特征解耦的方法、基于噪声建模的方法、基于异常检测的方法,对每类方法的代表性算法进行了分析介绍,详细总结了每类方法的基本思想和优缺点。从各方面系统地概括了人脸活体检测问题,包括不同类型的呈现攻击、先进的人脸活体检测方法、常用公共数据库、标准化评价指标、测试方法等的介绍。此外,还讨论了该领域的难点与挑战,总结了未来的研究方向和发展趋势。

    参考文献 | 相关文章 | 多维度评价
    20. 深度学习中的单阶段小目标检测方法综述
    李科岑, 王晓强, 林浩, 李雷孝, 杨艳艳, 孟闯, 高静
    计算机科学与探索    2022, 16 (1): 41-58.   DOI: 10.3778/j.issn.1673-9418.2110003
    摘要314)   HTML21)    PDF(pc) (5205KB)(457)    收藏

    随着深度学习的不断发展,目标检测技术逐步从基于传统的手工检测方法向基于深度神经网络的检测方法转变。在众多基于深度学习的目标检测方法中,基于深度学习的单阶段目标检测方法因其网络结构较简单、运行速度较快以及具有更高的检测效率而被广泛运用。但现有的基于深度学习的单阶段目标检测方法由于小目标物体包含的特征信息较少、分辨率较低、背景信息较复杂、细节信息不明显以及定位精度要求较高等原因,导致在检测过程中对小目标物体的检测效果不理想,使得模型检测精度降低。针对目前基于深度学习的单阶段目标检测方法存在的问题,研究了大量基于深度学习的单阶段小目标检测技术。首先从单阶段目标检测方法的Anchor Box、网络结构、交并比函数以及损失函数等几个方面,系统地总结了针对小目标检测的优化方法;其次列举了常用的小目标检测数据集及其应用领域,并给出在各小目标检测数据集上的检测结果图;最后探讨了基于深度学习的单阶段小目标检测方法的未来研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    21. 面向动态交通流预测的双流图卷积网络
    李朝阳, 李琳, 陶晓辉
    计算机科学与探索    2022, 16 (2): 384-394.   DOI: 10.3778/j.issn.1673-9418.2009097
    摘要288)   HTML17)    PDF(pc) (6174KB)(531)    收藏

    准确的交通流预测能够为管理部门提供合理的决策依据,为驾驶员提供实时的道路状况预警,是交通领域至关重要的问题。近年来,相关研究利用图卷积神经网络(GCN)处理非欧式空间结构的特点,对来自复杂路网的交通流数据进行空间相关性建模。然而,现有基于图卷积的交通流预测方法未能充分考虑空间相关性的有向性和动态性这两个重要特点。考虑到动态交通流呈现出由固定道路结构约束的稳定空间相关性和受交通环境变化影响的动态空间相关性,提出了一种用于动态交通流预测的端到端双流图卷积网络(TSGCN)。首先,将实时交通流数据分解为具有不同空间相关性的稳定分量和动态分量。其中,稳定分量表示受路网约束和交通习惯影响的部分,动态分量则代表因交通状况变化(如交通拥堵和恶劣天气)引起的波动。然后,通过双流图卷积层提取稳定和动态的空间相关性。最后,使用参数化跳过连接方法来融合时空相关性以获得最终的预测结果。在两个公开的真实交通数据集上的实验结果表明,提出的模型优于对比的交通流预测方法。

    图表 | 参考文献 | 相关文章 | 多维度评价
    22. 融合知识图谱和深度学习方法的问诊推荐系统
    武家伟, 孙艳春
    计算机科学与探索    2021, 15 (8): 1432-1440.   DOI: 10.3778/j.issn.1673-9418.2101029
    摘要284)      PDF(pc) (1819KB)(468)    收藏

    近年来,随着互联网的普及和大数据分析等技术的发展,人们对移动医疗服务的需求越来越迫切,具体表现为根据症状确定自己患有的疾病以及根据疾病选择服务质量较好的医院及医生。为了解决上述问题,基于知识图谱和深度学习技术设计并实现了一种问诊推荐系统。基于互联网开放的医疗数据,构建了“疾病-症状”知识图谱,帮助用户根据症状自查,并以知识图谱嵌入模型训练知识图谱中实体的嵌入向量表示,根据向量的欧式距离相似度选取最相近的疾病实体丰富推荐选项,两者结合实现疾病诊断服务。同时,基于社交媒体的评论数据,结合现有的医疗服务质量评价指标,使用了深度学习的分析方法,自动给出医生的服务质量多维度的评分,为用户提供医生医院推荐服务。最后,通过构建测试集以及设计调查问卷等方式,验证了疾病诊断服务和医生医院推荐服务的准确率分别达到了74.00%和90.91%。

    参考文献 | 相关文章 | 多维度评价
    23. FPGA加速深度学习综述
    刘腾达,朱君文,张一闻
    计算机科学与探索    2021, 15 (11): 2093-2104.   DOI: 10.3778/j.issn.1673-9418.2104012
    摘要280)      PDF(pc) (4969KB)(573)    收藏

    近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起。大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类。深度学习作为一种实现机器学习的技术,正是解决这一问题的重要法宝,它在处理数据过程中发挥着重要作用并且改变了传统的机器学习方法,已被广泛应用于语音识别、图像识别和自然语言处理等研究领域。如何有效加速深度学习的计算能力一直是科研研究的重点。FPGA凭借其强大的并行计算能力和低功耗等优势成为GPU在加速深度学习领域的有力竞争者。从深度学习的几种典型模型出发,在FPGA加速技术现有特点的基础上从针对神经网络模型的加速器、针对具体问题的加速器、针对优化策略的加速器和针对硬件模板的加速器四方面概括总结了FPGA加速深度学习的研究现状,然后对比了不同加速技术和模型的性能,最后对未来可能发展的方向进行了展望。

    参考文献 | 相关文章 | 多维度评价
    24. 数据定价研究综述
    蔡莉, 黄振弘, 梁宇, 朱扬勇
    计算机科学与探索    2021, 15 (9): 1595-1606.   DOI: 10.3778/j.issn.1673-9418.2103069
    摘要279)      PDF(pc) (2026KB)(586)    收藏

    数据定价是把数据作为资产并对资产进行定价的行为。在当前的数据市场中,由于买家和卖家之间几乎没有透明度、信息严重不对称,造成数据定价的混乱。如果存在数据定价的标准流程和评估方法,买家就能够以合理的价格获得需要的数据,同时也能改善数据交易市场的效率。检索了近年来关于数据定价的相关文献,在此基础上,总结了数据定价的定义、特点、发展概况和应用场景;阐述了数据交易流程和数据交易成本;重点阐述了影响数据定价的两个重要研究方向——数据定价策略和数据定价模型,全面评价了现有六种数据定价策略和五种定价模型的机制、优缺点及运用场景;最后,从数据价值评估、数据交易规则和数据隐私保护三方面分析了数据定价面临的挑战,并展望了数据定价的发展方向。研究成果将为今后的相关工作提供有价值的参考和依据。

    参考文献 | 相关文章 | 多维度评价
    25. 个性化学习推荐研究综述
    吴正洋, 汤庸, 刘海
    计算机科学与探索    2022, 16 (1): 21-40.   DOI: 10.3778/j.issn.1673-9418.2105111
    摘要275)   HTML35)    PDF(pc) (6164KB)(535)    收藏

    个性化学习推荐是智能学习的一个研究领域,其目标是在学习平台上给特定学习者提供有效学习资源,从而提升学习积极性与学习效果。虽然现有的推荐方法已被广泛用于教学场景,但教学活动自身的科学规律,使个性化学习推荐在个性化参数设置、推荐目标设定、评价标准设计等方面具有一定的特殊性。针对上述问题,在调研大量文献的基础上对近年来个性化学习推荐的研究进行了综述。从学习推荐通用框架、学习者建模、学习推荐对象建模、学习推荐算法、学习推荐评价五方面对个性化学习推荐的相关研究进行了系统的梳理和解读。首先提出了学习推荐系统的通用框架,其次介绍了学习者建模的思路和方法,接着讨论了学习推荐对象建模的思路和方法,然后归纳了学习推荐的算法与模型,接下来总结了学习推荐评价的设计与方法。并对这五方面现有研究的主要思想、实施方案、优势及不足进行了分析。最后还展望了个性化学习推荐未来的发展方向,为智能学习的进一步深入研究奠定了基础。

    图表 | 参考文献 | 相关文章 | 多维度评价
    26. 图像去噪方法概述
    刘利平, 乔乐乐, 蒋柳成
    计算机科学与探索    2021, 15 (8): 1418-1431.   DOI: 10.3778/j.issn.1673-9418.2101035
    摘要271)      PDF(pc) (4023KB)(543)    收藏

    在现实场景中,由于设备和系统不完善或存在弱光环境导致采集的图像存在噪声,图像在压缩和传输过程中也会受到额外噪声的影响,给后续的图像分割、特征提取等处理造成干扰。传统去噪方法利用图像的非局部自相似性(NLSS)特性和变换域中的稀疏表示,基于块匹配和三维滤波(BM3D)的方法展现出了强大的图像去噪性能。随着人工智能的发展,基于深度学习的图像去噪方法取得了较为突出的表现。但是到目前为止几乎没有相关研究对图像去噪的方法进行全面的比较。针对传统的图像去噪方法及近年来兴起的基于深度神经网络的图像去噪方法,首先介绍了经典的传统去噪和深度神经网络去噪方法的基本框架,并对去噪方法进行了分类总结。然后在公共去噪数据集上对现有的去噪方法进行了定量和定性方面的分析比较。最后在图像去噪领域指出了一些潜在的挑战和未来研究的方向。

    参考文献 | 相关文章 | 多维度评价
    27. 混部数据中心在线离线服务特征分析
    陈圣蕾, 裘翼滔, 蒋从锋, 张纪林, 俞俊, 林江彬, 闫龙川, 任祖杰, 万健
    计算机科学与探索    2022, 16 (4): 822-834.   DOI: 10.3778/j.issn.1673-9418.2009098
    摘要264)   HTML4)    PDF(pc) (10781KB)(145)    收藏

    为了在降低成本和减少能耗的同时提高云数据中心的资源利用率,目前许多云数据中心都采用了在线服务和离线任务混合部署的方式。虽然混合部署的方式能为数据中心带来许多益处,但它增加了任务调度的复杂性,同时对保障服务的高可靠、低延迟带来了一系列的挑战。深入分析了阿里巴巴数据中心中某一个含有4 034台服务器的集群在8天时间内所有在线服务和离线任务的运行状况。从数据分析结果中得出以下结论:首先,从在线服务的运行情况来看,所有容器的平均CPU利用率存在周期性变化,在每天的早8点到晚9点维持在一个较高水平,并且在每天凌晨4点回落到最低点。其次,对离线任务来说,除去第一天和第八天,剩下6天中任务提交峰值都集中在每天的同一时刻。95%实例的运行时间都在199 s以内,但是有0.052%的实例运行时间在1 h以上甚至会持续几天。然后,对于应用程序的相关情况,不同应用部署的容器数量存在较大差异,一个应用最多使用629个容器,最少使用1个容器。最后,对服务器、在线任务以及批处理实例进行了聚类分析,相对高资源利用率的容器占了所有容器的绝大部分,低资源利用率、短执行时间的实例则占了总实例的绝大部分。提出的发现和建议有助于数据中心管理者更详细地了解工作负载的特性,从而提高数据中心的资源利用率和各任务的容错性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    28. 注意力与多尺度有效融合的SSD目标检测算法
    王燕妮, 余丽仙
    计算机科学与探索    2022, 16 (2): 438-447.   DOI: 10.3778/j.issn.1673-9418.2105048
    摘要252)   HTML18)    PDF(pc) (17079KB)(294)    收藏

    针对传统的SSD目标检测算法在进行多尺度目标检测时,存在特征图有效信息弱和困难目标漏检率大等问题,提出一种改进的SSD目标检测算法。首先,在网络特征图输出处引入即插即用的轻量级注意力机制,通过不降维、局部跨通道交互以及核大小自适应选择等操作,在保持网络原始计算量的同时有效突出特征图中关键信息。该模块有利于增强背景信息和目标信息差,可以在有效提升网络性能的同时,不增加网络的复杂性。然后,构造了一种新的特征融合模块,可以将不同尺度的特征图进行有效融合,使浅层特征层既含有丰富的细节信息,又能充分利用上下文语义信息。多尺度融合模块有利于丰富特征图信息,提升网络对困难目标的检测性能。使用公开的PASCAL VOC数据集验证该方法,改进后的网络在PASCAL VOC2007测试集上的检测精度达到了79.6%,比原始SSD算法提升了2.4个百分点,在遮挡目标数据集上提升了4.7个百分点,充分证明改进方法具有一定的时效性和鲁棒性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    29. 有监督实体关系联合抽取方法研究综述
    张少伟, 王鑫, 陈子睿, 王林, 徐大为, 贾勇哲
    计算机科学与探索    2022, 16 (4): 713-733.   DOI: 10.3778/j.issn.1673-9418.2107114
    摘要252)   HTML28)    PDF(pc) (9065KB)(331)    收藏

    实体关系联合抽取作为信息抽取领域的核心任务,能够从非结构化或半结构化的文本中自动识别实体、实体类型以及实体之间特定的关系类型,为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持。传统的流水线方法将实体关系联合抽取分解成命名实体识别和关系抽取两个独立的子任务,由于两个子任务之间缺少交互,流水线方法存在误差传播等问题。近年来,实体关系联合抽取成为新的研究趋势,其可以建立统一的模型使得不同子任务彼此交互,进一步提升模型性能。对有监督实体关系联合抽取方法进行综述,根据抽取特征的不同方式,可将实体关系联合抽取分为基于特征工程的联合抽取和基于神经网络的联合抽取两种类型。首先,介绍基于特征工程的联合抽取,包括整数线性规划、卡片金字塔解析、概率图模型和结构化预测四种方法,这四种方法都需要采用相对复杂的特征工程方法。然后,介绍基于神经网络的联合抽取,这类方法可以自动抽取特征信息,已逐渐成为联合抽取的主流方法,其主要包括共享参数和联合解码两种类型。接着,介绍有监督实体关系联合抽取常用的七个数据集以及评价指标,并对不同的实体关系联合抽取方法进行了实验对比分析。最后,展望实体关系联合抽取的未来研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    30. 群体行为识别深度学习方法研究综述
    裴利沈, 赵雪专
    计算机科学与探索    2022, 16 (4): 775-790.   DOI: 10.3778/j.issn.1673-9418.2108079
    摘要249)   HTML7)    PDF(pc) (13574KB)(611)    收藏

    群体行为识别是计算机视觉领域应用广泛且亟待解决的重要研究问题。伴随着深度神经网络的发展,群体行为识别与理解的宽度与深度也在不断扩展。通过调研近十年来群体行为识别的研究文献,确定了目前群体行为识别研究的问题定义;指出了群体行为识别研究现存的问题与挑战;在深度学习网络架构下,描述了从早期仅仅对群体行为进行分类识别,到如今更加侧重于对行为群体中活动细节理解的群体行为识别算法的发展历程;重点介绍了以卷积神经网络CNN/3DCNN、双流网络Two-Stream Network、循环神经网络RNN/LSTM和Transformer等网络架构为基础的,主流群体行为识别算法的核心网络架构和主要研究思路,对各算法在常用公共数据集上的识别效果进行了对比;对标注了群体行为类型和个体行为类别等多级标签的常用的群体行为数据集进行了梳理和对比。期望通过客观的对各种算法优缺点的讨论分析,引发读者提出群体行为识别研究的新思路或新问题。最后,对群体行为分析的未来发展进行了展望,期待能够启发新的研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    31. 生成式对抗网络及其在图像生成中的研究进展
    马永杰, 徐小冬, 张茹, 谢艺蓉, 陈宏
    计算机科学与探索    2021, 15 (10): 1795-1811.   DOI: 10.3778/j.issn.1673-9418.2103075
    摘要246)      PDF(pc) (3779KB)(689)    收藏

    生成式对抗网络(GAN)现已成为深度学习领域热门的研究方向,其独特的对抗性思想来源于博弈论中的二人零和博弈,如何解决GAN训练不稳定、生成样本质量差、评价体系不够健全、可解释性差等问题是目前GAN研究的重点和难点。调研了生成式对抗网络的研究背景和发展趋势。首先阐述了生成式对抗网络的基本思想和算法实现,分析了GAN的优势与不足,然后对已有改进方法进行了较为系统的分类,从基于结构改变和基于损失函数变体的两种类型分别梳理了一些典型的GAN的优化方法和衍生模型;比较了GAN与其他生成模型的异同,介绍了各自的优势与不足;对比了GAN及其衍生模型的性能,总结了它们的运作机制、优点、局限性以及适用场景,介绍了生成式对抗网络在图像生成领域中的应用;最后列举了生成式对抗网络的主流评价指标,分析了GAN研究中仍面临的主要问题并给出对应的解决思路,并将列举出的主流解决手段在解决效果及可应用性方面进行了对比分析,展望了未来的研究方向。

    参考文献 | 相关文章 | 多维度评价
    32. 图嵌入模型综述
    袁立宁, 李欣, 王晓冬, 刘钊
    计算机科学与探索    2022, 16 (1): 59-87.   DOI: 10.3778/j.issn.1673-9418.2104020
    摘要245)   HTML17)    PDF(pc) (20657KB)(650)    收藏

    图分析用于深入挖掘图数据的内在特征,然而图作为非欧几里德数据,传统的数据分析方法普遍存在较高的计算量和空间开销。图嵌入是一种解决图分析问题的有效方法,其将原始图数据转换到低维空间并保留关键信息,从而提升节点分类、链接预测、节点聚类等下游任务的性能。与以往的研究不同,同时对静态图和动态图嵌入文献进行全面回顾,提出一种静态图嵌入和动态图嵌入通用分类方法,即基于矩阵分解的图嵌入、基于随机游走的图嵌入、基于自编码器的图嵌入、基于图神经网络(GNN)的图嵌入和基于其他方法的图嵌入。其次,对静态图和动态图方法的理论相关性进行分析,对模型核心策略、下游任务和数据集进行全面总结。最后,提出了四个图嵌入的潜在研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    33. 基于改进自编码网络的轴承振动异常检测
    李贝贝, 彭力
    计算机科学与探索    2022, 16 (1): 163-175.   DOI: 10.3778/j.issn.1673-9418.2007042
    摘要245)   HTML6)    PDF(pc) (9241KB)(111)    收藏

    近年来,自编码器和神经网络技术已被广泛研究并应用于轴承振动等工业数据的异常检测问题上,但仍存在着训练数据量大、网络参数初始化、训练效率较低、异常检测效果较差等问题。为解决上述问题,提出了一种结合马氏距离和自编码网络的异常检测方法。利用轴承振动数据特征之间具有一定相关性的特点,通过数据的马氏距离快速检测出部分异常数据,减少了自编码网络的训练数据量;用自编码器结合分类器构建自编码网络,解决了网络参数初始化问题并且显著提高了训练效率;将数据的马氏距离作为特征加入训练中提升了自编码网络的异常检测效果;在自编码器中加入稀疏性限制并构造先升维再编码的结构,增强了自编码器的特征学习能力和收敛性。实验结果表明,针对低维轴承振动数据,提出的方法较其他异常检测方法具有较好的检测效果且具有一定的稳定性和泛化能力。

    图表 | 参考文献 | 相关文章 | 多维度评价
    34. 新颖的离散差分演化算法求解D{0-1}KP问题
    张发展, 贺毅朝, 刘雪静, 王泽昆
    计算机科学与探索    2022, 16 (2): 468-479.   DOI: 10.3778/j.issn.1673-9418.2007047
    摘要242)   HTML8)    PDF(pc) (4554KB)(249)    收藏

    折扣{0-1}背包问题(D{0-1}KP)是0-1背包问题(0-1KP)的一种更复杂的扩展形式。为了利用离散差分演化高效求解D{0-1}KP,首先提出了一个新V型转换函数(NV),通过NV将个体的实向量映射为一个二进制向量,与已有的S型和V型转换函数相比,NV计算复杂度更低,求解效率更高。然后,基于新V型转换函数给出了一种新的离散差分演化算法(NDDE),并利用NDDE提出了求解D{0-1}KP的一个新的高效方法。最后,为了验证NDDE求解D{0-1}KP的性能,利用它求解四类大规模D{0-1}KP实例,并与基于群论的优化算法(GTOA)、基于环理论的演化算法(RTEA)、混合教学优化算法(HTLBO)和鲸鱼优化算法(WOA)等已有算法的最好计算结果进行比较,比较结果表明,NDDE不仅求解精度更高,而且算法的稳定性佳,非常适于求解大规模D{0-1}KP实例。

    图表 | 参考文献 | 相关文章 | 多维度评价
    35. 深度学习的舌体分割研究综述
    刘慧琳, 冯跃, 徐红, 罗坚义
    计算机科学与探索    2021, 15 (12): 2276-2291.   DOI: 10.3778/j.issn.1673-9418.2106080
    摘要241)      PDF(pc) (2418KB)(164)    收藏

    舌体分割是智能医学诊断的重要组成部分,其目的是通过分割舌诊图像生成精准的舌体轮廓。近年来,深度学习方法在图像处理领域得到了广泛的应用并取得了较好的结果。随着医学图像分割对性能的要求越来越高,许多研究人员将深度学习运用到舌体分割中。主要对基于深度学习的舌体分割方法研究现状进行分析梳理和归纳总结。在舌体分割应用领域中,以各种深度学习方法作为研究对象,将基于深度学习的舌体分割方法划分为卷积神经网络(CNN)、全卷积网络(FCN)、卷积模型与图形模型、基于编解码器的模型、基于区域卷积网络模型、扩张卷积模型结构、迁移学习以及其他方法。在每类方法中,针对其改进和扩展的研究成果进行了全面的论述,总结分析其优势与不足;并对基于深度学习的舌体分割常用的数据集和评价指标进行了视觉比较与性能评估;最后讨论了未来研究工作中的发展潜力。

    参考文献 | 相关文章 | 多维度评价
    36. 知识图谱嵌入技术研究进展
    舒世泰,李松,郝晓红,张丽平
    计算机科学与探索    2021, 15 (11): 2048-2062.   DOI: 10.3778/j.issn.1673-9418.2103086
    摘要239)      PDF(pc) (1873KB)(384)    收藏

    知识图谱嵌入(KGE)是知识图谱领域一个新的研究热点,旨在利用词向量的平移不变性将知识图谱中实体和关系嵌入到低维向量空间,进而完成知识表示。以解决实际问题的类型为划分依据,首先,阐述了四类主要的知识图谱嵌入方法,包括基于深度学习的方法、基于图形特征的方法、基于翻译模型的方法以及基于其他模型的方法,对每种模型的算法思想进行详细阐述,总结了每种模型的优缺点;其次,从常用数据集、评价指标、算法、实验四方面对知识图谱嵌入算法实验进行分析与归纳,对嵌入方法做了横纵向对比;最后,从解决实际问题的角度出发,给出了知识图谱嵌入技术未来的发展方向。通过研究,发现在基于深度学习的方法中,LCPE模型的效果最好;在基于图形特征的方法中,TCE模型的效果最好;在基于翻译模型的方法中,NTransGH模型的效果最好。今后的研究可以在LCPE、TCE、NTransGH的基础上进行拓展,不断提高链接预测和三元组分类的实验效果。

    参考文献 | 相关文章 | 多维度评价
    37. 跨模态检索研究文献综述
    陈宁, 段友祥, 孙歧峰
    计算机科学与探索    2021, 15 (8): 1390-1404.   DOI: 10.3778/j.issn.1673-9418.2101092
    摘要237)      PDF(pc) (1895KB)(675)    收藏

    随着互联网技术的蓬勃发展和智能设备的普及,多媒体数据在数量爆炸式增长的同时,其形态也越来越多样化。人们获取信息的需求已经不满足于单一模态的数据检索,通过不同模态的知识协同实现跨模态的检索成为近几年研究的热点。在深入了解分析跨模态检索研究背景和研究进展的基础上,以跨模态检索的关键技术——公共子空间建模为主线,对跨模态检索技术的三大类方法传统统计分析方法、深度学习方法与哈希学习方法,从不同角度对研究内容、关键技术、局限性、适用性和特点等方面进行了全方位、多角度的对比分析,并进行了实验以更深入地对比。最后,对跨模态检索有待解决的难点、未来的探索方向、近些年主流设计思路以及发展趋势进行了充分展望,为进一步研究提供理论基础。

    参考文献 | 相关文章 | 多维度评价
    38. 融合图嵌入和注意力机制的代码搜索
    黄思远, 赵宇海, 梁燚铭
    计算机科学与探索    2022, 16 (4): 844-854.   DOI: 10.3778/j.issn.1673-9418.2010087
    摘要232)   HTML4)    PDF(pc) (6714KB)(186)    收藏

    源代码检索任务是指将自然语言作为查询语句,从代码库中搜索相关代码片段。在代码检索任务中,大多数代码检索算法只考虑代码片段的文本序列信息而未考虑代码的结构信息,导致不能充分捕获代码片段包含的语义和语法信息。为了提高对程序语言的理解,提出了注意力机制和图嵌入相结合的代码检索算法(GraphCS)。在特征提取部分,以LSTM提取文本特征向量表示,以Graph2Vec提取图的向量特征表示。在特征融合部分中引入注意力机制,更好地为每一个特征分配相应的权重,从而提升程序的理解。考虑源代码和自然语言为异构数据,将代码片段特征和自然语言特征映射到同一个向量空间,以排名损失来保证语义相似的点在特征空间拥有较近的距离。为了验证算法的高效性,与目前最好的算法CODEnn进行对比。实验结果表明,在Precision@1/5/10、SuccessRate@1/5/10以及MRR上均有一定的提升。

    图表 | 参考文献 | 相关文章 | 多维度评价
    39. 双线性聚合残差注意力的细粒度图像分类模型
    李宽宽, 刘立波
    计算机科学与探索    2022, 16 (4): 938-949.   DOI: 10.3778/j.issn.1673-9418.2010031
    摘要230)   HTML6)    PDF(pc) (9285KB)(293)    收藏

    针对细粒度图像分类任务中种类间局部信息差异性较小,通常会导致模型表征能力不足,特征通道之间的相互依赖关系较差以及无法有效捕捉到显著且多样化的特征信息等问题,提出了一种双线性聚合残差注意力网络(BARAN)。首先在原双线性卷积网络模型(B-CNN)基础上,把原有特征提取子网络转变为更具学习能力的聚合残差网络,来提升网络的特征捕获能力;然后在每一聚合残差块内嵌入分散注意力模块,使得网络专注于整合跨维度特征,强化特征获取过程中通道之间的紧密关联程度;最终将融合的双线性特征图输入到互通道注意力模块中,利用互通道注意力模块包含的判别性与区分性两个子组件进一步学习到更加细微、多样化且互斥的局部类间易混淆信息。实验结果表明,该方法在CUB-200-2011、FGVC-Aircraft和Stanford Cars三个细粒度图像数据集上分类精度分别达到87.9%、92.9%、94.7%,性能优于大多数主流模型方法,并且相比原B-CNN模型提升幅度分别达到了0.038、0.088、0.034。

    图表 | 参考文献 | 相关文章 | 多维度评价
    40. 语音识别中说话人自适应方法研究综述
    朱方圆, 马志强, 陈艳, 张晓旭, 王洪彬, 宝财吉拉呼
    计算机科学与探索    2021, 15 (12): 2241-2255.   DOI: 10.3778/j.issn.1673-9418.2104068
    摘要230)      PDF(pc) (3129KB)(246)    收藏

    语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分。近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术。然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题。因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向。相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题。首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向。

    参考文献 | 相关文章 | 多维度评价