• 学术研究 • 下一篇
周汉文, 邓赵红,张炜
ZHOU Hanwen, DENG Zhaohong, ZHANG Wei
摘要: 蛋白质在生物活动中发挥着关键作用,酶作为一种重要的蛋白质,因其催化功能在多个领域得到广泛应用。然而,通过生化实验验证酶的功能既费时又昂贵。传统的酶功能注释方法主要依赖于序列相似性,但在目标酶序列与已知酶差异较大时,这些方法效果不佳。近年来,科研人员初步探索了一些基于深度学习的方法,但现有的深度学习方法受限于传统酶序列编码方式,并且仅利用单一视图或单层次的信息,这使得模型在处理结构复杂或功能多样的酶时表现出一定的局限性。针对此,本文提出了一种全新的全域跨语义融合的多级酶功能预测方法(GCMEFP)。具体地,所提方法使用了两种最新的蛋白质大语言模型进行序列词嵌入学习。同时,所提方法构建了多语义深度特征学习模块,该模块通过卷积神经网络构建语义金字塔,实现了不同层级语义信息的提取。进一步地,所提方法还提出了全域跨视图语义融合模块,用于探索不同视图之间隐藏的相互作用信息,并去除冗余信息来增强模型的泛化性。实验结果表明:提出的GCMEFP在基准数据集上的精度达到89.6%,较现有最优方法高出4.8%;在独立测试集New-379上的精度达到55%,较现有最优方法高出14%。