• 学术研究 • 下一篇
黄万鑫,任英杰,芦天亮,杨刚,袁梦姣,曾高俊
HUANG Wanxin, REN Yingjie, LU Tianliang, YANG Gang, YUAN Mengjiao, ZENG Gaojun
摘要: 人脸生成是计算机视觉的前沿课题,在刑事侦查、虚拟现实等领域有广泛的应用前景。近年来扩散模型展现出卓越的生成能力,能够根据限定条件生成高语义一致性的图片,应用于生成人脸方向上成为新趋势。然而,现有生成方法中基于常规扩散的方法对条件信息细节理解不足,未能充分利用条件信息精准生成人脸;基于扩散大模型的方法通常需耗费大量计算资源微调模型,抑或添加额外复杂网络且未能均衡融合多模态条件信息。针对上述挑战,提出面向扩散大模型的多模态生成人脸方法MA-adapter,添加小型精简网络提取视觉结构信息融合语义指导扩散大模型精准生成人脸,充分利用扩散大模型生成能力的同时避免耗费大量计算资源进行微调。该模型首先利用多头注意力模块(multi-head attention module,MAM)增强图片模态提示,使模型更加关注关键信息;随后通过多尺度特征模块(multi-scale ,feature module,MFM)提取多尺度特征信息,为精准指导生成提供保障;最后设计自适应调节机制(adaptive adjustment mechanism,AAM),自适应调节不同特征层的生成指导系数以实现更佳性能。实验结果表明,在MM-CelebA-HQ(multi-modal-celeba-hq)数据集上与当前主流方法T2I-adapter相比,MA-adapter的感知相似指标LPIPS下降约18.4%,图文匹配指标CLIP-Score提高约13.6%,特征相似指标CLIP-I增长约14.8%。大量实验结果充分验证MA-adapter的有效性及优越性。