• 学术研究 • 下一篇
喇超,李淼,张峰,张翠婷
LA Chao, LI Miao, ZHANG Feng, ZHANG Cuiting
摘要: 当前,卷积神经网络(Convolutional Neural Networks,CNN)被广泛应用于图片分类、目标检测与识别以及自然语言理解等领域。随着卷积神经网络的复杂度和规模不断增加,对硬件部署带来了极大的挑战,尤其是面对嵌入式应用领域的低功耗、低时延需求,大多数现有平台存在高功耗,控制复杂的问题。为此,该文以优化加速器能效为目标,对决定系统能效的关键因素进行分析,以缩放计算精度和降低系统频率为主要出发点,研究极低比特下全网络统一量化方法,设计一种高能效CNN加速器,该加速器以1比特权重和4比特激活值的轻量化计算单元为基础,构建了128×128空间并行加速阵列结构,由于空间并行度高,因此整个系统采用低运行频率;同时,采用权重固定、特征图广播的数据传播方式,有效减少权重、特征图的数据搬移次数,达到降低功耗,提高系统能效比的目的。通过22nm工艺流片验证,结果表明,在20MHz频率下,峰值算力达到10.54 TOPS(Tera Operations Per Second,TOPS),能效比达到64.317 TOPS/W,相较同类型加速器,该文加速器能效比有5倍的提升。同时,部署的目标检测网络能够达到60 FPS(Frames Per Second,FPS)的检测速率,完全满足嵌入式应用需求。