长向量处理器高效RNN推理方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

长向量处理器高效RNN推理方法

作者姓名：	苏华友陈抗抗杨乾明

作者单位：	1.国防科技大学计算机学院,湖南长沙 410073;国防科技大学并行与分布计算全国重点实验室,湖南长沙 410073;2.国防科技大学计算机学院,湖南长沙 410073

基金项目：	国家自然科学基金资助项目(61872377);湘江实验室基金资助项目(22XJ01012)

摘要：	模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。
关键词：	多核DSP 长向量处理器循环神经网络并行优化
收稿时间：	2022-11-07
本文献已被万方数据等数据库收录！
	点击此处可从《国防科技大学学报》浏览原始摘要信息
	点击此处可从《国防科技大学学报》下载全文