首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到13条相似文献,搜索用时 93 毫秒
1.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。  相似文献   

2.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

3.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

4.
一种面向多核处理器的高效并行PCA-SIFT算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种面向多核处理器的并行PCA-SIFT算法,采用数据级并行方法实现并行的特征提取和特征点匹配,将计算任务分配到各个DSP核并行处理,充分开发多核处理器的多级并行性.实验结果表明,并行PCA-SIFT算法对各种不同图像形变的图像具有良好的适应性,具有接近串行PCA-SIFT算法的图像匹配能力,平均加速比达3.12.  相似文献   

5.
根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。  相似文献   

6.
本文研究了环中卷积的快速计算问题,讨论了计算域中卷积通常使用的Wino-grad 短卷积算法、快速富里叶变换算法以及多项式变换算法对一般环中卷积计算的可适用性。特别地,对应用广泛的矩阵多项式乘积、矩阵卷积及多项式卷积计算提出了比直接计算快得多的算法。  相似文献   

7.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   

8.
随着计算机多核处理器的高速发展,多核并行计算在各领域发展研究的重要性已逐渐突显,分析了当前典型的并行编程模型,在PCAM设计过程的基础上提出了多核并行算法的设计过程,运用OpenMP编程模型完成了一种目标分配算法的多核并行化设计,通过实验及性能分析,验证了并行目标分配算法相较于传统串行算法在计算效率上的优势。  相似文献   

9.
根据多核DSP的应用特点,介绍了一种面向异构多核DSP的数据流传输控制引擎(DSTCE)的结构与设计,并实现了基于DSTCE的数据流前瞻传输技术.该技术以可编程的DSTCE模块为核心,实现了超节点内各个端口之间以及超节点之间的高效数据流传输,而且将传输过程与多核间的数据前瞻和编程模型有机结合起来.该技术避免了复杂的Cache一致性问题,显著提高了大规模多核DSP计算与访存的并行性.实验结果表明,采用DSTCE的多核DSP单个超节点的性能平均提高了22%,两个超节点情况下基于DSTCE结构的系统比基于CC-NUMA结构的系统性能平均提高了14%.  相似文献   

10.
为摆脱对商用网卡的依赖,降低软硬件复杂度,提出通用多核网络分组处理系统,构建面向大报文高速分组转发应用的软硬件协同数据分段卸载发送机制,并实现原型系统。该机制基于轻量级输入输出的软硬件协同多核分组处理系统,以降低大报文切分、拷贝开销以及软硬件复杂度为目的,把实现切分报文、封装报文头以及校验功能中硬件实现复杂的部分卸载到驱动中,将分段报文数据拷贝缩减为新报文头的拷贝,结合链式直接内存存取技术,为多核实现高速的大报文分组转发提供有效的解决方案。基于国产通用多核和高性能现场可编程门阵列平台进行发送性能测试。测试结果表明:采用数据分段卸载发送机制能大幅提升报文发送性能,有效解决大报文引发的多核网络分组处理性能下降的问题。  相似文献   

11.
现有基于深度学习的卷积码识别方法仍存在参数规模较大、识别性能较弱等不足。针对该问题,提出了一种基于矩阵变换特征与码序列联合学习的卷积码识别方法。将接收到的码字序列排列成矩阵形式,利用软信息剔除可靠性较低的码字,通过一种新的矩阵变换算法得到特征矩阵。在识别时,将原始码字矩阵和特征矩阵输入到具有多模态数据联合学习能力的网络模型,在神经网络中完成特征的提取融合与卷积码的识别。仿真结果表明,所提方法性能明显优于现有基于深度学习的识别方法,特别是对于高码率卷积码;当码率较低时,同样优于传统识别方法。当信噪比达到5 dB时,25种不同参数卷积码的识别率均可达到100%。  相似文献   

12.
基于改进欧几里得算法的卷积码快速盲识别算法   总被引:1,自引:0,他引:1       下载免费PDF全文
卷积码盲识别技术在信号截获、智能移动通信、多点广播通信等领域具有广泛应用,针对卷积码的快速盲识别问题,对经典欧几里得算法进行了改进,提出了一种基于改进欧几里得算法的卷积码的快速盲识别方法。算法对卷积码码率进行遍历,通过欧几里得迭代算法求解卷积的校验多项式,实现了任意码率卷积码的快速盲识别。对算法进行了仿真,仿真结果验证了算法的有效性,且算法的计算量小于文献中已有算法。  相似文献   

13.
高光谱影像降维快速独立成分分析过程包含大规模矩阵运算和大量迭代计算。通过分析算法热点,设计协方差矩阵计算、白化处理、ICA迭代和IC变换等关键热点的图像处理单元映射方案,提出并实现一种G-Fast ICA并行算法,并基于GPU架构研究算法优化策略。实验结果显示:在处理高光谱影像降维时,CPU/GPU异构系统能获得比CPU更高效的性能,G-Fast ICA算法比串行最高可获得72倍加速比,比16核CPU并行处理快4~6.5倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号