首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
向量处理器的向量化算法映射是难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法,采用将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重迭,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。在Matrix上的实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。  相似文献   

2.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   

3.
提出一种基于融合乘加指令加速FFT计算的向量化方法,通过变换FFT的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得DIT基2 FFT算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,DIT基4 FFT算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速FFT的计算,取得高效的计算性能和效率。  相似文献   

4.
融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速快速傅里叶变换的计算,取得高效的计算性能和效率。  相似文献   

5.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

6.
介绍了DLX虚拟处理器的结构特征和流水线处理机的工作原理,通过矩阵乘法运算实例模拟了程序在DLX虚拟处理器中的流水执行过程,并利用DLX的统计分析工具对流水线的性能进行对比分析,提出了流水线处理过程中潜在问题的解决方法,为设计和改进流水线结构及提高流水线处理机中算法的执行效率提供了参考依据。  相似文献   

7.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

8.
根据高速8PSK卫星调制器的要求,针对数字化基带成形滤波的信号处理特点,文中提出一种基于矩阵乘法的高速卫星成形滤波器设计方法及基于查找表的硬件实现方案。该方法将成形滤波直接抽象为矩阵乘法的运算,将多个卷积相乘项相加后再量化,减少了量化次数,提高了量化信噪比。用片内的BLOCK-RAM精心设计查找表,在8万门的芯片VIRTEX2-80中就能实现此方案。MODELSIM的时序仿真结果表明,可支持高达200Mbps的输入数据,满足卫星通信高速成形的要求,并针对未来更高速率的成形滤波器给出了一种通用硬件实现方法。  相似文献   

9.
在使用马尔柯夫链分析多层防御系统的防御效用值时,发现防御矩阵是否满足乘法交换律将关系到多层防御系统变换部署后的防御效用值,因此有必要对防御矩阵是否满足乘法交换律进行证明。首先介绍了防御矩阵的概念、物理意义、重要性质及计算方法,分析了防御矩阵满足乘法交换律的重要意义,最后综合运用数学归纳法和随机矩阵性质证明了防御矩阵满足乘法交换律的事实,此结论无论对于多层防御系统的防御效用值研究还是矩阵理论研究都有一定的指导作用。  相似文献   

10.
规约与扫描是并行计算中的核心原语,其并行加速至关重要。然而,冯·诺依曼体系结构下无法避免的数据移动使其面临“存储墙”等性能与功耗瓶颈。近来,基于ReRAM等非易失存储器的存算一体架构支持的原位计算可一步实现矩阵-向量乘,已在机器学习与图计算等应用中展现了巨大的潜力。提出面向忆阻器存算一体架构的规约与扫描的并行加速方法,重点阐述基于矩阵-向量乘运算的计算流程和在忆阻器架构上的映射方法,实现软硬件协同设计,降低功耗并提高性能。相比于GPU,所提规约与扫描原语可实现高达两个数量级的加速,平均加速比也可达到两个数量级。分段规约与扫描最大可达到五个(平均四个)数量级的加速,并将功耗降低79%。  相似文献   

11.
为了解决传统基于阵列协方差矩阵稀疏性到达角估计方法计算复杂度高的问题,提出基于直接二维稀疏重构思想的高效到达角估计方法。该方法利用阵列输出数据的协方差矩阵构造二维稀疏表示模型,对协方差矩阵进行特征值分解以实现噪声功率估计,从而降低噪声对到达角估计的影响。在求解稀疏表示模型时,直接对该二维稀疏重构问题进行求解,避免了矩阵矢量化操作。仿真实验结果表明,该方法运行效率大大提高,并且在低快拍数、低信噪比和稀疏阵元等条件下估计性能优于传统方法。  相似文献   

12.
Modification of algorithms designed for scalar computing, to take advantage of vector processing, raises several challenges. This article presents the vectorization of the primal simplex based network algorithm and results in a 50% improvement in computational time. One of the major contributors to this improvement is the matching of the size of the pricing candidate list to the vector register size. The side constraints are relaxed into a single surrogate constraint. The single constraint network algorithm is vectorized and used as the basis for solving large-scale constrained network problems. Computational experiments are presented which illustrate the vectorization of the network code as well as the ability of the surrogate constraint approach to deal with large constrained network problems.  相似文献   

13.
针对拓扑检查算法复杂、计算量大,串行计算已远不能满足海量地籍数据高效拓扑检查需求的问题,在分析了点线拓扑关系的并行特点基础上,将界址点的数据划分方法与界址线的QR空间索引方法相结合,实现了界址点与界址线的并行拓扑计算。用某地区实际的界址点集与界址线集对点线拓扑并行检查进行实验。测试结果表明:并行检查算法的并行效率随着进程数的增加而有所衰减,但稳定在30%以上,加速比达到5以上,且相比于Arc GIS效率提升了30倍以上。并行检查方法以工具的方式集成应用于高性能地理计算平台中,应用效果良好。  相似文献   

14.
在微波高频段,海面背景或海上船类目标往往具有电大尺寸和复杂精细的结构,这给船海复合场景的电磁建模带来巨大的计算负担。为简化计算,基于海面电磁散射模型面元化思想和图形电磁学,结合计算耦合场的四路径模型,提出一种电大尺寸船海复合场景电磁散射的快速计算方法。在保证海面与目标复合散射场的计算准确性前提下,提高计算效率。仿真并分析不同雷达参数下动态海面与目标的雷达散射截面,计算结果与实测数据以及精确数值方法结果的良好一致性验证了方法的准确性。将复合散射快速计算方法应用于合成孔径雷达成像仿真,仿真结果验证了方法的有效性。  相似文献   

15.
应用有限元方法,建立了变厚度薄板三角形单元刚度矩阵,给出了变厚度薄板三角形单元形心上的应力和位移计算的数学模型。通过对某型反坦克导弹弹翼进行静力分析和实验比较,表明采用这种模型进行分析合乎结构设计精度要求。  相似文献   

16.
基于有限体积方法、TVD差分格式和显式Runge-Kutta迭代方法的框架,针对超声速/高超声速飞行器绕流流场,在超级并行计算机上完成了2~64个CPU并行数值计算工作。通过测试程序在超级计算机上的并行效率,并将并行程序应用于航天飞机绕流流场计算,检验了计算程序进行大规模并行计算的性能。结果表明,在负载平衡的条件下,程序在该超级并行计算机上达到了不同程度的超线性加速比,并行效率最高达到了126%,远远高于微机Cluster并行平台上的结果,适合复杂流场的大规模并行计算。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号