首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 78 毫秒
1.
向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。  相似文献   

2.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   

3.
提出一种基于融合乘加指令加速FFT计算的向量化方法,通过变换FFT的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得DIT基2 FFT算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,DIT基4 FFT算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速FFT的计算,取得高效的计算性能和效率。  相似文献   

4.
融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速快速傅里叶变换的计算,取得高效的计算性能和效率。  相似文献   

5.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

6.
介绍了DLX虚拟处理器的结构特征和流水线处理机的工作原理,通过矩阵乘法运算实例模拟了程序在DLX虚拟处理器中的流水执行过程,并利用DLX的统计分析工具对流水线的性能进行对比分析,提出了流水线处理过程中潜在问题的解决方法,为设计和改进流水线结构及提高流水线处理机中算法的执行效率提供了参考依据。  相似文献   

7.
根据高速8PSK卫星调制器的要求,针对数字化基带成形滤波的信号处理特点,文中提出一种基于矩阵乘法的高速卫星成形滤波器设计方法及基于查找表的硬件实现方案。该方法将成形滤波直接抽象为矩阵乘法的运算,将多个卷积相乘项相加后再量化,减少了量化次数,提高了量化信噪比。用片内的BLOCK-RAM精心设计查找表,在8万门的芯片VIRTEX2-80中就能实现此方案。MODELSIM的时序仿真结果表明,可支持高达200Mbps的输入数据,满足卫星通信高速成形的要求,并针对未来更高速率的成形滤波器给出了一种通用硬件实现方法。  相似文献   

8.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

9.
在使用马尔柯夫链分析多层防御系统的防御效用值时,发现防御矩阵是否满足乘法交换律将关系到多层防御系统变换部署后的防御效用值,因此有必要对防御矩阵是否满足乘法交换律进行证明。首先介绍了防御矩阵的概念、物理意义、重要性质及计算方法,分析了防御矩阵满足乘法交换律的重要意义,最后综合运用数学归纳法和随机矩阵性质证明了防御矩阵满足乘法交换律的事实,此结论无论对于多层防御系统的防御效用值研究还是矩阵理论研究都有一定的指导作用。  相似文献   

10.
规约与扫描是并行计算中的核心原语,其并行加速至关重要。然而,冯·诺依曼体系结构下无法避免的数据移动使其面临“存储墙”等性能与功耗瓶颈。近来,基于ReRAM等非易失存储器的存算一体架构支持的原位计算可一步实现矩阵-向量乘,已在机器学习与图计算等应用中展现了巨大的潜力。提出面向忆阻器存算一体架构的规约与扫描的并行加速方法,重点阐述基于矩阵-向量乘运算的计算流程和在忆阻器架构上的映射方法,实现软硬件协同设计,降低功耗并提高性能。相比于GPU,所提规约与扫描原语可实现高达两个数量级的加速,平均加速比也可达到两个数量级。分段规约与扫描最大可达到五个(平均四个)数量级的加速,并将功耗降低79%。  相似文献   

11.
首先搭建了3D SRAM软错误分析平台,可以快速、自动分析多层die堆叠结构3D SRAM的软错误特性。此平台集成了多种层次模拟软件Geant4、TCAD、Nanosim,数据记录处理软件ROOT,版图处理软件Calibre,以及用于任务链接和结果分析的Perl和shell脚本。利用该平台,对以字线划分设计的3D SRAM和同等规模的2D SRAM分别进行软错误分析,并对分析结果进行了对比。对比分析表明2D 和3D SRAM的翻转截面几乎相同,但3D SRAM单个字中发生的软错误要比2D SRAM更严重,导致难以使用ECC技术对其进行加固。静态模式下2D SRAM和3D SRAM敏感节点均分布于存储阵列中,表明静态模式下逻辑电路不会引发软错误。  相似文献   

12.
光顺样条是散乱数据拟合的理想函数,是噪声数据最优平滑的重要工具。因此,光顺样条的数学表示和计算的研究具有重要的意义。本文在一般的线性微分算子和线性泛函的情况下讨论光顺样条函数的构造和计算,通过构造一个适当的再生核Hilbert空间,使得所讨论的微分算子光顺样条成为该空间中的最小范数问题,再利用投影理论建立了光顺样条函数的再生核表示方法,并得到了插值偏差表达式。作为特例,还给出了奇次多项式光顺样条函数新的简洁的计算方法。  相似文献   

13.
为了解决传统基于阵列协方差矩阵稀疏性到达角估计方法计算复杂度高的问题,提出基于直接二维稀疏重构思想的高效到达角估计方法。该方法利用阵列输出数据的协方差矩阵构造二维稀疏表示模型,对协方差矩阵进行特征值分解以实现噪声功率估计,从而降低噪声对到达角估计的影响。在求解稀疏表示模型时,直接对该二维稀疏重构问题进行求解,避免了矩阵矢量化操作。仿真实验结果表明,该方法运行效率大大提高,并且在低快拍数、低信噪比和稀疏阵元等条件下估计性能优于传统方法。  相似文献   

14.
宽单指令多数据流(Single Instruction Multiple Data, SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2~8的性能加速比。  相似文献   

15.
多径条件下子阵级低角测高算法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对多径条件下的测高问题,提出了一种子阵级处理新算法.采用均匀子阵划分形成三个子阵;在子阵级解析求出协方差矩阵的正交矢量,进而构造仰角谱,谱峰的位置即目标仰角;还可以估计出复反射系数.仿真分析给出了该方法的性能与SNR、目标仰角以及复反射系数的关系,某米波雷达实测数据检验了该方法的有效性,仰角测量误差达到阵列天线波束宽度的1/84.研究表明:该算法本身不依赖未知的复反射系数,并且信号处理维数低,运算量较低,可以应用在舰载雷达和米波三坐标雷达中.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号