首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速快速傅里叶变换的计算,取得高效的计算性能和效率。  相似文献   

2.
基于现有时域平面波(PWTD)算法,提出了一种对时域标量场平面波算法的改进方法。此方法将现有算法中的插值计算改为制表查询,并给出了其最大误差。另外,还将现有算法中转移算子中对时间求导提到算法最外层,将原先所需的(K 1)(2K 1)次FFT和IFFT计算减少为一次FFT和IFFT计算。最后算例证明当算法选取适当参数值时,可获得需要的计算精度,并验证了改进算法所需计算时间远少于现有算法。  相似文献   

3.
本文利用快速多项式变换(FPT)计算N×M 型二维DFT(M=2~m,N=2~(m-r+1),1≤r≤m),所需的乘法及加法次数(复乘及复加)分别为M_u=1/2NMlog_2M-3/2NM+N~2+N(1+log_2M-log_2N)A_d=NMlog_2NM,与通常的以2为基的二维FFT 比较,加法次数相同,乘法次数减少约30—40%,从而提高了计算精度。本算法还适用于并行算法。  相似文献   

4.
用FPGA实现浮点FFT处理器的研究   总被引:11,自引:2,他引:9       下载免费PDF全文
针对定点FFT处理器精度不高的缺点,提出了浮点格式FFT处理器的FPGA硬件实现方案。详细阐述了FFT处理器的自定制浮点格式确定、算法选择和浮点加法实现等关键技术。该处理器已投入使用,工作性能稳定,系统时钟80MHz,完成1024点FFT IFFT运算只需64μs,误差小于-80dB。  相似文献   

5.
本文首先提出用多项式逆变换计算二维DFT的方法(k_2是奇数 或偶数分别讨论),然后再讨论混合算法。对于N×N(N=2~t)二维DFT,混合算法所需的运算量为(?) 与通常以2为基的二维FFT(行列算法)比较,加法次数相同,乘法次数减少,约20-40%。  相似文献   

6.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

7.
高精度的浮点乘加融合(FMA)部件一直是高性能微处理器设计追求的目标。提出了一种128位精度全流水FMA体系结构,采用10级平衡流水线,重点对超宽位的乘法器、加法器、前导零预测和规格化进行了流水优化。设计综合的结果表明,基于SMIC0.13μm工艺,该结构频率可以达到465MHz,比现有128位FMA性能提高了130%;在TSMC65nm工艺下,该结构的频率可达到1.075GHz,基本满足高性能计算的要求。  相似文献   

8.
本文通过对离散富里叶变换(Discrete Fourier Transform,简记作DFT)矩阵的分解与FFT 算法相结合,提出了一个计算DFT 的新算法。由对矩阵的分解把求N=2~t 点的DFT 问题化为求16个N/16阶方阵与相应列向量相乘的问题(N≥16)。从而减少了乘法运算次数,且还具有良好的并行运算性质。  相似文献   

9.
文中讨论了用Z变换计算DFT的方法。对于N=2~t的DFT,本算法所需的加法及乘法量分别为:(?),与Cooley-Tukey基-2算法比较,乘法量与加法量均减少25%,文中还讨论了本算法在微机上的实现,给出流程图。在运算时间上,本算法与通用FFT算法程序进行比较:节省时间30%。  相似文献   

10.
本文首先用与[1]不同的方法推导了二维 DFT的FPT算法,所需运算量为 M=1/2NMlog_2M-2/3NM+N~2+N(1+log_2M-log_2N) A_d=NMlog_2NM与常用的二维FFT比较,两者加法量相同,乘法量本算法减少20--40%.然后比较详细的讨论了如何在通用计算机上实现这种算法,同时给出了我们在CYBER-73O机和银河机(YH)上试算的情况,结果表明,算法正确,所需计算时间比常用二维FFT减少20%左右(在YH机上减少35%左右)。  相似文献   

11.
胡庆军 《国防科技大学学报》1996,18(3):142-146 ,156
给出判别实对称矩阵为正定、半正定、负定、半负定或不定的一个算法;采用选最大对角元的方法,可使数值计算稳定性好。讨论了该算法的运算量,得到乘除法和加减法总次数分别至多为n(n-1)(n+4)/6和n(n-1)(n+1)/6的结论。最后给出运行该算法的数值例子。  相似文献   

12.
本文针对使用8088汇编语言实现基2FFT 的难点,就旋转因子的求取、比例系数的选择、16位乘积的获得以及运算溢出等问题提出了有效的解决方法,并给出了具体程序.从而,可使 FFT 运算速度较单纯运行相应的高级语言程序提高20倍左右.  相似文献   

13.
向量处理器的向量化算法映射是难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法,采用将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重迭,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。在Matrix上的实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。  相似文献   

14.
本文研究了环中卷积的快速计算问题,讨论了计算域中卷积通常使用的Wino-grad 短卷积算法、快速富里叶变换算法以及多项式变换算法对一般环中卷积计算的可适用性。特别地,对应用广泛的矩阵多项式乘积、矩阵卷积及多项式卷积计算提出了比直接计算快得多的算法。  相似文献   

15.
向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。  相似文献   

16.
高动态环境下的伪码快捕方法综述   总被引:3,自引:0,他引:3  
对部分伪码快捕方法进行了综述,详细介绍了其中一种方法:基于FFT的伪码快速捕获。阐述了这种方法的原理:以频域的快速傅里叶变换来等价完成时域的循环卷积,实现在一个伪码周期内同时搜索所有的码相位单元。分析表明,该方法能很大程度地缩短捕获时间,满足系统实时性和高精度的要求,可以用于导弹导航定位。  相似文献   

17.
为了在短数据且存在白噪声的情况下检测大幅度谐波附近的小幅度间谐波,提出了采用插值FFT和多信号分类法(MUSIC)相结合的间谐波参数检测方法.首先,利用加Hanning窗的插值FFT检测出信号中的主要频率成分;然后,从原信号中减去这部分信号,利用MUSIC方法对剩余信号进行频率检测,得到的两部分频率即认为是原信号中包含...  相似文献   

18.
分布式小卫星SAR回波仿真快速算法   总被引:1,自引:1,他引:0       下载免费PDF全文
回波信号仿真是研究分布式小卫星SAR系统的基础,对于系统总体设计具有重要意义。大范围自然场景回波仿真导致巨大的计算量。快速算法基于FFT实现,首先在时域利用脉冲序列近似表征场景在慢时刻的响应,然后利用FFT在频域实现线性时不变滤波以产生场景回波,算法能够有效减小运算量。对仿真的回波进行成像和干涉处理,结果验证了算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号