共查询到19条相似文献,搜索用时 78 毫秒
1.
本文详细讨论了多元多项式乘积的多项式变换(FPT)算法。首先给出了二元的情况,然后推广到了一般多元多项式,最后给出了这种算法在计算二维循环卷积中的应用,由此可见,这种算法在计算多维卷积和多维DFT 时是很有效的。 相似文献
2.
本文提出了用二维多项式变换计算数字循环卷积的方法,指出了用二维多项式变换计算三维循环卷积所需的运算量。详细地讨论了实现二维多项式变换的条件,并推广到多维的情形。 相似文献
3.
卷积码盲识别技术在信号截获、智能移动通信、多点广播通信等领域具有广泛应用,针对卷积码的快速盲识别问题,对经典欧几里得算法进行了改进,提出了一种基于改进欧几里得算法的卷积码的快速盲识别方法。算法对卷积码码率进行遍历,通过欧几里得迭代算法求解卷积的校验多项式,实现了任意码率卷积码的快速盲识别。对算法进行了仿真,仿真结果验证了算法的有效性,且算法的计算量小于文献中已有算法。 相似文献
4.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。 相似文献
5.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。 相似文献
6.
蒋增荣 《国防科技大学学报》1980,(3)
Nussbaumer和Quandalle在[6]中提出了多项式变换并用它来计算数字卷积。本文在[6]的基础上,更一般地研究了多项式变换,详细地研究了这种变换存在的条件。特别,当模M(z)是可约多项式时,得到了一系列变换存在的充分必要条件,并证明这时具有循环卷积特性(CCP),而[6]中提出并证明了的变换仅是这里的特殊情况。 相似文献
7.
余品能 《工程兵工程学院学报》1995,(2):89-96
本文首先定义了一种新的正交变换-离散混合变换(DMT)及其逆变换(IDMT),然后给出了DMT的一种基-2快速递推算法,并进一步讨论了用DMT来快速计算卷积的方法,常用的离散付里叶变换(DFT),离散Hartley变换(DHT)均可视为DMT的特殊情形。 相似文献
8.
蒋增荣 《国防科技大学学报》1978,(1)
一、引言通常的离散福里哀变换(DFT)是将时域信号变换为谱,或将谱反变换为时域信号。在信号处理及传递中,利用谱进行研究往往比利用时域信号更为方便。随着计算技术的不断进步,在信号处理中使用变换法更为大家所关心。数论变换是近几年才发展起来的一种新型变换。Pollard在[1]中对于由有限域(Galois field)或以一自然数为模的整数环中的元素所构成的序列的循环卷积给出了结果。Rader[2],Agarwal和Burrus[3], 相似文献
9.
蒋增荣 《国防科技大学学报》1987,(1):68-75
本文证明了当且仅当[R]=[P]~T(?)[Q]时,一维变换r=[R]X与二维变换[Y]=[Q][X][P]相互等价。此外,讨论了Hadamard变换以及具有循环卷积特性的一维变换与二维变换的等价问题。最后,利用上述等价定理,导出了二维DFT的一种比行列算法更为有效的快速算法——向量算法。 相似文献
10.
11.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。 相似文献
12.
毫米波因其分辨力强、穿透性强、光子能量低的独特优势,在无损检测领域具有极大的潜力.针对毫米波无损检测应用,结合距离徙动算法和非均匀快速傅里叶变换的思想,提出一种适用于非均匀平面阵列的三维成像算法.该算法利用非均匀快速傅里叶变换在波数域重构信号频谱,克服了非均匀空间采样对传统基于傅里叶变换的成像算法的限制;该算法应用非均... 相似文献
13.
提出了一种新的快速离散时间尺度变换算法。给出了离散时间信号尺度变换的构造表达式及其Chirp变换快速实现流程。讨论了Chirp变换实现中的参数选取准则,分析了Chirp变换的信号带宽问题。讨论了算法的运算效率并与其它算法进行了比较。仿真试验证明了本文算法的有效性。 相似文献
14.
高效的运动估计算法是实时视频编解码技术的研究重点。为降低视频编码中运动估计的高计算复杂度问题,提出了基于上下文的快速自适应运动估计算法。该算法在运动估计过程中引入了次最佳匹配点,并且使用了一种基于平行四边形模式的方向性搜索策略。该算法的基本思想是:在块运动矢量估计过程中,利用前面搜索步中得到的块运动矢量及次最佳匹配点与最佳匹配点之间的位置关系,自适应选择一种平行四边形搜索模式,并确定下一步搜索的方向,进行更精确运动矢量的搜索。实验结果表明,该算法有效降低了视频压缩编码中运动估计的运算复杂度。 相似文献
15.
采样协方差矩阵求逆是空时抗干扰算法的基本运算单元,但由于其运算量随时域抽头个数急剧增长,直接限制了空时抗干扰技术在卫星导航接收机中的应用。针对该问题,提出了基于块Toeplitz矩阵快速求逆的空时抗干扰方法。通过采用新的协方差矩阵近似计算方法,使得该矩阵同时为块Toeplitz矩阵与Hermite矩阵,并运用块Toeplitz矩阵的快速求逆算法,将时域抽头个数为K的计算复杂度从O[K3]降至O[K2]。理论分析和仿真结果表明,在阵元数为4、时域抽头为15的典型情况下,相比现有矩阵求逆方法,该算法的抗干扰性能损耗小于1d B,但计算量可降低约2/3。 相似文献
16.
针对校验矩阵形如准循环双对角阵的结构化LDPC码,对比研究了两类高效的编码算法:矩阵分解编码算法和分项累加递归编码算法,证明了两类算法从实现角度是等价的,但分项累加递归编码算法推导更为直观,且便于硬件并行实现。基于分项累加编码算法,提出了一种适合准循环双对角LDPC码的部分并行编码结构,设计实现了IEEE 802.11n标准中的LDPC码编码器。FPGA实现结果表明,所设计的LDPC编码器具有硬件开销较小、吞吐率高的优点,在码长为1944bit、码率为5/6时信息比特吞吐率最高可达13Gbps。 相似文献
17.
曹文斌 《国防科技大学学报》2013,35(3)
在高超声速条件下,对原始LU-SGS格式及其改进方法的收敛速度做了深入地比较分析,目的是进一步更好地将LU-SGS算法用于工程上复杂外形的计算模拟当中。二维圆柱,三维钝锥及空天飞机算例的结果表明:(i)对于高超声速粘性流动的计算,粘性项应进行隐式处理;(ii)BLU-SGS方法给出的内迭代方式的收敛性优于DP-LUR方法所给出的内迭代方式;(iii)LU-SGS算法中雅克比系数矩阵的计算方式对计算量及收敛性影响较大,若采用精确的矩阵形式则在流动无分离情况下能取得快速收敛的效果,而在含有流动分离的情况因受稳定性的影响精确的矩阵形式的收敛表现不及对角近似形式。 相似文献
18.
自动武器谱系模块划分算法的研究与应用 总被引:1,自引:0,他引:1
根据新产品快速设计要求,必须利用模块化方法提高设计知识的重用率和可重构性,针对某些特殊机械类产品,在保证模块接口的几何尺寸装配外,其模块的通用还需满足十分严格的技术指标条件,必须结合其物理性能分析评估进行合理分划,并考虑在特定的产品谱系平台上实现模块的通用化。将谱系法规应用于自动武器模块化设计,提出两种实用的模块划分算法,即参照点谱系模块划分和模式法谱系模块划分方法;并利用模式法思想进行模块分划,首先根据能量流物理效应,将其划分为初始模块集合,再构造相关性矩阵,对其中复杂部件的模块划分进行验算,实践结果验证了该模块划分算法的正确性与可行性,对其他机械产品具有普适意义。 相似文献