期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张军阳郭阳《国防科技大学学报》2018,40(3):69-75

为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。相似文献

2.

高光谱影像的近邻加权拉普拉斯降维方法

《装备学院学报》2017,(3)

针对高光谱影像数据中存在信息冗余和非线性结构的现象,以及数据分布不均匀时拉普拉斯特征映射近邻点选择不恰当的问题,提出了一种基于Cam加权距离的拉普拉斯改进算法,用于高光谱影像数据降维以压缩数据量并提高分类精度。首先对波段分组去除奇异波段,然后用基于Cam加权距离的拉普拉斯特征映射算法对剩余数据降维,最后将结果输入最小距离分类器进行高光谱影像分类。通过Indiana Pines数据集进行验证,实验结果表明:与线性降维主成分分析法和非线性降维拉普拉斯特征映射相比,基于Cam加权距离的拉普拉斯特征映射算法分类精度更高。相似文献

3.

基于CPU-GPU混合计算平台的RNA二级结构预测算法并行化研究 总被引：1，自引：1，他引：0

下载免费PDF全文

夏飞朱强华金国庆《国防科技大学学报》2013,35(6):138-146

RNA二级结构预测是生物信息学领域重要的研究方向,基于最小自由能模型的Zuker算法是目前该领域最典型使用最广泛的算法之一。本文基于CPU GPU的混合计算平台实现了对Zuker算法的并行和加速。根据CPU和GPU计算性能的差异,通过合理的任务分配策略,实现二者之间的并行协作计算和处理单元间的负载平衡;针对CPU和GPU的不同硬件特性,对Zuker算法在CPU和GPU上的实现分别采取了不同的并行优化方法,提高了混合加速系统的计算性能。实验结果表明,CPU处理单元在混合系统中承担了14%以上的计算任务,与传统的多核CPU并行方案相比,采用混合并行加速方法可获得15.93的全局加速比;与最优的单纯GPU加速方案相比,可获得16%的性能提升,并且该混合计算方案可用于对其它生物信息学序列分析应用的并行和加速。相似文献

4.

基于MPI+CUDA的异构并行可压缩流求解器

下载免费PDF全文

刘枫李桦田正雨潘沙《国防科技大学学报》2014,36(1):6-10

在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。相似文献

5.

大规模无人机遥感影像快速区域网平差

杜娟薛武赵蓓蕾《现代防御技术》2018,(4)

随着无人机遥感的快速发展和广泛应用,大规模无人机影像的区域网平差成为遥感影像处理的重要研究内容。针对大规模影像区域网平差对计算机内存开销大、时间消耗长的问题,提出了一种快速高效的解决方案。一方面对传统区域网平差解算流程进行了优化,分别采用矩阵的Schur补和预处理矩阵减小了未知数的数目和法矩阵的条件数,并利用共轭梯度的截断牛顿法进行法方程的答解,大大提高了法方程答解速度;另外一方面尽量发挥平台的计算资源优势,借助CPU和GPU设备对矩阵运算进行了加速。利用典型无人机影像进行实验,结果表明提出的解决方案可以处理上万幅无人机影像而且具有较高的效率。相似文献

6.

应用多GPU的可压缩湍流并行计算

下载免费PDF全文

曹文斌李桦谢文佳张冉《国防科技大学学报》2015,37(3):78-83

利用CUDA Fortran语言发展了基于图形处理器(GPU)的计算流体力学可压缩湍流求解器。该求解器基于结构网格有限体积法,空间离散采用AUSMPW+格式,湍流模型为k-ωSST两方程模型,采用MPI实现并行计算。针对最新的GPU架构,讨论了通量计算的优化方法及GPU计算与PCIe数据传输、MPI通信重叠的多GPU并行算法。进行了超声速进气道及空天飞机等算例的数值模拟以验证GPU在大网格量情况下的加速性能。计算结果表明:相对于Intel Xeon E5-2670 CPU单一核心的计算时间,单块NVIDIA GTX Titan Black GPU可获得107~125倍的加速比。利用四块GPU实现了复杂外形1.34亿网格的快速计算,并行效率为91.6%。相似文献

7.

多GPU的可压缩湍流并行计算

下载免费PDF全文

曹文斌《国防科技大学学报》2015,37(3)

利用CUDA Fortran语言发展了一种基于GPU的计算流体力学可压缩湍流求解器。该求解器基于结构网格有限体积法,空间离散采用AUSMPW 格式,湍流模型为k-ω SST两方程模型,采用MPI实现并行计算。针对最新的GPU架构,讨论了通量计算的优化方法及GPU计算与PCIe数据传输、MPI通信重叠的多GPU并行算法。进行了超声速进气道及空天飞机等算例的数值模拟以验证GPU在大网格量情况下的加速性能。计算结果表明相对于Intel Xeon E5-2670 CPU单一核心的计算时间,单块NVIDIA GTX Titan Black GPU可获得107至125倍的加速比。利用四块GPU实现了复杂外形1.34亿网格的快速计算,并行效率为91.6%。相似文献

8.

一种JPDA的快速算法

袁富宇石汪权蒲勇《火力与指挥控制》2020,45(8):166-170

为使标准JPDA算法能在实际工程中实时应用,着重在JPDA的主要计算环节进行了改进和实时性提升,提出了一种JPDA的快速算法。通过引入"关联目标类",对确认矩阵进行降维,即把一个高维数矩阵分解成若干"相互独立"的低维矩阵。提出了一种互联概率的递归计算方法,减少拆分矩阵巨大的内存占用需求。同时还对相关波门和滤波方差计算进行了改进。仿真结果表明,快速算法比标准JPDA算法的计算时间有显著缩短,在不是"太密集"的多目标环境下具有一定的工程应用价值。相似文献

9.

长向量处理器高效RNN推理方法

下载免费PDF全文

苏华友陈抗抗杨乾明《国防科技大学学报》2024,46(1):121-130

模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。相似文献

10.

基于GPU的SAR成像层次化并行处理研究

李东生何余洪雍爱霞《火力与指挥控制》2015,(6)

针对SAR成像处理具有的内在并行性,提出了一种基于GPU的SAR成像层次化并行处理方法。首先分析了SAR成像处理过程中信号的并行性,对任务进行了层次化分解与组合,设计了层次化并行的CS成像算法;然后通过CUDA编程将并行成像算法映射到CPU+GPUs系统平台上,实现了层次化并行成像处理;为了检验并行处理效果,采用原始数据进行了SAR成像处理实验。实验结果表明,在几乎没有损失图像质量的情况下,层次化并行处理获得了较高的加速比。相似文献

11.

基于内外子区域划分的高阶精度CFD程序异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2)

对计算流体力学(CFD)程序CNS提出一种Offload模式下基于内外子区域划分的异构并行算法，结合结构化网格下有限差分计算和四阶龙格库塔方法的特点，引入ghost网格点区域，设计了一种ghost区域收缩计算策略，显著降低了异构计算资源之间的数据传输开销，负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠，提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数，分析了负载均衡的条件。在“CPU(Intel Haswell Xeon E5-2670 12 cores ×2)＋加速器(Xeon Phi 7120A ×2)”的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升5.9倍，较MPI/OpenMP两级并行算法使用24个纯CPU核的性能，该算法使用单加速器时加速1.27倍，使用双加速器加速1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献

12.

多核数字信号处理器并行矩阵转置算法优化

下载免费PDF全文

裴向东王庆林廖林玉李荣春梅松竹刘杰庞征斌《国防科技大学学报》2023,45(1):57-66

矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。相似文献

13.

多核数字信号处理卷积算法并行优化

下载免费PDF全文

许金伟王庆林李娅琳姜晶菲高蕾李荣春李东升《国防科技大学学报》2024,46(1):103-112

针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%～88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。相似文献

14.

CPU-GPU协同加速Kriging插值的负载均衡方法

下载免费PDF全文

姜春雷张树清《国防科技大学学报》2015,37(5):35-39,

Kriging插值算法被广泛应用于地学各领域,有着极其重要的现实意义,但在面对大规模输出网格及大量输入采样点时,不可避免地遇到了性能瓶颈。利用Open CL和Open MP在异构平台上实现了CPU与GPU协同加速普通Kriging插值。针对Kriging插值中采样点的不规则分布及CPU和GPU由于体系结构差异对其的不同适应性,提出一种基于不同设备间计算性能的差异和数据分布特点的负载均衡方法。试验结果表明,该方法能有效提高普通Kriging插值速度,同时还能节约存储空间和提高访存效率。相似文献

15.

基于SIMD处理器的全定制多粒度矩阵寄存器文件

下载免费PDF全文

张凯陈书明王耀华陈海燕李振涛《国防科技大学学报》2013,35(4):156-160

在SIMD处理器上映射矩阵运算时会带来大量的数据重排操作从而降低系统性能。本文提出定制化的多粒度矩阵寄存器文件(MMRF)以消除数据重排操作。MMRF支持多粒度的并行行访问和列访问,从而提升矩阵运算的性能。MMRF可以被动态配置为不同的并行访问模式,在不同模式下一个或多个子矩阵可以被并行处理。实验结果显示,同传统的向量寄存器文件(VRF)和矩阵寄存器文件(MRF)相比,MMRF可分别带来2.21倍和1.6倍的平均性能提升,面积分别增加14.3%和3.7%,功耗分别增加14.6%和2.2%。同TMS320C64x+处理器相比,基于SIMD技术的FT-Matrix处理器在引入MMRF后可以得到5.65倍到7.71倍的性能提升。通过层次化的全定制设计技术,MMRF的面积和关键路径分别减少17.9%和39.1%。相似文献

16.

高精度CFD程序的内外子区域划分异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2):31-40

对计算流体力学(Computational Fluid Dynamics, CFD)程序CNS提出一种Offload模式下对任务内外子区域划分的异构并行算法,结合结构化网格下有限差分计算和四阶龙格-库塔方法的特点,引入ghost网格点区域,设计了一种ghost区域收缩计算策略,显著降低了异构计算资源之间的数据传输开销,负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠,提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数,分析了负载均衡的条件。在"CPU(Intel Haswell Xeon E5-2670 12 cores×2)+加速器(Xeon Phi 7120A×2)"的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升至5.9倍,较MPI/OpenMP两级并行算法使用24个纯CPU核的性能,该算法使用单加速器时加速至1.27倍,使用双加速器加速至1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献

17.

多核数字信号处理器矩阵乘卷积算法性能评测

下载免费PDF全文

王庆林裴向东廖林玉王浩旭李荣春梅松竹李东升《国防科技大学学报》2023,45(1):86-94

矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。相似文献