期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于CPU-GPU混合计算平台的RNA二级结构预测算法并行化研究 总被引：1，自引：1，他引：0

夏飞朱强华金国庆《国防科技大学学报》2013,35(6):138-146

RNA二级结构预测是生物信息学领域重要的研究方向,基于最小自由能模型的Zuker算法是目前该领域最典型使用最广泛的算法之一。本文基于CPU GPU的混合计算平台实现了对Zuker算法的并行和加速。根据CPU和GPU计算性能的差异,通过合理的任务分配策略,实现二者之间的并行协作计算和处理单元间的负载平衡;针对CPU和GPU的不同硬件特性,对Zuker算法在CPU和GPU上的实现分别采取了不同的并行优化方法,提高了混合加速系统的计算性能。实验结果表明,CPU处理单元在混合系统中承担了14%以上的计算任务,与传统的多核CPU并行方案相比,采用混合并行加速方法可获得15.93的全局加速比;与最优的单纯GPU加速方案相比,可获得16%的性能提升,并且该混合计算方案可用于对其它生物信息学序列分析应用的并行和加速。相似文献

2.

GPU上高光谱快速ICA降维并行算法

下载免费PDF全文

方民权周海芳张卫民申小龙《国防科技大学学报》2015,37(4):65-70

高光谱影像降维快速独立成分分析过程包含大规模矩阵运算和大量迭代计算。通过分析算法热点,设计协方差矩阵计算、白化处理、ICA迭代和IC变换等关键热点的图像处理单元映射方案,提出并实现一种G-Fast ICA并行算法,并基于GPU架构研究算法优化策略。实验结果显示:在处理高光谱影像降维时,CPU/GPU异构系统能获得比CPU更高效的性能,G-Fast ICA算法比串行最高可获得72倍加速比,比16核CPU并行处理快4~6.5倍。相似文献

3.

多GPU的可压缩湍流并行计算

下载免费PDF全文

曹文斌《国防科技大学学报》2015,37(3)

利用CUDA Fortran语言发展了一种基于GPU的计算流体力学可压缩湍流求解器。该求解器基于结构网格有限体积法,空间离散采用AUSMPW 格式,湍流模型为k-ω SST两方程模型,采用MPI实现并行计算。针对最新的GPU架构,讨论了通量计算的优化方法及GPU计算与PCIe数据传输、MPI通信重叠的多GPU并行算法。进行了超声速进气道及空天飞机等算例的数值模拟以验证GPU在大网格量情况下的加速性能。计算结果表明相对于Intel Xeon E5-2670 CPU单一核心的计算时间,单块NVIDIA GTX Titan Black GPU可获得107至125倍的加速比。利用四块GPU实现了复杂外形1.34亿网格的快速计算,并行效率为91.6%。相似文献

4.

应用多GPU的可压缩湍流并行计算

下载免费PDF全文

曹文斌李桦谢文佳张冉《国防科技大学学报》2015,37(3):78-83

利用CUDA Fortran语言发展了基于图形处理器(GPU)的计算流体力学可压缩湍流求解器。该求解器基于结构网格有限体积法,空间离散采用AUSMPW+格式,湍流模型为k-ωSST两方程模型,采用MPI实现并行计算。针对最新的GPU架构,讨论了通量计算的优化方法及GPU计算与PCIe数据传输、MPI通信重叠的多GPU并行算法。进行了超声速进气道及空天飞机等算例的数值模拟以验证GPU在大网格量情况下的加速性能。计算结果表明:相对于Intel Xeon E5-2670 CPU单一核心的计算时间,单块NVIDIA GTX Titan Black GPU可获得107~125倍的加速比。利用四块GPU实现了复杂外形1.34亿网格的快速计算,并行效率为91.6%。相似文献

5.

基于零边界值Kriging插值的地磁异常场稳定向上延拓法

赵鹤达张宁林春生林朋飞徐磊《海军工程大学学报》2022,34(1):49-54

针对位场向上延拓存在边界误差的问题,根据向上延拓的原理对边界误差产生的原因进行了分析,提出了补充零边界值并用普通Kriging法对数据进行插值的方法,对插值后的区域在频域进行向上延拓,并采用绝对误差最大值占平面磁异常最大值的比例作为误差评价标准.仿真结果表明:所提的方法优于不扩边和最小曲率法扩边的向上延拓方法;向上延拓... 相似文献

6.

节点实时性能自适应的集群资源分配算法

下载免费PDF全文

胡亚红吴寅超朱正东《国防科技大学学报》2022,44(6):144-150

由于配置和所运行作业的不同,集群各节点的实时性能差异较大。为提高集群性能,提出节点实时性能自适应的集群资源分配算法 (node real-time performance adaptive cluster resource scheduling algorithm,NPARSA)。节点实时性能用其配置(CPU核数及速度、内存容量、磁盘容量)和实时状态参数(CPU、内存和磁盘的剩余数量及磁盘读写速度)表示。NPARSA根据作业类型自主选择节点性能评价指标的权值,实现节点实时性能对于作业类型的自适应。实时性能最优的节点分配给作业。虚拟机实验和物理集群实验表明,与Spark默认资源分配算法、没有考虑作业类型与节点匹配的算法、使用作业和节点匹配差异程度作为资源分配依据的算法相比,NPARSA能更有效地缩短作业执行时间、提高集群性能。相似文献

7.

基于移动Kriging插值算法的水下地形构建技术研究

高永琪赵苗王鹏张洪刚《海军工程大学学报》2019,31(4)

针对Kriging插值算法在地形构建中对真实观测数据进行光滑处理时可能产生较大误差的问题,在简述其基本原理的基础上,提出了移动Kriging插值算法,并详细阐述了该算法的原理和步骤。运用该算法对类Sphere、Rastrigin函数分别模拟的平坦和起伏地形进行插值重构仿真测试,并对武汉木兰湖湖底真实地形数据进行了验证比较,结果表明:该算法在水下地形构建中能够获得较好的插值效果,很好地保持了地形特征,且能获得更小残差的水下地形数据,在水下数字地图制作中具有较好的应用价值。相似文献

8.

OFDM系统中基于补零DFT信道插值算法的研究

下载免费PDF全文

石峰胡登鹏王晨张尔扬《国防科技大学学报》2010,32(5):98-104

针对OFDM系统中基于补零DFT实现信道插值的算法,对传统的时域方法和变换域方法进行了分析,并提出了一种新的补零方法。首先通过理论分析指出传统的基于补零DFT实现信道插值算法中,时域方法和变换域方法是等效的;通过对信道插值算法中冲激响应估计序列进行补零的分析,指出补零操作是为了重构出冲激响应的N点采样序列(N表示总子载波数),并针对传统补零方法在一定条件下产生的重构误差,提出了一种新的补零方法。仿真结果表明以上理论分析是正确的,新补零方法可以减小一定条件下的重构误差,增强信道插值算法对信道延迟分布的鲁棒性,有效提高系统的性能。相似文献

9.

OFDM系统中基于补零DFT信道插值算法的研究

下载免费PDF全文

石峰胡登鹏王晨张尔扬《国防科技大学学报》2012,34(4)

针对OFDM系统中基于补零DFT实现信道插值的算法,对传统的时域方法和变换域方法进行了分析,并提出了一种新的补零方法。首先通过理论分析指出传统的基于补零DFT实现信道插值算法中,时域方法和变换域方法是等效的;通过对信道插值算法中冲激响应估计序列进行补零的分析,指出补零操作是为了重构出冲激响应的点采样序列( 表示总子载波数),并针对传统补零方法在一定条件下产生的重构误差,提出了一种新的补零方法。仿真结果表明以上理论分析是正确的,新补零方法可以减小一定条件下的重构误差,增强信道插值算法对信道延迟分布的鲁棒性,有效提高系统的性能。相似文献

10.

基于MPI+CUDA的异构并行可压缩流求解器

下载免费PDF全文

刘枫李桦田正雨潘沙《国防科技大学学报》2014,36(1):6-10

在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。相似文献

11.

一种基于HLA分布式仿真系统的动态负载平衡算法

李雪贾明永郭锐《指挥控制与仿真》2009,31(3):91-93

基于兴趣域的"快递式"动态负载平衡算法从HLA/RTI提供的服务出发,当节点成为重载节点时,将节点部分负载转移到兴趣域内的轻载节点上,同时采用两次"握手"方式解决了负载迁移过程中出现的问题.通过使用两个评价参数--CPU占有率和内存使用率进行实验证明,负载平衡前后重载节点的CPU利用率和内存使用率有明显差别,结果表明该方法能有效地平衡系统各节点之间的负载,保证系统的实时性,提高系统的服务质量. 相似文献

12.

异构千核处理器系统的统一内存地址空间访问方法

下载免费PDF全文

裴颂文 吴小东唐作其熊乃学《国防科技大学学报》2015,37(1):28-33

为了达到异构多核处理器能直接交叉访问对方的内存地址空间的目的,通过构建统一的三级Cache结构和数据块状态标记方法,并优化Cache块状态的修改算法,提出了异构千核处理器系统的统一内存地址空间访问方法,避免了当前独立式异构计算机系统结构下复制和传输数据块所带来的大量额外访存开销。通过采用部分Rodinia基准测试程序测试,获得了最高9.8倍的系统加速比,最多减少了90%的访存频率。因此,采用该方法能有效减少异构核心间交换数据块所带来的系统开销,提高异构千核处理器的系统性能加速比。相似文献

13.

GPU异构系统中的存储层次和负载均衡策略研究 总被引：2，自引：1，他引：1

马安国成玉唐遇星邢座程《国防科技大学学报》2009,31(5):38-43

GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域.通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系.针对GPU异构系统上的应用映射提出三种基本负载均衡优化策略:预取、流化、任务划分.试验结果揭示了不同的优化因子与优化效率之间的具体关联. 相似文献

14.

二维矩阵卷积在向量处理器中的设计与实现

下载免费PDF全文

张军阳郭阳《国防科技大学学报》2018,40(3):69-75

为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。相似文献

15.

Optimization of buckling load for laminated composite plates using adaptive Kriging-improved PSO: A novel hybrid intelligent method

Behrooz Keshtegar Trung Nguyen-Thoi Tam T.Truong Shun-Peng Zhu 《防务技术》2021,17(1):85-99

An effective hybrid optimization method is proposed by integrating an adaptive Kriging (A-Kriging) into an improved partial swarm optimization algorithm (IPSO) to give a so-called A-Kriging-IPSO for maxi-mizing the buckling load of laminated composite plates (LCPs) under uniaxial and biaxial compressions. In this method, a novel iterative adaptive Kriging model, which is structured using two training sample sets as active and adaptive points, is utilized to directly predict the buckling load of the LCPs and to improve the efficiency of the optimization process. The active points are selected from the initial data set while the adaptive points are generated using the radial random-based convex samples. The cell-based smoothed discrete shear gap method (CS-DSG3) is employed to analyze the buckling behavior of the LCPs to provide the response of adaptive and input data sets. The buckling load of the LCPs is maximized by utilizing the IPSO algorithm. To demonstrate the efficiency and accuracy of the proposed methodology, the LCPs with different layers (2, 3, 4, and 10 layers), boundary conditions, aspect ratios and load patterns (biaxial and uniaxial loads) are investigated. The results obtained by proposed method are in good agreement with the literature results, but with less computational burden. By applying adaptive radial Kriging model, the accurate optimal results-based predictions of the buckling load are obtained for the studied LCPs. 相似文献

16.

80286保护地址方式下数据块传输的实现和应用

下载免费PDF全文

周良柱毛进亮皇甫堪《国防科技大学学报》1992,14(1):46-49

80286CPU在保护地址方式下具有高达16M字节的存储器寻址能力,通过系统BIOS功能调用可以很方便地实现保护地址方式下的数据块传输。将这一功能应用到以286微机为主机的,要求高速、大容量数据采集和多个加速单元并行处理的信号处理系统设计时,可明显地提高系统性能。作者将此方法应用于一个实际系统的设计,取得了很好的效果。相似文献

17.

高精度CFD程序的内外子区域划分异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2):31-40

对计算流体力学(Computational Fluid Dynamics, CFD)程序CNS提出一种Offload模式下对任务内外子区域划分的异构并行算法,结合结构化网格下有限差分计算和四阶龙格-库塔方法的特点,引入ghost网格点区域,设计了一种ghost区域收缩计算策略,显著降低了异构计算资源之间的数据传输开销,负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠,提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数,分析了负载均衡的条件。在"CPU(Intel Haswell Xeon E5-2670 12 cores×2)+加速器(Xeon Phi 7120A×2)"的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升至5.9倍,较MPI/OpenMP两级并行算法使用24个纯CPU核的性能,该算法使用单加速器时加速至1.27倍,使用双加速器加速至1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献

18.

长向量处理器高效RNN推理方法

苏华友陈抗抗杨乾明《国防科技大学学报》2024,46(1):121-130

模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。相似文献

19.

基于内外子区域划分的高阶精度CFD程序异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2)

对计算流体力学(CFD)程序CNS提出一种Offload模式下基于内外子区域划分的异构并行算法，结合结构化网格下有限差分计算和四阶龙格库塔方法的特点，引入ghost网格点区域，设计了一种ghost区域收缩计算策略，显著降低了异构计算资源之间的数据传输开销，负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠，提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数，分析了负载均衡的条件。在“CPU(Intel Haswell Xeon E5-2670 12 cores ×2)＋加速器(Xeon Phi 7120A ×2)”的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升5.9倍，较MPI/OpenMP两级并行算法使用24个纯CPU核的性能，该算法使用单加速器时加速1.27倍，使用双加速器加速1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献