期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘枫李桦田正雨潘沙《国防科技大学学报》2014,36(1):6-10

在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。相似文献

2.

面向应用的分布式多机联合计算的系统设计问题

下载免费PDF全文

凌云翔党岗史扬金士尧《国防科技大学学报》1999,21(4):79-82

随着计算机应用向分布和异构发展，如何建立一个具有良好性能价格比的分布式多机联合计算系统是当前计算机应用开发者遇到的重要课题。文中结合分布式仿真应用实例，对多计算机联合计算的系统划分、数据通讯机制和高性能并行计算问题进行了论述。相似文献

3.

高性能异构加速器MiniGo算子优化方法

下载免费PDF全文

乔鹏贺周雨李荣春姜晶菲《国防科技大学学报》2024,46(1):131-140

根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。相似文献

4.

基于分布对象的高性能异步回调模型 总被引：3，自引：0，他引：3

下载免费PDF全文

张小明吴泉源贾焰《国防科技大学学报》2001,23(3):77-82

分布对象技术是分布异构环境下软件开发和系统集成的良好解决方案 ,然而在高性能分布计算领域 (如分布事务处理、分布交互仿真和分布并行计算 ) ,传统调用模型在异步特性方面的不足限制了分布对象技术在该领域的应用。因此 ,文章介绍一个新的基于分布对象的异步回调模型 ,着重探讨了该模型的定义、关键实现技术、优化策略和性能测试。相似文献

5.

基于GPU的弹道快速计算方法

左军涛朱恩成黄四牛周武《火力与指挥控制》2012,37(9):193-197

针对目前飞行器航迹规划中弹道计算量大、耗时长的问题,结合GPU大规模并行计算特性,提出了一种基于GPU的弹道快速计算方法.该方法以4阶Runge-Kutta (R-K)法为基础求解弹道微分方程组,通过计算资源的分配、数据流分段将弹道计算任务映射到GPU线程模型,利用CPU加GPU异构模型的数据流控制能力,实现上千条弹道的并行计算;实验表明该方法计算精度满足要求,并获得几十倍理想加速效果;也为航迹规划系统其他大规模并行计算提供了新的解决思路. 相似文献

6.

并行计算的数据重分配

下载免费PDF全文

孙安香张理论宋君强《国防科技大学学报》2002,24(4):33-36

为提高算法的并行计算性能 ,许多并行程序必须进行数据重分配。数据重分配是在并行计算过程中实现的 ,其开销影响算法的并行性能 ,高效的数据重分配对提高并行计算的性能有重要意义。本文阐述了数据重分配的环形算法 ;提出了数据重分配的蝶网算法 ,并证明了其正确性 ;设计了结构性数据交换方法 ;通过理论和数值实验分析了两种算法的性能相似文献

7.

一种面向移动Agent的多任务并行计算模型及算法

韩国栋王嘉祯《军械工程学院学报》2006,18(4):64-66

介绍了一种面向移动Agent的并行计算模型,给出了采用十标度策略解决任务排序,采用满射策略解决任务映射的算法。该模型允许多个计算任务在异构主机构成的分布式环境下同时进行计算,并且通过算法优化,降低移动Agent之间的通信成本,减少网络流量。相似文献

8.

栅格数据处理中邻域型算法的并行优化方法 总被引：1，自引：1，他引：0

下载免费PDF全文

程果景宁陈荦熊伟欧阳柳《国防科技大学学报》2012,34(4):114-119

随着并行计算的成熟,众多数据密集型的栅格处理算法亟需利用并行计算来缩减执行时间.针对其中一类邻域型算法,构建了用于估计是时间代价的串行/并行时域模型,分析了各个组成的代价影响因素,提出了降低数据I/O代价的并行I/O方法和降低数据通信代价的光圈预测方法.实验证明,所提的两个优化方法可以使邻域型栅格处理算法的并行程序更加充分地利用并行计算资源,进而在一般并行化的基础上进一步提升其并行性能. 相似文献

9.

非结构动网格分区并行计算方法

下载免费PDF全文

程兴华刘巍张理论《国防科技大学学报》2017,39(1):81-85

针对包含运动边界的非定常流动问题,基于弹簧近似法设计了一套非结构动网格分区并行计算流程,引入了METIS软件进行非结构网格二次剖分,研究了对接边界通信类型及其处理方法,基于消息传递并行编程模式实现了非结构动网格求解器的并行化。测试结果表明:该求解器具有较高的并行效率,网格变形模块对非结构动网格并行计算性能具有重要影响。相似文献

10.

基于栅格分层的逐栅格汇流算法并行化研究 总被引：2，自引：2，他引：0

下载免费PDF全文

刘军志朱阿兴刘永波秦承志陈腊娇吴辉杨琳《国防科技大学学报》2013,35(1):123-129

分布式水文模型中的逐栅格汇流算法计算量大,需要借助并行计算以满足大流域长历时模拟的要求。针对目前鲜有对基于隐式有限差分的逐栅格汇流算法进行并行计算研究的情况,基于栅格分层的思想提出一种适用于共享内存并行计算环境的逐栅格汇流并行算法。该算法首先根据流向进行栅格分层,使同一层中栅格的计算相互独立,然后将同一层中栅格的计算任务分配到多个计算单元并行计算。采用C++编程语言与OpenMP并行编程库实现了该算法,并选择河北省清水河流域为实验区,在不同数据规模(30m、90m、270m分辨率)、不同核数(2～20个)以及不同栅格分层方法的情况下对算法性能进行了测试。实验结果表明本文提出的并行算法具有较好的加速比和并行效率,且并行效率随数据规模的增大而增大。栅格分层方法对算法并行性能有明显影响,从上到下的分层方法比从下到上的方法具有更高的并行效率。相似文献

11.

(2015GIS)北斗静止轨道卫星信号盲区快速并行解算方法

下载免费PDF全文

郭甲腾《国防科技大学学报》2015,37(5)

北斗系统静止轨道卫星信号盲区解算方法复杂、串行计算耗费时间长,需在并行环境下利用更多的计算资源进行北斗盲区的快速解算。本文在分析北斗盲区解算原理与算法并行特征基础上,提出了基于动态盲区影响域的并行解算方法,并以栅格单元为并行粒度进行任务划分,实现了北斗盲区的高效并行解算。基于全国范围59景数字高程模型数据,利用8进程进行盲区并行解算,耗费时间约为5小时。实验测试结果表明：算法的并行效率随着进程数的增加有所衰减,但稳定在96%以上。基于本文方法实现的程序中间件已集成应用于高性能地理信息平台中,应用效果良好。相似文献

12.

分布式并行地形分析中数据划分机制研究 总被引：1，自引：0，他引：1

下载免费PDF全文

宋效东窦万峰汤国安江岭赵菁赵明伟《国防科技大学学报》2013,35(1):130-135

数据粒度是海量空间数据并行计算的重要问题之一。通过对不同性质的并行算法的对比分析,提出空间数据粒度模型,量化地反映并行地形分析中数据划分的规模,建立并行数据粒度评价模型。通过研究集群环境下不同算法的数据并行数据粒度问题,提出基于并行数据粒度评价模型的优化数据粒度调度算法。通过计算每一次并行计算的时间与数据粒度效率,从而实现对计算数据粒度动态更新以追求更高的加速比。经过实验验证,该算法较之传统算法,可提供更高的任务执行效率并具有更好的可移植性。相似文献

13.

一种基于多核并行计算的目标分配算法设计

丁晓刚鲍广宇胥秀峰《指挥控制与仿真》2014,36(5)

随着计算机多核处理器的高速发展,多核并行计算在各领域发展研究的重要性已逐渐突显,分析了当前典型的并行编程模型,在PCAM设计过程的基础上提出了多核并行算法的设计过程,运用OpenMP编程模型完成了一种目标分配算法的多核并行化设计,通过实验及性能分析,验证了并行目标分配算法相较于传统串行算法在计算效率上的优势。相似文献

14.

差分离散方法分布式并行计算的重叠边界优化

下载免费PDF全文

张理论叶红孙安香李晓梅《国防科技大学学报》2000,22(5):64-67

针对分布式存储环境下显式差分方法的并行计算问题 ,依据分布式存储多处理机的体系结构特点 ,提出了一个重叠边界优化模型 ;该模型目前已成功应用于中国科学院第三代海洋环流模式的分布式并行计算优化。相似文献

15.

Modeling and analysis of a mixed‐model assembly line with stochastic operation times

Xiaobo Zhao Jianyong Liu Katsuhisa Ohno Shigenori Kotani 《海军后勤学研究》2007,54(6):681-691

We consider a mixed‐model assembly line (MMAL) comprised a set of workstations and a conveyor. The workstations are arranged in a serial configuration. The conveyor moves at a constant speed along the workstations. Initial units belonging to different models are successively fed onto the conveyor, and they are moved by the conveyor to pass through the workstations to gradually generate final products. All assembling tasks are manually performed with operation times to be stochastic. An important performance measure of MMALs is overload times that refer to uncompleted operations for operators within their work zones. This paper establishes a method to analyze the expected overload times for MMALs with stochastic operation times. The operation processes of operators form discrete time nonhomogeneous Markov processes with continuous state spaces. For a given daily production schedule, the expected overload times involve in analyzing the Markov processes for finite horizon. Based on some important properties of the performance measure, we propose an efficient approach for calculating the expected overload times. Numerical computations show that the results are very satisfactory. © 2007 Wiley Periodicals, Inc. Naval Research Logistics, 2007 相似文献

16.

多光源并行化算法的实现

张薇薇杨怿菲《火力与指挥控制》2016,(3):111-115

针对在绘制具有真实感的图形中光照处理模块串行处理速度慢的问题,提出多光源光照算法的并行化,采用负载均衡的并行策略,重新优化计算模型,单独计算环境光、散射光、镜面光及衰减因子后叠加在一起。计算不同的PE(处理单元)个数使用了不同的分配方案来提高处理速度。实验结果表明,将多光源光照算法并行化,可充分利用资源,发挥多核处理器的处理能力,提高了资源利用率。相似文献

17.

基于内外子区域划分的高阶精度CFD程序异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2)

对计算流体力学(CFD)程序CNS提出一种Offload模式下基于内外子区域划分的异构并行算法，结合结构化网格下有限差分计算和四阶龙格库塔方法的特点，引入ghost网格点区域，设计了一种ghost区域收缩计算策略，显著降低了异构计算资源之间的数据传输开销，负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠，提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数，分析了负载均衡的条件。在“CPU(Intel Haswell Xeon E5-2670 12 cores ×2)＋加速器(Xeon Phi 7120A ×2)”的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升5.9倍，较MPI/OpenMP两级并行算法使用24个纯CPU核的性能，该算法使用单加速器时加速1.27倍，使用双加速器加速1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献