首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
MPP虚拟多机系统是一个特殊的PVM系统,本文阐述了MPP虚拟多机系统的系统结构和实现技术,并对MPP虚拟机的性能进行了初步测试和分析。  相似文献   

2.
本文讨论微任务技术及其在多机系统上的实现。微任务技术使得一个程序能在循环和语句块一级并行执行,它的显著特点是系统开销较小、效率较高,适应于小粒度并行。  相似文献   

3.
RNA二级结构预测是生物信息学领域重要的研究方向,基于最小自由能模型的Zuker算法是目前该领域最典型使用最广泛的算法之一。本文基于CPU GPU的混合计算平台实现了对Zuker算法的并行和加速。根据CPU和GPU计算性能的差异,通过合理的任务分配策略,实现二者之间的并行协作计算和处理单元间的负载平衡;针对CPU和GPU的不同硬件特性,对Zuker算法在CPU和GPU上的实现分别采取了不同的并行优化方法,提高了混合加速系统的计算性能。实验结果表明,CPU处理单元在混合系统中承担了14%以上的计算任务,与传统的多核CPU并行方案相比,采用混合并行加速方法可获得15.93的全局加速比;与最优的单纯GPU加速方案相比,可获得16%的性能提升,并且该混合计算方案可用于对其它生物信息学序列分析应用的并行和加速。  相似文献   

4.
随着电路规模的迅速增长,设计验证越来越复杂,从而需要高速的数据处理系统。基于总线型多机系统环境,研究电路网表和布尔表达式的BDD(Binary Decision Diagram)并行构造方法,并通过隐含遍历任务的动态调度设计有效地完成时序逻辑的状态遍历。  相似文献   

5.
本文介绍了由三台MC68020微计算机组成的多机系统,在这个系统上实现了地空型号导弹运动的实时计算。  相似文献   

6.
用拼接法划分网格,并运用基于消息传递的并行软件平台PVM分配计算任务,实现了较大规模的三维超声速钝头体底部流场的并行数值模拟。结果表明,底部压强特性与实验符合较好,流场的拓扑结构合理。  相似文献   

7.
并行计算机是计算机科学发展的必然趋势,当前研究并行计算机在网络系统中实现资源共享,推广并行计算机的应用是一个非常粗意义的课题。本论文介绍并行加速机网络操作系统的研究成果。该操作系统已经成功地实现了基于Transputer的PA-100并行加速机的在局网上,支持多用户的作业级并行处理和任务级并行处理。  相似文献   

8.
一种面向多核处理器的高效并行PCA-SIFT算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种面向多核处理器的并行PCA-SIFT算法,采用数据级并行方法实现并行的特征提取和特征点匹配,将计算任务分配到各个DSP核并行处理,充分开发多核处理器的多级并行性.实验结果表明,并行PCA-SIFT算法对各种不同图像形变的图像具有良好的适应性,具有接近串行PCA-SIFT算法的图像匹配能力,平均加速比达3.12.  相似文献   

9.
高超声速乘波飞行器三维流场的并行数值模拟   总被引:2,自引:1,他引:2       下载免费PDF全文
针对高超声速乘波飞行器三维绕流流场,在基于LINUX+MPI系统的分布式并行计算平台上,并行求解了三维雷诺平均的N-S方程。并行数值方法采用的是有限体积方法(FVM)、OC-TVD差分格式、B-L代数湍流模型及流场分区的并行方法。计算结果表明,所采用的并行数值模拟方法能够求解包含强激波的流场,激波穿越区域边界时无断层、错位等通量不守恒的现象。并行计算效率高,8个处理机计算时的并行加速比达到了6 8。  相似文献   

10.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。  相似文献   

11.
可扩充性分析是评价并行算法或并行系统性能的重要工作,特别是在大规模并行处理环境下更是如此。本文利用新近提出的扩张串行分量分析技术,研究了三个并行排序算法的可扩充性,以及这些算法在超立方体结构上的实现的可扩充性。给出了使三种算法都为可扩充的条件,解释了每个算法的适用范围。展示了算法的实质性质,计算了它们的扩张串行分量、扩张效率以及扩张加速比。本文的解析分析结果与其它文献中的实验结果一致。  相似文献   

12.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

13.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

14.
The problem of minimizing mean flow time of two parallel processors is discussed. Prior results are briefly reviewed. A dynamic programming algorithm is presented which minimizes mean flow time for a set of n preordered jobs on two nonequivalent parallel processors. The algorithm is illustrated with an example problem. The computational experience is presented which illustrates the efficiency of the algorithm.  相似文献   

15.
The problem of sequencing jobs on parallel processors when jobs have different available times, due dates, penalty costs and waiting costs is considered. The processors are identical and are available when the earliest job becomes available and continuously thereafter. There is a processor cost during the period when the processor is available for processing jobs. The proposed algorithm finds the sequence (or sequences) with minimum total cost (sum of waiting, penalty and processor costs.). A proof of the algorithm and numerical results are given.  相似文献   

16.
基于有限体积方法、TVD差分格式和显式Runge-Kutta迭代方法的框架,针对超声速/高超声速飞行器绕流流场,在超级并行计算机上完成了2~64个CPU并行数值计算工作。通过测试程序在超级计算机上的并行效率,并将并行程序应用于航天飞机绕流流场计算,检验了计算程序进行大规模并行计算的性能。结果表明,在负载平衡的条件下,程序在该超级并行计算机上达到了不同程度的超线性加速比,并行效率最高达到了126%,远远高于微机Cluster并行平台上的结果,适合复杂流场的大规模并行计算。  相似文献   

17.
根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。  相似文献   

18.
随着计算机多核处理器的高速发展,多核并行计算在各领域发展研究的重要性已逐渐突显,分析了当前典型的并行编程模型,在PCAM设计过程的基础上提出了多核并行算法的设计过程,运用OpenMP编程模型完成了一种目标分配算法的多核并行化设计,通过实验及性能分析,验证了并行目标分配算法相较于传统串行算法在计算效率上的优势。  相似文献   

19.
随着线路传输速率的快速提高,报文线速转发面临极大挑战。基于并行处理技术,提出分布式并行转发引擎结构,实现高速报文转发。针对并行转发引擎负载分配问题,设计AHDA(Adaptive Hashing DispatchAlgorithm)算法,该算法为综合考虑负载均衡和报文保序提供支持。模拟结果表明,AHDA算法均匀分配负载,保证很低的报文乱序率,对网络处理器规模具有良好的可扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号