首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 102 毫秒
1.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。  相似文献   

2.
影响应用I/O性能的关键因素主要有三个层次:包括应用的I/O接口实现、体系结构和文件系统组件的性能以及应用的I/O参数配置。从应用I/O配置优化的视角,分析了大规模集群并行I/O的配置调优空间,在此基础上,给出了一套大规模集群并行I/O性能特征测试分析方法。基于该方法,在某国产超级计算集群上开展了一系列I/O测试分析来刻画系统的I/O性能特征,进而指导并行应用程序的I/O配置优化。基于优化后的配置参数,在两类典型的并行I/O场景中,针对某类生产应用程序,8192进程下的重启动数据写操作时间下降了15%,4096核的程序作业加载时间从10 min缩短到了5 s。  相似文献   

3.
近年来,大规模并行场景下的I/O性能越来越受到应用科学家的关注。影响应用I/O性能的关键因素主要有三个层次:包括应用的I/O接口实现、体系结构和文件系统组件的性能以及应用的I/O参数配置。本文从应用I/O配置优化的视角,分析了大规模集群并行I/O的配置调优空间,在此基础上,给出了一套大规模集群并行I/O性能特征测试分析方法,基于该方法,在某国产超级计算集群上开展了一系列I/O测试分析来刻画系统的I/O性能特征,进而指导并行应用程序的I/O配置优化。基于优化后的配置参数,在两类典型的并行I/O场景中,针对某类生产应用程序,8192进程下的重启动数据写操作时间下降了15%,4096核的程序作业加载时间从10分钟缩短到了5s。本文提出的I/O配置调优空间及优化方法,可以推广应用到其它同类系统平台,对于大规模集群上的用户层并行I/O配置调优具有借鉴意义。  相似文献   

4.
随着计算机多核处理器的高速发展,多核并行计算在各领域发展研究的重要性已逐渐突显,分析了当前典型的并行编程模型,在PCAM设计过程的基础上提出了多核并行算法的设计过程,运用OpenMP编程模型完成了一种目标分配算法的多核并行化设计,通过实验及性能分析,验证了并行目标分配算法相较于传统串行算法在计算效率上的优势。  相似文献   

5.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

6.
针对标准LDPC码译码中洪水消息传递机制的不足,提出以串行机制进行消息传递,按照变量节点的顺序进行消息处理和传递,对每个变量节点同时接收校验消息和发送变量消息。该方法使更新的消息能够很快进入当前迭代计算,改善了LDPC迭代译码的收敛性能。通过对几种常用译码算法的仿真比较,验证了在复杂度不增加的情况下,该方法性能优于其它几种最大后验概率准则的译码方法,且算法收敛快,是一种能较好兼顾性能与实现复杂度的译码方法。  相似文献   

7.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

8.
研究了JMS发布/订阅消息传递模式的工作机制,分析了JMS在对事件进行匹配时的过滤算法,针对该算法的不足提出了采用公平谓词法来改进JMS的消息过滤速度,改进方法对基于JMS的发布/订阅应用程序的开发具有一定的指导意义。  相似文献   

9.
改进的光滑粒子方法在模拟激光对树脂基复合材料的辐照效应时具有明显优势,但串行计算通常难以满足需求。为了提高程序的运行效率,基于消息传递界面并行编程环境实现了串行程序的并行化。将个人电脑完成的串行计算结果与峰值5万亿次的计算机集群完成的并行计算结果进行了比较,并对并行程序的加速比和并行效率进行了测试。数值计算表明,并行计算结果与串行计算结果一致,且并行效果显著,说明基于消息传递界面的并行化是成功的。  相似文献   

10.
多核环境下负载均衡的并行离散事件全局调度机制   总被引:1,自引:1,他引:0       下载免费PDF全文
分析了多核环境下传统的离散事件时间弯曲并行系统的性能,针对其事件调度开销小和负载均衡能力强难以兼得的问题,提出了一种基于分布式队列的全局调度机制,设计了相应的数据结构和调度算法,大大减少了锁开销.通过大量实验对多核环境下几种典型离散事件系统并行策略的性能分析表明,本文提出的全局调度策略不仅事件调度开销小,而且回滚率大大降低,有效克服了传统策略回滚量较大或难以实现动态负载平衡的情况,并具备良好的可扩展性.  相似文献   

11.
RNA二级结构预测是生物信息学领域重要的研究方向,基于最小自由能模型的Zuker算法是目前该领域最典型使用最广泛的算法之一。本文基于CPU GPU的混合计算平台实现了对Zuker算法的并行和加速。根据CPU和GPU计算性能的差异,通过合理的任务分配策略,实现二者之间的并行协作计算和处理单元间的负载平衡;针对CPU和GPU的不同硬件特性,对Zuker算法在CPU和GPU上的实现分别采取了不同的并行优化方法,提高了混合加速系统的计算性能。实验结果表明,CPU处理单元在混合系统中承担了14%以上的计算任务,与传统的多核CPU并行方案相比,采用混合并行加速方法可获得15.93的全局加速比;与最优的单纯GPU加速方案相比,可获得16%的性能提升,并且该混合计算方案可用于对其它生物信息学序列分析应用的并行和加速。  相似文献   

12.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   

13.
针对传统的并行级联低密度奇偶校验码(PCGC)译码算法采用串行算法导致译码延迟大,难以在实时通信系统中应用的问题,提出了一种新颖的PCGC码译码算法,该算法通过对各子码进行并行消息迭代,对相同的信息位进行变量消息联合更新,实现了PCGC码的并行译码。理论分析和仿真结果表明,提出的PCGC码译码算法相较于传统译码算法译码延迟降低,信噪比较低时误码率性能弱于后者,信噪比较高时,误码率性能优于后者。  相似文献   

14.
THERESEARCHANDIMPLEMENTATIONOFCOMBININGLOGICWITHOBJECTORIENTEDPARADIGMZhouLi;WuQuanyuan(DepartmentofComputerScience,NUDT,Chan...  相似文献   

15.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

16.
在并行离散事件仿真系统中实现仿真模型间的互操作机制需要引入类似HLA中定义的声明管理(DM)和数据分发管理(DDM)服务.我们开发的KD-PADSE高性能并行离散事件仿真环境采用谓词断言和对象代理方法在面向对象的并行离散事件仿真系统中实现了基于平行结构和事件调度机制的声明管理(DM)和数据分发管理(DDM)服务.在以千兆以太网互联的10节点Linux集群计算机上,采用DDM机制后仿真模型每秒(物理时间)可以进行1万次属性更新,是没有采用DDM机制时的20倍,在功能性和性能上验证了该DDM机制在并行离散事件仿真系统中的适用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号