首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 46 毫秒
1.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

2.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

3.
为解决修复纹理精细、背景复杂图像中大面积不连续语义缺失时存在的边缘伪影和语义不连续的缺陷,提出一种并行生成卷积的残差连接图像修复算法。将残缺图像输入一个两列平行卷积的结构修复网络得到两个具有不同感受野大小的图像分量,通过共享解码合并两个图像分量并计算输出的L2损失优化网络。将结构修复网络的输出送入包含残差连接与注意力机制的细节修复网络,融合上下文信息,改善修复细节能力。使用全局与局部鉴别器和预训练视觉几何组网络计算损失,对修复网络进行整体判别优化,增强修复结果的整体与局部一致性。在国际公认数据库上验证提出算法的性能,实验结果表明:提出算法可以有效修复复杂背景且包含精细纹理的大面积不规则缺失区域,提升图像细节、语义和结构的真实性与完整性,其峰值信噪比和结构相似度优于经典的对比算法。  相似文献   

4.
针对多核集群系统所表现出的新的性能特征,提出了面向多核集群系统消息传递应用程序的并行模拟模型并设计、实现了一个并行模拟器MCPSim(Multi-core Cluster Parallel Simulator),MCPSim在功能模型和性能模型上体现了片内核间、结点内片间以及结点间等三个层次上消息通信的特点,同时支持对应用的消息数量、通信量等的百分比分布的profiling功能,采用PRIMEJ、acobi3D、NPB IS以及HPL等Benchmark程序对MCPSim进行了测试,结果表明MCPSim性能预测的精度优于BigSim,同时能够广泛应用于针对多核集群系统消息传递应用程序的性能分析中。  相似文献   

5.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   

6.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

7.
分析了多核环境下传统的离散事件时间弯曲并行系统的性能,针对其事件调度开销小和负载均衡能力强难以兼得的问题,提出了一种基于分布式队列的全局调度机制,设计了相应的数据结构和调度算法,大大减少了锁开销.通过大量实验对多核环境下几种典型离散事件系统并行策略的性能分析表明,本文提出的全局调度策略不仅事件调度开销小,而且回滚率大大降低,有效克服了传统策略回滚量较大或难以实现动态负载平衡的情况,并具备良好的可扩展性.  相似文献   

8.
多DSP并行的神经网络集成目标识别法   总被引:1,自引:0,他引:1  
针对分布式信息融合结构、异质传感器条件下的目标识别问题,提出了基于多DSP并行结构的神经网络集成目标识别方法.给出了生成神经网络集成的具体方法,并构造了一个实际的空中目标识别硬件系统.结果表明,系统的目标识别性能明显优于单个神经网络的目标识别性能,且识别目标的速度很快.  相似文献   

9.
随着计算机多核处理器的高速发展,多核并行计算在各领域发展研究的重要性已逐渐突显,分析了当前典型的并行编程模型,在PCAM设计过程的基础上提出了多核并行算法的设计过程,运用OpenMP编程模型完成了一种目标分配算法的多核并行化设计,通过实验及性能分析,验证了并行目标分配算法相较于传统串行算法在计算效率上的优势。  相似文献   

10.
为了实现模型的实时和嵌入式运行,提出了一种轻量级的卷积神经网络结构。通过采用较小的滤波器尺寸和引入深度可分离卷积,可大量减少模型参数,提高模型非线性表达能力;在网络末端引入子像素卷积层,直接从原始低分辨率图像学习到高分辨率图像的映射,计算成本为原来的1/k2(k为放大因子)。在Set5数据集上的实验表明,所提模型的速度较经典的图像超分辨率重建算法速度提高了25.8倍,能够在通用GPU上实时运行,峰值信噪比平均提高了0.17 dB,并且参数只有它的35%。  相似文献   

11.
一种面向多核处理器的高效并行PCA-SIFT算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种面向多核处理器的并行PCA-SIFT算法,采用数据级并行方法实现并行的特征提取和特征点匹配,将计算任务分配到各个DSP核并行处理,充分开发多核处理器的多级并行性.实验结果表明,并行PCA-SIFT算法对各种不同图像形变的图像具有良好的适应性,具有接近串行PCA-SIFT算法的图像匹配能力,平均加速比达3.12.  相似文献   

12.
根据多核DSP的应用特点,介绍了一种面向异构多核DSP的数据流传输控制引擎(DSTCE)的结构与设计,并实现了基于DSTCE的数据流前瞻传输技术.该技术以可编程的DSTCE模块为核心,实现了超节点内各个端口之间以及超节点之间的高效数据流传输,而且将传输过程与多核间的数据前瞻和编程模型有机结合起来.该技术避免了复杂的Cache一致性问题,显著提高了大规模多核DSP计算与访存的并行性.实验结果表明,采用DSTCE的多核DSP单个超节点的性能平均提高了22%,两个超节点情况下基于DSTCE结构的系统比基于CC-NUMA结构的系统性能平均提高了14%.  相似文献   

13.
互连网络是大规模并行计算机的重要组成部分,路由算法是其中决定网络性能的重要因素,本文在直接网络结构基础上对路由算法进行讨论,给出了一种分类方法,并着重对采用虫孔路由开关技术的自适应路由算法进行分析,为进一步的评价和设计新的算法提供了参考。  相似文献   

14.
为了满足JPEG2000遥感图像实时压缩设备的实时性要求,提出了一种基于并行机制的“零时间”数据搬移策略。通过对EBC算法结构进行拆分,并采用EDMA方式进行数据搬移,使得算法运算与数据搬移过程完全并行,搬移时间等效为零。实验结果表明,采用新的数据搬移策略后,编码效率可以提升到100%,EBC算法实现的总时间可缩短46%以上。该搬移机制已成功应用于JPEG2000星载遥感图像实时压缩系统中,系统的实时性达到了设计要求。  相似文献   

15.
本文介绍了巨型机通用数学库软件的概念和意义,指出了巨型机数学软件开发的技术途径与发展趋势,讨论了并行算法在其中的关键性作用,结合实例分析了巨型机通用数学库软件研制中的并行算法设计与实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号