首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 108 毫秒
1.
针对在绘制具有真实感的图形中光照处理模块串行处理速度慢的问题,提出多光源光照算法的并行化,采用负载均衡的并行策略,重新优化计算模型,单独计算环境光、散射光、镜面光及衰减因子后叠加在一起。计算不同的PE(处理单元)个数使用了不同的分配方案来提高处理速度。实验结果表明,将多光源光照算法并行化,可充分利用资源,发挥多核处理器的处理能力,提高了资源利用率。  相似文献   

2.
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。  相似文献   

3.
针对复杂红外图像的背景抑制问题,提出了一种双预测结构融合的复杂红外图像背景抑制算法.算法以图像中每个像素为中心,在其局部区域内根据灰度相似程度和空间分布相关性计算像素的核值相似程度,然后根据核值相似程度有侧重地融合两种不同结构的空间滤波器的输出作为最终的预测结果,最后将原始图像与预测图像相减完成背景抑制.实验结果表明,本文提出的算法能够较好地抑制不同红外图像中的复杂背景,算法结构简单,具有较强的应用价值.  相似文献   

4.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

5.
高性能计算机的快速发展为数值模拟提供了必需的硬件环境,数值模拟领域对网格的需求已高达数十亿到数百亿量级,而网格生成作为数值模拟的重要一环,其发展则相对滞后,很难满足并行数值模拟求解器对大规模网格的需求。本文面向复杂几何模型提出一种多级并行四面体网格生成算法,该算法首先基于模型的几何特征建立网格的尺寸场,并基于尺寸场和几何实体间的邻接关系对几何实体进行分组,将分组后的几何实体分配到不同的计算节点,在计算节点间采用前沿推进法实现三角形面网格的并行生成,然后在计算节点内对三角形面网格进行二级区域分解,将分解后的子网格分配到各进程中,最后在进程内采用多线程并行方法实现四面体网格的并行生成。通过实际应用三峡大坝模型进行验证,该算法具有良好的并行效率和可扩展性,可以在数千处理器核上实现十亿规模高质量四面体网格的并行生成。  相似文献   

6.
UWB-SAR系统较之常规SAR系统,成像所需计算量更为庞大,实时处理的实现更难.通过将子孔径思想应用于BP算法,给出了一种实用的实时成像算法(LocalBP算法),该算法同BP算法相比,成N×N点的图像,运算量可减少,同时该算法具有良好的并行及流水实现结构.  相似文献   

7.
随着线路传输速率的快速提高,报文线速转发面临极大挑战。基于并行处理技术,提出分布式并行转发引擎结构,实现高速报文转发。针对并行转发引擎负载分配问题,设计AHDA(Adaptive Hashing DispatchAlgorithm)算法,该算法为综合考虑负载均衡和报文保序提供支持。模拟结果表明,AHDA算法均匀分配负载,保证很低的报文乱序率,对网络处理器规模具有良好的可扩展性。  相似文献   

8.
利用松弛密码架构将Merkle-Damgrd结构的Hash算法扩展为并行结构的算法,可以利用多核处理器提高杂凑效率。给出的证明过程表明松弛密码架构在处理不同长度的消息时不具备抗碰撞特性。提出的新并行扩展算法基于松弛密码架构设计,该算法弥补了其安全缺陷,并给出了新并行Hash结构的安全性分析。分析结果表明新结构抗碰撞特性不低于Merkle-Damgrd结构的Hash算法。实验结果表明,新并行Hash结构处理长消息时有较高的处理性能。  相似文献   

9.
为了满足JPEG2000遥感图像实时压缩设备的实时性要求,提出了一种基于并行机制的"零时间"数据搬移策略.通过对EBC算法结构进行拆分,并采用EDMA方式进行数据搬移,使得算法运算与数据搬移过程完全并行,搬移时间等效为零.实验结果表明,采用新的数据搬移策略后,编码效率可以提升到100%.EBc算法实现的总时间可缩短46%以上.该搬移机制已成功应用于JPEG2000星载遥感图像实时压缩系统中,系统的实时性达到了设计要求.  相似文献   

10.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

11.
HLA仿真中,数据分发管理实现基于值的过滤,可以有效减少盟员接收冗余数据的可能性和网络中的数据流量。大规模HLA仿真系统在仿真推进中需要大量的区域匹配计算以维护数据分发管理的正确性。现有的区域匹配算法大多需要对所有区域进行匹配计算,造成了大量计算资源的浪费;同时,主要基于串行匹配思想,难以充分发挥多核平台的并行计算优势。针对现有区域匹配算法的局限性,提出了一种面向大规模HLA仿真的并行区域匹配算法,该算法能够实现对一次仿真推进中多个改变区域的并行匹配计算,同时在匹配计算中采用基于移动相交的基本思想,利用区域范围移动前后的历史信息,将匹配限定在移动区间之内,减少了大量的无关计算。理论分析与实验结果表明该算法尤其适合基于多核计算平台构建大规模分布式仿真的应用需求。  相似文献   

12.
随着计算机多核处理器的高速发展,多核并行计算在各领域发展研究的重要性已逐渐突显,分析了当前典型的并行编程模型,在PCAM设计过程的基础上提出了多核并行算法的设计过程,运用OpenMP编程模型完成了一种目标分配算法的多核并行化设计,通过实验及性能分析,验证了并行目标分配算法相较于传统串行算法在计算效率上的优势。  相似文献   

13.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。  相似文献   

14.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   

15.
RNA二级结构预测是生物信息学领域重要的研究方向,基于最小自由能模型的Zuker算法是目前该领域最典型使用最广泛的算法之一。本文基于CPU GPU的混合计算平台实现了对Zuker算法的并行和加速。根据CPU和GPU计算性能的差异,通过合理的任务分配策略,实现二者之间的并行协作计算和处理单元间的负载平衡;针对CPU和GPU的不同硬件特性,对Zuker算法在CPU和GPU上的实现分别采取了不同的并行优化方法,提高了混合加速系统的计算性能。实验结果表明,CPU处理单元在混合系统中承担了14%以上的计算任务,与传统的多核CPU并行方案相比,采用混合并行加速方法可获得15.93的全局加速比;与最优的单纯GPU加速方案相比,可获得16%的性能提升,并且该混合计算方案可用于对其它生物信息学序列分析应用的并行和加速。  相似文献   

16.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

17.
针对目前大多数多核处理器任务分配优化算法没有考虑关键路径上节点对任务完成时间的重要影响,导致任务完成总时间延迟的问题,提出了基于关键路径和任务复制(CPTD)的单任务调度算法。CPTD算法通过复制任务图中fork节点的方式将任务图转化为与之相对应的产品加工树;再在生成的产品加工树中找到关键路径,并采取使关键路径上节点的紧前节点尽早调度的方式,使关键路径上节点尽早开始执行,进而使产品加工树中节点完成时间得以提前,达到缩短任务执行总时间的目的。理论分析表明,CPTD算法能够实现应用程序在多核上充分并行处理,并能缩短任务完成时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号