首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种面向多核处理器的高效并行PCA-SIFT算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种面向多核处理器的并行PCA-SIFT算法,采用数据级并行方法实现并行的特征提取和特征点匹配,将计算任务分配到各个DSP核并行处理,充分开发多核处理器的多级并行性.实验结果表明,并行PCA-SIFT算法对各种不同图像形变的图像具有良好的适应性,具有接近串行PCA-SIFT算法的图像匹配能力,平均加速比达3.12.  相似文献   

2.
针对SAR成像处理具有的内在并行性,提出了一种基于GPU的SAR成像层次化并行处理方法。首先分析了SAR成像处理过程中信号的并行性,对任务进行了层次化分解与组合,设计了层次化并行的CS成像算法;然后通过CUDA编程将并行成像算法映射到CPU+GPUs系统平台上,实现了层次化并行成像处理;为了检验并行处理效果,采用原始数据进行了SAR成像处理实验。实验结果表明,在几乎没有损失图像质量的情况下,层次化并行处理获得了较高的加速比。  相似文献   

3.
负载平衡是并行处理中的一个重要概念。参与一个程序执行的各处理机所承担的工作量是否均衡直接影响该程序的并行性能。本文对面向MPP系统程序循环级并行化中负载平衡的优化进行了探讨,提出了优化策略及其实施算法。  相似文献   

4.
可扩充性分析是评价并行算法或并行系统性能的重要工作,特别是在大规模并行处理环境下更是如此。本文利用新近提出的扩张串行分量分析技术,研究了三个并行排序算法的可扩充性,以及这些算法在超立方体结构上的实现的可扩充性。给出了使三种算法都为可扩充的条件,解释了每个算法的适用范围。展示了算法的实质性质,计算了它们的扩张串行分量、扩张效率以及扩张加速比。本文的解析分析结果与其它文献中的实验结果一致。  相似文献   

5.
RNA二级结构预测是生物信息学领域重要的研究方向,基于最小自由能模型的Zuker算法是目前该领域最典型使用最广泛的算法之一。本文基于CPU GPU的混合计算平台实现了对Zuker算法的并行和加速。根据CPU和GPU计算性能的差异,通过合理的任务分配策略,实现二者之间的并行协作计算和处理单元间的负载平衡;针对CPU和GPU的不同硬件特性,对Zuker算法在CPU和GPU上的实现分别采取了不同的并行优化方法,提高了混合加速系统的计算性能。实验结果表明,CPU处理单元在混合系统中承担了14%以上的计算任务,与传统的多核CPU并行方案相比,采用混合并行加速方法可获得15.93的全局加速比;与最优的单纯GPU加速方案相比,可获得16%的性能提升,并且该混合计算方案可用于对其它生物信息学序列分析应用的并行和加速。  相似文献   

6.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。  相似文献   

7.
本文采用区域分割技术和拼接网格的并行策略,发展了一个适合于分布式存贮多机系统的TVD隐式有限体积并行算法;并在PVM并行环境下,对三维高超音速绕流流场实现了多机并行计算,通过负载平衡等方法得到了较高的加速比(在二处理机系统上加速比为1∶84,在四处理机系统上为3∶44)。  相似文献   

8.
本文论述了多帧速系统在多机环境下并行仿真时处理机分配的原则,指出为减少通信开销,应将多帧速系统中各个子系统分配到不同的处理机(群) 上并行处理。并给出了多帧速系统的仿真主控流程。  相似文献   

9.
改进的光滑粒子方法在模拟激光对树脂基复合材料的辐照效应时具有明显优势,但串行计算通常难以满足需求。为了提高程序的运行效率,基于消息传递界面并行编程环境实现了串行程序的并行化。将个人电脑完成的串行计算结果与峰值5万亿次的计算机集群完成的并行计算结果进行了比较,并对并行程序的加速比和并行效率进行了测试。数值计算表明,并行计算结果与串行计算结果一致,且并行效果显著,说明基于消息传递界面的并行化是成功的。  相似文献   

10.
将组合电路故障模拟的一些加速技术推广到时序电路故障模拟中,提出并实现了一个功能块级的基于测试码并行的同步时序电路故障模拟方法,对部分ISCAS89 Benchmark电路的模拟结果表明,该故障模拟方法有较好的性能.  相似文献   

11.
80286CPU在保护地址方式下具有高达16M字节的存储器寻址能力,通过系统BIOS功能调用可以很方便地实现保护地址方式下的数据块传输。将这一功能应用到以286微机为主机的,要求高速、大容量数据采集和多个加速单元并行处理的信号处理系统设计时,可明显地提高系统性能。作者将此方法应用于一个实际系统的设计,取得了很好的效果。  相似文献   

12.
大尺寸滑动窗口的应用在数据输入速度与处理速度之间存在较大差距.为了缩短差距,提出了一种并行计算模型,使用尽可能少的存储资源与尽可能简单的存储器读写控制逻辑实现了尽可能高的数据重用性与并行性.该模型将不同滑动窗口之间的并行处理与单个窗口内不同数据之间的并行处理结合起来:对于不同窗口,按列进行分组并映射到多个处理单元上并行...  相似文献   

13.
神经网络实现技术是神经网络研究的一个极重要的领域。本文首先分析了神经网络模拟对并行计算机系统的要求,认为影响神经网络计算机速度和容量提高的主要因素是单个处理单元的速度、单个处理单元的局部存储器的容量以及互连网络的通信带宽。要提高模拟神经计算机的速度和容量,就要有相应的并行结构来支持。在定量的需求分析的基础上,本文还提出了一种模拟神经计算机的并行结构。  相似文献   

14.
一种用于机器人力反馈依从控制的计算机体系结构   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出了一种用于机器人力反馈依从(Compliance)控制的计算机体系结构—MIMD 型的多微机并行处理系统,并从硬件系统结构和系统软件两方面予以了说明。该系统是为完成一项实际科研任务而设计的,它能有效地实现机器人力/位置混合控制中多任务的并行处理,它的实现将使伺服控制周期缩短到5ms 以下,能满足各种机器人控制任务的需要。  相似文献   

15.
阿拉巴马州汉茨维尔市通讯——并行处理机组(PEPE)是一种专门设计用以满足弹道导弹防御技术要求的超级计算机系统。在此地进行的验收试验期间,已对并行相联的总体结构方案作了考验。并行处理机组是系统研制公司为陆军的弹道导弹防御高级技术中心设计、研制并生产的。据这里的并行处理机组负责人约翰A.柯耐利讲,该机的目的是提供一种手段,以利用并行  相似文献   

16.
提出了一种双正交重叠变换(LBT)系数基于上下文的算术编码算法.针对二进整数LBT在DSP实现过程中出现的精度和计算复杂度问题,提出了一种适于DSP并行处理的LBT定点实现方法.编码算法包含60种上下文概率模型,熵编码采用MQ编码,并根据并行处理的需要,将MQ编码从位平面扫描过程中分离,根据分离后的结构特点,设计了改进的MQ编码器.并对算法的DSP实现进行了研究.实验结果表明,本压缩算法压缩性能和SPIHT相当,稍逊于JPEG2000,算法容易并行,硬件计算复杂度很低.  相似文献   

17.
二维浅水波并行模式的伴随   总被引:1,自引:0,他引:1       下载免费PDF全文
以二维浅水波为例,详细探讨如何开发并行模式的切线性模式和伴随模式。切线性模式的并行机制和原始模式一致,而伴随模式不同。三个模式采用一致的数据剖分方法可提高并行效率。在集群并行计算机系统上采用一维数据剖分,切线性模式的通信量与原始模式相当,而计算量几乎是原始模式的2倍;伴随模式的通信量大约是原始模式的2倍,而计算量几乎是原始模式的3倍。在三个模式中,切线性模式的加速比最大。  相似文献   

18.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

19.
在视频编码的DSP各种优化策略基础上,提出了基于TMS320C6201的H.263视频图像编码实现方案.根据H.263编码算法的并行特性,充分利用C6201芯片的并行处理能力,对核心视频编码算法、DMA数据传输和内存分配等三个方面进行了优化,实现了H.263标准视频图像的高效实时压缩.  相似文献   

20.
针对数字视频总线在装备应用中的实时性需求,在分析JPEG编码原理和多核DSP任务并行的基础上,提出了一种基于TMS320C6678的JPEG编码算法并行实现方法,该方法实现了任务级并行流水和核间高效通信。实验结果表明,该方法是可行、有效的,并且基于TMS320C6678的JPEG编码系统的实时处理能力有很大提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号