首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

2.
根据多核DSP的应用特点,介绍了一种面向异构多核DSP的数据流传输控制引擎(DSTCE)的结构与设计,并实现了基于DSTCE的数据流前瞻传输技术.该技术以可编程的DSTCE模块为核心,实现了超节点内各个端口之间以及超节点之间的高效数据流传输,而且将传输过程与多核间的数据前瞻和编程模型有机结合起来.该技术避免了复杂的Cache一致性问题,显著提高了大规模多核DSP计算与访存的并行性.实验结果表明,采用DSTCE的多核DSP单个超节点的性能平均提高了22%,两个超节点情况下基于DSTCE结构的系统比基于CC-NUMA结构的系统性能平均提高了14%.  相似文献   

3.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。  相似文献   

4.
针对量化和通信时延约束下多Lagrange航行体的集结问题进行了研究,提出了一种与模型相关的右边不连续控制算法,设计了一个均匀量化器,并运用图论、矩阵理论以及实用稳定性理论,验证控制器的稳定性。研究结果表明:多航行体可以在量化和通信时延影响的无向通信图下,实现有误差界的集结。基于MATLAB软件进行的数值仿真实验,证明了算法的有效性。  相似文献   

5.
随着各种信号系统复杂度的不断提高,对信号处理的要求也逐步提高,多DSP并行处理的技术应运而生并成为信号处理领域研究的热点。构建了一套多DSP的数据并行处理系统,讨论了基于FPGA的高速串行数据通信的有效方法,实现了多DSP系统内任意两片DSP间的串行数据通信,提供了一种多DSP系统中灵活的数据交换方式。  相似文献   

6.
在简要介绍多普勒波束锐化 (DBS)成像原理和TMS32 0C6 2 0 1芯片特点的基础上 ,着重讨论了DBS成像算法基于DSP的实现。在实现过程中充分考虑了通用DSP完成非线性运算、除法运算耗时大以及存贮I/O操作耗时不能忽略等特点。最后分析了算法性能并给出了实验结果  相似文献   

7.
针对舰船传感器视频信号高清化和数字视频总线传输实时化需求,分析多核DSP并行处理和JPEG编码算法的基础上,提出了基于多核DSP的JPEG图像编码实现方法,以TI公司TMS320C6678数字信号处理器为硬件平台,实现了多核DSP核间高效通信和任务级并行处理。实验测试JPEG算法核心组件,优化编码子系统可进一步提升系统处理能力;实验结果表明,基于八核DSP的JPEG编码系统的实时处理能力比单核系统提升了5倍,提高了视频图像压缩效率,满足数字视频总线实时性传输要求。  相似文献   

8.
为了达到异构多核处理器能直接交叉访问对方的内存地址空间的目的,通过构建统一的三级Cache结构和数据块状态标记方法,并优化Cache块状态的修改算法,提出了异构千核处理器系统的统一内存地址空间访问方法,避免了当前独立式异构计算机系统结构下复制和传输数据块所带来的大量额外访存开销。通过采用部分Rodinia基准测试程序测试,获得了最高9.8倍的系统加速比,最多减少了90%的访存频率。因此,采用该方法能有效减少异构核心间交换数据块所带来的系统开销,提高异构千核处理器的系统性能加速比。  相似文献   

9.
高光谱影像降维快速独立成分分析过程包含大规模矩阵运算和大量迭代计算。通过分析算法热点,设计协方差矩阵计算、白化处理、ICA迭代和IC变换等关键热点的图像处理单元映射方案,提出并实现一种G-Fast ICA并行算法,并基于GPU架构研究算法优化策略。实验结果显示:在处理高光谱影像降维时,CPU/GPU异构系统能获得比CPU更高效的性能,G-Fast ICA算法比串行最高可获得72倍加速比,比16核CPU并行处理快4~6.5倍。  相似文献   

10.
向量处理器的向量化算法映射是难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法,采用将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重迭,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。在Matrix上的实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。  相似文献   

11.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

12.
提出一种基于融合乘加指令加速FFT计算的向量化方法,通过变换FFT的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得DIT基2 FFT算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,DIT基4 FFT算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速FFT的计算,取得高效的计算性能和效率。  相似文献   

13.
随着计算机多核处理器的高速发展,多核并行计算在各领域发展研究的重要性已逐渐突显,分析了当前典型的并行编程模型,在PCAM设计过程的基础上提出了多核并行算法的设计过程,运用OpenMP编程模型完成了一种目标分配算法的多核并行化设计,通过实验及性能分析,验证了并行目标分配算法相较于传统串行算法在计算效率上的优势。  相似文献   

14.
多核环境下负载均衡的并行离散事件全局调度机制   总被引:1,自引:1,他引:0       下载免费PDF全文
分析了多核环境下传统的离散事件时间弯曲并行系统的性能,针对其事件调度开销小和负载均衡能力强难以兼得的问题,提出了一种基于分布式队列的全局调度机制,设计了相应的数据结构和调度算法,大大减少了锁开销.通过大量实验对多核环境下几种典型离散事件系统并行策略的性能分析表明,本文提出的全局调度策略不仅事件调度开销小,而且回滚率大大降低,有效克服了传统策略回滚量较大或难以实现动态负载平衡的情况,并具备良好的可扩展性.  相似文献   

15.
针对目前大多数多核处理器任务分配优化算法没有考虑关键路径上节点对任务完成时间的重要影响,导致任务完成总时间延迟的问题,提出了基于关键路径和任务复制(CPTD)的单任务调度算法。CPTD算法通过复制任务图中fork节点的方式将任务图转化为与之相对应的产品加工树;再在生成的产品加工树中找到关键路径,并采取使关键路径上节点的紧前节点尽早调度的方式,使关键路径上节点尽早开始执行,进而使产品加工树中节点完成时间得以提前,达到缩短任务执行总时间的目的。理论分析表明,CPTD算法能够实现应用程序在多核上充分并行处理,并能缩短任务完成时间。  相似文献   

16.
向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。  相似文献   

17.
分析了单片可编程数字信号处理器的特性,并着重同普通微处理器、微控制器作了结构及性能上的比较。介绍了现有的DSP 并预测了DSP 在控制领域中的应用趋势。  相似文献   

18.
分析了单片可编程数字信号处理器的特性,并着重同普通微处理器、微控制器作了结构及性能上的比较。介绍了现有的DSP 并预测了DSP 在控制领域中的应用趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号