首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对数字视频总线在装备应用中的实时性需求,在分析JPEG编码原理和多核DSP任务并行的基础上,提出了一种基于TMS320C6678的JPEG编码算法并行实现方法,该方法实现了任务级并行流水和核间高效通信。实验结果表明,该方法是可行、有效的,并且基于TMS320C6678的JPEG编码系统的实时处理能力有很大提升。  相似文献   

2.
提出了一种双正交重叠变换(LBT)系数基于上下文的算术编码算法.针对二进整数LBT在DSP实现过程中出现的精度和计算复杂度问题,提出了一种适于DSP并行处理的LBT定点实现方法.编码算法包含60种上下文概率模型,熵编码采用MQ编码,并根据并行处理的需要,将MQ编码从位平面扫描过程中分离,根据分离后的结构特点,设计了改进的MQ编码器.并对算法的DSP实现进行了研究.实验结果表明,本压缩算法压缩性能和SPIHT相当,稍逊于JPEG2000,算法容易并行,硬件计算复杂度很低.  相似文献   

3.
一种面向多核处理器的高效并行PCA-SIFT算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种面向多核处理器的并行PCA-SIFT算法,采用数据级并行方法实现并行的特征提取和特征点匹配,将计算任务分配到各个DSP核并行处理,充分开发多核处理器的多级并行性.实验结果表明,并行PCA-SIFT算法对各种不同图像形变的图像具有良好的适应性,具有接近串行PCA-SIFT算法的图像匹配能力,平均加速比达3.12.  相似文献   

4.
根据多核DSP的应用特点,介绍了一种面向异构多核DSP的数据流传输控制引擎(DSTCE)的结构与设计,并实现了基于DSTCE的数据流前瞻传输技术.该技术以可编程的DSTCE模块为核心,实现了超节点内各个端口之间以及超节点之间的高效数据流传输,而且将传输过程与多核间的数据前瞻和编程模型有机结合起来.该技术避免了复杂的Cache一致性问题,显著提高了大规模多核DSP计算与访存的并行性.实验结果表明,采用DSTCE的多核DSP单个超节点的性能平均提高了22%,两个超节点情况下基于DSTCE结构的系统比基于CC-NUMA结构的系统性能平均提高了14%.  相似文献   

5.
在视频编码的DSP各种优化策略基础上,提出了基于TMS320C6201的H.263视频图像编码实现方案.根据H.263编码算法的并行特性,充分利用C6201芯片的并行处理能力,对核心视频编码算法、DMA数据传输和内存分配等三个方面进行了优化,实现了H.263标准视频图像的高效实时压缩.  相似文献   

6.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

7.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

8.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。  相似文献   

9.
为了满足JPEG2000遥感图像实时压缩设备的实时性要求,提出了一种基于并行机制的"零时间"数据搬移策略.通过对EBC算法结构进行拆分,并采用EDMA方式进行数据搬移,使得算法运算与数据搬移过程完全并行,搬移时间等效为零.实验结果表明,采用新的数据搬移策略后,编码效率可以提升到100%.EBc算法实现的总时间可缩短46%以上.该搬移机制已成功应用于JPEG2000星载遥感图像实时压缩系统中,系统的实时性达到了设计要求.  相似文献   

10.
为了满足JPEG2000遥感图像实时压缩设备的实时性要求,提出了一种基于并行机制的“零时间”数据搬移策略。通过对EBC算法结构进行拆分,并采用EDMA方式进行数据搬移,使得算法运算与数据搬移过程完全并行,搬移时间等效为零。实验结果表明,采用新的数据搬移策略后,编码效率可以提升到100%,EBC算法实现的总时间可缩短46%以上。该搬移机制已成功应用于JPEG2000星载遥感图像实时压缩系统中,系统的实时性达到了设计要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号