首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
随着处理器微体系结构日益复杂,性能分析在处理器研制过程中的作用越来越重要。常用的性能分析方法是建立性能模型,该方法主要用于研制初期的设计空间探索,如果用于微体系结构级的分析和优化,速度和精度都会成为限制因素。因此,提出一种基于计数器的性能分析方法,该方法以项目组已经完成的一款处理器核的硬件实现代码为基础,在处理器核外部添加一个专用性能监测单元,收集微体系结构分析和优化需要的各种事件,并通过结果分析器对统计的事件进行分析,得到微体系结构实现的性能受限因素。采用此方法,在现场可编程门阵列原型系统上对SPEC CPU2000测试程序运行时的性能受限因素进行分析,并根据分析结果采取相应的优化措施,优化后的处理器核性能得到了明显提升。  相似文献   

2.
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。  相似文献   

3.
在YHFT-DX处理器的研制中,研究并实现了多项支撑全定制设计的EDA技术。针对全定制设计的功能验证,研究并实现了层次式功能模型自动提取技术,能够将晶体管级网表转化为等效的RTL级网表。研究并实现了晶体管级混合时序分析方法,可自动分析全定制设计的延时,并采用多线程并行的方法获得了约10倍左右的速度提升。为提高模拟结果分析的效率,开发了一个延时提取的工具Aimeasure。开发了两个信号完整性分析工具PNVisual和NoiseSpy,分别用于全定制设计的IR-Drop分析和噪声分析。上述技术已在YHFT-DX处理器的设计中得到了广泛应用,有效提高了全定制设计的效率与质量。  相似文献   

4.
影响应用I/O性能的关键因素主要有三个层次:包括应用的I/O接口实现、体系结构和文件系统组件的性能以及应用的I/O参数配置。从应用I/O配置优化的视角,分析了大规模集群并行I/O的配置调优空间,在此基础上,给出了一套大规模集群并行I/O性能特征测试分析方法。基于该方法,在某国产超级计算集群上开展了一系列I/O测试分析来刻画系统的I/O性能特征,进而指导并行应用程序的I/O配置优化。基于优化后的配置参数,在两类典型的并行I/O场景中,针对某类生产应用程序,8192进程下的重启动数据写操作时间下降了15%,4096核的程序作业加载时间从10 min缩短到了5 s。  相似文献   

5.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   

6.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

7.
现代半导体工艺技术的发展使得在单芯片上放置数百个运算单元成为可能,但是全局片上片外带宽受限。通用处理器体系结构不能较好地适应变化,仍然依靠全局片上结构,少量的运算单元。而流体系结构拥有大量的运算单元、鲜明的存储层次,使得在有限的片外带宽下,用高的本地带宽来满足大量运算单元的需求。首先介绍了原型MASA流体系结构,然后给出了爆轰流体力学中的二维拉格朗日和欧拉结合法(Ygx2)在流体系结构上实现的实例研究,最后用时钟精确的模拟器来评测应用的运行性能,结果表明Ygx2应用在500MHz的MASA上运行结果与1.6GHz的Iantium2的比较快近4倍,证实了流体系结构在高性能计算领域的极大潜力。  相似文献   

8.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

9.
针对高速传输系统中大批量数据不易传输的问题,提出了一种基于片上系统图像压缩卡的设计方法,讨论了采用软核NiosⅡ处理器的配置方式、简化SPIHT算法的硬件实现原理和LVDS图像数据接收转存的操作流程。详细论述了系统各模块的设计原理及实现方法,并对各模块进行了实际的性能测试和分析,结果表明该压缩卡性能稳定,可以高效地完成图像数据压缩。  相似文献   

10.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

11.
论述了一种采用数字信号处理器(DSP)TMS320LF2407A为微控制器的直流电动机控制系统,将传统的PID控制与模糊控制相结合,提出了一种新型的模糊PID智能控制方法,其主要内容涉及模糊控制器的硬件电路构成和软件编程设计。对该系统进行了计算机仿真实验,从仿真结果可知,以TMS320LF2407A为核心的数字控制系统调速系统具有良好的控制性能,不仅能够满足实时控制的要求,易于实现先进的控制策略,而且该设计方案电路简单、可靠性强,具有较高的应用价值。  相似文献   

12.
神经网络架构搜索旨在针对不同任务,自动化地搜索得到性能最优的神经网络结构,是深度学习、计算机视觉技术结合当前现实需求应运而生的一大重要科学问题。对近年来神经网络架构搜索研究进行梳理、归类和评述;阐述神经网络架构搜索的定义和意义,全方位剖析当前研究所面临的难点与挑战;以此为基础,对主流的搜索策略进行阐述和归纳;探讨研究潜在的问题及未来颇具潜力的研究方向,以期推动该领域的进一步发展。  相似文献   

13.
多个方向的可扩展特性是新一代互联网的重要特点,这对高性能路由器的性能、规模、功能和服务等能力提出了更高的要求,高速路由与交换技术是承载这种可扩展特性的关键技术。从网络处理器设计、路由查找技术以及高速交换技术三个方面总结了高速路由与交换技术的研究和发展现状,并展望了未来的发展趋势。  相似文献   

14.
空间力量信息支援能力量化分析   总被引:1,自引:0,他引:1  
研究空间力量的信息支援能力,对于搞好航天装备体系建设的顶层设计、规划论证以及作战运用,具有重要的现实意义和军事效益.对空间力量与空间信息支援作战、空间力量的作战任务、空间力量的信息支援能力等问题进行了定性分析.在对传统ADC方法进行合理改进的基础上,基于环境影响因子、各性能指标的权重以及各性能指标的评价函数,提出了一种全过程评估能力指标的新思路、新方法,建立了空间力量信息支援能力评估模型,为量化分析空间力量信息支援能力提供了一定的依据.  相似文献   

15.
分析了舰船总体性能可靠性问题的产生原因,将其分为2类.对于舰载设备本身存在可靠性问题而造成的,以航速可靠性为例,在舰船总体可靠性的背景下,借助相关数学工具进行了建模方法分析;对于外界随机因素影响而造成的,如横稳性的可靠性问题,则从分析外界随机因素与船体设计参数之间关系入手.初步建立了一套研究舰船总体性能可靠性问题的建模方法.实例计算表明,将所建模型用于分析舰船总体性能比常规方法具有明显的优越性.  相似文献   

16.
一种导引头信号处理器通用硬件平台方案   总被引:1,自引:0,他引:1  
导引头信号处理器是导引头的核心装置,随着技术的迅速进步,信号处理器的功能也越来越复杂。如何缩短信号处理器的开发周期、降低开发成本,对于信号处理器的设计师来说是非常重要的。提取了不同型号、不同体制导引头对信号处理要求的共同特征,提出了一种导引头信号处理器通用硬件平台方案。在新产品模样开发阶段,可以在这种硬件平台上进行系统验证和软件开发;基于面向对象的概念,在试样设计阶段可以继承通用平台中的部分或全部属性,快速构建适合于新产品电气性能和结构要求的硬件平台。  相似文献   

17.
结合消防监督工作实践,针对建筑火灾隐患整改工作中存在的问题,提出“以性能化设计理念指导火灾隐患整改”的工作思路,阐述性能化设计的核心、规范体系、运行过程,对建筑火灾隐患进行社会学分析,寻找出性能化设计与建筑火灾隐患整改的结合点。其理论分析与实践证明:性能化设计理念为解决建筑火灾隐患、更好地满足建筑功能需要提供了一条新的途径,该理念的应用将促进建筑火灾隐患整改的科学化、合理化和成本效益的最优化。  相似文献   

18.
针对现有程控数字交换机大多采用传统搭积木式(即用器件搭成电路板)的设计方法,提出用现场可编程门阵列(FPGA)技术设计的新思路,并通过VHDL语言设计给出了仿真结果,结果表明,用FPGA设计的数字程控交换模块具有硬件结构简单、性能良好、功能易于升级等优点.  相似文献   

19.
描述了基于WindowsCE的嵌入式漏磁检测仪总体结构设计,介绍了WindowsCE下设备驱动程序模型,并结合$3C2440A处理器的ADC驱动程序设计,详细阐述了基于Windows的流接口驱动程序的设计方法。实验结果表明:利用该方法设计的ADC驱动程序高效可靠,可以为开发类似设备驱动程序提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号