首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着处理器微体系结构日益复杂,性能分析在处理器研制过程中的作用越来越重要。常用的性能分析方法是建立性能模型,该方法主要用于研制初期的设计空间探索,如果用于微体系结构级的分析和优化,速度和精度都会成为限制因素。提出了一种基于计数器的性能分析方法,该方法以项目组已经完成的一款处理器核的硬件实现代码为基础,在处理器核外部添加一个专用性能监测单元,收集微体系结构分析和优化需要的各种事件,并通过结果分析器对统计的事件进行分析,得到微体系结构实现的性能受限因素。采用此方法,在FPGA原型系统上对SPEC CPU2000测试程序运行时的性能受限因素进行了分析,并根据分析结果采取了相应的优化措施,优化后的处理器核性能得到了明显提升。  相似文献   

2.
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。  相似文献   

3.
在YHFT-DX处理器的研制中,研究并实现了多项支撑全定制设计的EDA技术。针对全定制设计的功能验证,研究并实现了层次式功能模型自动提取技术,能够将晶体管级网表转化为等效的RTL级网表。研究并实现了晶体管级混合时序分析方法,可自动分析全定制设计的延时,并采用多线程并行的方法获得了约10倍左右的速度提升。为提高模拟结果分析的效率,开发了一个延时提取的工具Aimeasure。开发了两个信号完整性分析工具PNVisual和NoiseSpy,分别用于全定制设计的IR-Drop分析和噪声分析。上述技术已在YHFT-DX处理器的设计中得到了广泛应用,有效提高了全定制设计的效率与质量。  相似文献   

4.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   

5.
影响应用I/O性能的关键因素主要有三个层次:包括应用的I/O接口实现、体系结构和文件系统组件的性能以及应用的I/O参数配置。从应用I/O配置优化的视角,分析了大规模集群并行I/O的配置调优空间,在此基础上,给出了一套大规模集群并行I/O性能特征测试分析方法。基于该方法,在某国产超级计算集群上开展了一系列I/O测试分析来刻画系统的I/O性能特征,进而指导并行应用程序的I/O配置优化。基于优化后的配置参数,在两类典型的并行I/O场景中,针对某类生产应用程序,8192进程下的重启动数据写操作时间下降了15%,4096核的程序作业加载时间从10 min缩短到了5 s。  相似文献   

6.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

7.
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。  相似文献   

8.
针对高速传输系统中大批量数据不易传输的问题,提出了一种基于片上系统图像压缩卡的设计方法,讨论了采用软核NiosⅡ处理器的配置方式、简化SPIHT算法的硬件实现原理和LVDS图像数据接收转存的操作流程。详细论述了系统各模块的设计原理及实现方法,并对各模块进行了实际的性能测试和分析,结果表明该压缩卡性能稳定,可以高效地完成图像数据压缩。  相似文献   

9.
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。  相似文献   

10.
现代半导体工艺技术的发展使得在单芯片上放置数百个运算单元成为可能,但是全局片上片外带宽受限。通用处理器体系结构不能较好地适应变化,仍然依靠全局片上结构,少量的运算单元。而流体系结构拥有大量的运算单元、鲜明的存储层次,使得在有限的片外带宽下,用高的本地带宽来满足大量运算单元的需求。首先介绍了原型MASA流体系结构,然后给出了爆轰流体力学中的二维拉格朗日和欧拉结合法(Ygx2)在流体系结构上实现的实例研究,最后用时钟精确的模拟器来评测应用的运行性能,结果表明Ygx2应用在500MHz的MASA上运行结果与1.6GHz的Iantium2的比较快近4倍,证实了流体系结构在高性能计算领域的极大潜力。  相似文献   

11.
为了提升在线新闻事件探测的性能,提出一种基于TF.IEF模型的在线新闻事件探测方法。该方法受TF.IDF思想的启发,直接计算特征词表征事件的权重,建立新的增量事件模型,并将探测过程分为两个阶段:第一阶段利用Single-Pass将一定时段内收集到的报道聚成微簇;第二阶段将微簇与已有事件进行相似性匹配,然后通过重新计算事件向量实现模型更新。实验结果表明,该方法运算速度快,特征信息丢失少,提高了探测的效率和准确率。  相似文献   

12.
基于目前主流的多核处理器,研究了数据库Radix-Join算法中的聚集连接优化.针对多线程聚集连接执行时,线程Cache访问缺失严重的问题,采用预读线程预先将聚集连接线程需要访问的聚集对从内存读入L2-Cache,提高了线程的Cache访问性能.并根据聚集连接执行时的代价模型,优化了聚集连接执行框架和各种线程参数.在实验中,基于内存数据库EaseDB实现了本文提出了算法,实验结果表明,聚集连接性能得到较大提高.  相似文献   

13.
空爆核武器的剩余核辐射受到地形等复杂因素的影响,针对上述问题,提出利用地理信息系统的相关功能实现空爆核武的剩余核辐射数值分析的方法。该方法利用数字地形模型分析受到核沾染地形的坡度状况,对现有的经验公式进行修正;结合灰色系统理论并利用栅格分析方法对剩余核辐射造成的大气污染进行了分析。该方法为空爆核武器剩余放射性污染的分析提供了一种新的思路。  相似文献   

14.
综合应用事件树分析和确定论分析方法,建立船用蒸汽发生器传热管破损事故动态分析模型;基于运行安全分析研究选用典型事件序列,并利用仿真应用平台对该模型进行了仿真计算分析;明确了故事的发展过程和处置措施,以及多重故障和人工干预等因素对事故的影响结果.该研究结果对该事故操作规程的制定有一定的指导意义.  相似文献   

15.
基于IPSec的下一代高性能安全处理器的体系结构   总被引:1,自引:0,他引:1       下载免费PDF全文
IPSec是目前适合所有Internet通信的惟一一种安全技术。通过分析IPSec的处理过程,指出网络安全处理器的使用是IPSec协议高效实现的关键,并详细介绍了目前典型安全处理器的结构和应用。由于目前的网络安全处理器无法满足OC 48及其以上速率接口的处理要求,对下一代高速网络安全处理器的体系结构进行了分析和预测。  相似文献   

16.
近年来,大规模并行场景下的I/O性能越来越受到应用科学家的关注。影响应用I/O性能的关键因素主要有三个层次:包括应用的I/O接口实现、体系结构和文件系统组件的性能以及应用的I/O参数配置。本文从应用I/O配置优化的视角,分析了大规模集群并行I/O的配置调优空间,在此基础上,给出了一套大规模集群并行I/O性能特征测试分析方法,基于该方法,在某国产超级计算集群上开展了一系列I/O测试分析来刻画系统的I/O性能特征,进而指导并行应用程序的I/O配置优化。基于优化后的配置参数,在两类典型的并行I/O场景中,针对某类生产应用程序,8192进程下的重启动数据写操作时间下降了15%,4096核的程序作业加载时间从10分钟缩短到了5s。本文提出的I/O配置调优空间及优化方法,可以推广应用到其它同类系统平台,对于大规模集群上的用户层并行I/O配置调优具有借鉴意义。  相似文献   

17.
多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了访问模式的多核末级Cache优化方法,它包含"可配置的共享私有Cache划分"、"可配置的旁路Cache策略"和"优先权替换策略"三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。  相似文献   

18.
针对复杂信息系统效费比分析缺少系统化的方法和工具问题,提出了一种基于信息系统体系结构的效费比分析方法,给出了该方法的基本实施步骤。并以美军海岸警卫队的搜索营救系统为例,运用DODAF2.0详细阐述了其效费比分析的具体实施过程,并得到了相关结论。不仅可以为复杂信息系统效费比分析提供有益的借鉴,也对体系结构的应用具有探索和实践意义。  相似文献   

19.
从MPSoC系统设计角度出发提出了网络处理器的参数化分析模型,称为NePlat。该模型采用数据流进程网络(DPN,Dataflow Process Network)描述网络应用,构造参数化异构硬件资源,并将应用模型映射到体系结构资源上评价网络处理器性能。  相似文献   

20.
介绍了一种CAN总线接口实现的新方式。该设计采用NIOSII软核处理器和IP软核来实现CAN总线接口的控制。在软件设计方面,通过利用开发环境提供的DSF(处理器软件建构)便利的设计方法,完成整个功能模块软件部分的设计。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号