期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2):79-85

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了访问模式的多核末级Cache优化方法,它包含"可配置的共享私有Cache划分"、"可配置的旁路Cache策略"和"优先权替换策略"三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

2.

基于访问模式的多核末级Cache优化方法_*

下载免费PDF全文

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2)

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了一种基于访问模式的多核末级Cache优化方法,它包含“可配置的共享私有Cache划分”、“可配置的旁路Cache策略”和“优先权替换策略”三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

3.

YHFT-DX高性能DSP中Cache失效流水设计

郭阳傅祎晖刘胜李勇《国防科技大学学报》2009,31(6):6-11

YHFT-DX是国防科技大学自主研制的一款高性能DSP.以提升YHFI-DX的 Cache 性能为目标,研究了降低 Cache 失效延迟的优化策略,设计并实现了一种针对高频高性能DSP的一级数据Cache优化策略--失效流水.与传统优化策略相比,该策略将连续访问Cache的失效请求并进行流水化处理,使多个Cache失效延迟重叠,从而达到降低平均Cache失效代价的目的.将该策略应用到YHFT-DX芯片的一级数据Cache控制器的设计与优化中,使访问Cache失效引起的流水线停顿从8拍降为2拍,显著提升了系统性能. 相似文献

4.

用于减少远程Cache访问延迟的最后一次写访问预测方法

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1):14-20

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

5.

2014nccet：一种新的用于减少远程Cache访问延迟的最后一次写访问预测方法_*

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1)

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

6.

一种基于Cache的AES计时模板攻击方法

吴克辉王韬赵新杰张金中《军械工程学院学报》2011,(2):65-68

采用面向字节、分而治之的攻击思想,将AES主密钥按字节划分为若干子密钥块,为每个子密钥块的所有候选值搭建Cache计时信息模板,并采集未知密钥AES算法的Cache计时信息,使Pearson相关性算法与模板匹配,成功地恢复AES-128位密钥。实验结果表明：AES查找表和Cache结构缺陷决定了AES易遭受Cache计时模板攻击,而模板分析理论在时序驱动攻击分析中是可行的。相似文献

7.

基于共享Cache多核处理器的Radix聚集连接优化

邓亚丹景宁熊伟吴秋云《国防科技大学学报》2009,31(4):68-73

基于目前主流的多核处理器,研究了数据库Radix-Join算法中的聚集连接优化.针对多线程聚集连接执行时,线程Cache访问缺失严重的问题,采用预读线程预先将聚集连接线程需要访问的聚集对从内存读入L2-Cache,提高了线程的Cache访问性能.并根据聚集连接执行时的代价模型,优化了聚集连接执行框架和各种线程参数.在实验中,基于内存数据库EaseDB实现了本文提出了算法,实验结果表明,聚集连接性能得到较大提高. 相似文献

8.

一个基于图着色的CACHE优化方法

下载免费PDF全文

邓宇王蕾张明龚锐郭御风窦强《国防科技大学学报》2012,34(6):20-25

提出了一个编译时的Cache管理优化方法。该方法根据访存行为将程序中的数据划分成若干数据对象,根据数据对象的大小将Cache划分为一个带有别名的伪寄存器文件,每个伪寄存器由若干Cache行组成,可以容纳一个数据对象;使用一个经过改进的图着色寄存器分配算法来决定这些对象在Cache中的位置以及发生冲突时的替换关系。数据对象的划分将Cache的管理分为两个层次,一个是编译时编译器对粗粒度的数据对象的管理,另一个是运行时硬件对细粒度的Cache行的管理,这样编译器和硬件的优势都得到发挥。基于GCC进行了方法实现,并通过simplescalar构造了支持Cache Coloring的硬件模拟平台。实验结果表明Cache Coloring能较好地开发程序的局部性,降低Cache失效率。相似文献

9.

基于SIMD处理器的全定制多粒度矩阵寄存器文件

下载免费PDF全文

张凯陈书明王耀华陈海燕李振涛《国防科技大学学报》2013,35(4):156-160

在SIMD处理器上映射矩阵运算时会带来大量的数据重排操作从而降低系统性能。本文提出定制化的多粒度矩阵寄存器文件(MMRF)以消除数据重排操作。MMRF支持多粒度的并行行访问和列访问,从而提升矩阵运算的性能。MMRF可以被动态配置为不同的并行访问模式,在不同模式下一个或多个子矩阵可以被并行处理。实验结果显示,同传统的向量寄存器文件(VRF)和矩阵寄存器文件(MRF)相比,MMRF可分别带来2.21倍和1.6倍的平均性能提升,面积分别增加14.3%和3.7%,功耗分别增加14.6%和2.2%。同TMS320C64x+处理器相比,基于SIMD技术的FT-Matrix处理器在引入MMRF后可以得到5.65倍到7.71倍的性能提升。通过层次化的全定制设计技术,MMRF的面积和关键路径分别减少17.9%和39.1%。相似文献

10.

片上网络中一种单周期2GHz无缓冲路由器

下载免费PDF全文

冯超超鲁中海张民选李晋文《国防科技大学学报》2011,33(6):42-47

近年来,无缓冲路由器由于不需要缓冲器而成为片上网络低开销的解决方案。为了提高无缓冲路由器的性能,提出一种单周期高性能无缓冲片上网络路由器。该路由器使用一个简单的置换网络替换串行化的交换分配器与交叉开关以实现高性能。虚通道路由器与基准无缓冲路由器相比,该路由器在TSMC65nm工艺下可以以较小的面积开销达到2GHz的时钟频率。在合成通信负载与真实应用负载下的模拟结果表明,该路由器的包平均延迟远小于虚通道路由器和其他无缓冲路由器。相似文献

11.

基于新型非易失内存的远程零拷贝文件系统

下载免费PDF全文

韩文炳陈小刚李顺芬李大刚陈诗雁段有康宋志棠《国防科技大学学报》2020,42(3):9-16

为提升物联网与边缘计算应用中前端节点间的数据访问效率,提出了一种新型远程零拷贝文件系统。该文件系统无须借助特殊硬件,可直接基于通用网卡设备实现零拷贝的数据传输框架;充分利用新型非易失内存的随机访问特性,尽可能减少数据缓存和拷贝,提高数据访问的吞吐量。建立缓冲区池,精简并融合传统网络栈和存储栈,从而缩短文件访问路径,减少软件冗余,降低数据访问延迟。最终提供高带宽、低延迟的远程数据访问性能。测试结果表明,远程零拷贝文件系统比传统网络文件系统减少了42.26%～99.19%的读写延迟,细粒度访问下的吞吐量最高可提升1297倍,显著降低了处理器开销和缓存失效次数。相似文献

12.

一种新型的Free-memory众核处理器片上通信接口

下载免费PDF全文

郭御风李琼窦强张磊刘路《国防科技大学学报》2011,33(2):145-149

高性能计算机系统越来越多采用集群系统,集群系统的性能极大地依赖于通信接口.基于片外SRAM保存地址变换表的用户级通信方法,极大地增加了芯片和系统的设计复杂度和成本.在传统基于I/O总线的HCA基础上,提出并实现了一种新型的Free-Memory的众核处理器片上通信接口,去掉了本地存储器接口,通过高效的cache管理策略... 相似文献

13.

高性能路由器中的分组非精确调度技术

下载免费PDF全文

陈一骄孙志刚《国防科技大学学报》2005,27(5):35-38

随着网络带宽的不断提高,分组到达路由器的时间间隔不断缩短,对路由器处理分组的速度提出了新的要求。传统的分组调度算法,如WFQ,由于性能和可扩展性等问题,难以在高性能核心路由器中实现。为此,提出了分组非精确调度技术,在不影响应用QoS的前提下对经典的调度算法进行修改,通过简化硬件设计提高调度器的服务能力。模拟分析表明,采用非精确调度技术的SLQF算法的延时特性与传统算法LQF基本一致。相似文献

14.

基于DSP+FPGA的导航计算机数据采集与处理硬件设计 总被引：1，自引：0，他引：1

贺勇汤霞清郭理彬《火力与指挥控制》2008,(Z2)

根据捷联惯导系统中数据采集和运算处理的要求,提出了以高性能DSP为核心,由FPGA构成主要外部输入输出接口的导航计算机硬件设计方案;设计了I/F转换电路;给出了各电路的硬件结构框图和各器件的特性、选择与应用。从硬件方面分别讲述了FPGA和DSP的工作过程和功能。利用本方案,对实现军事和工程领域中导航系统微小型化、降低系统成本和体积具有重要意义。相似文献

15.

PMESI：一种优化进程私有数据访问的缓存一致性协议

下载免费PDF全文

王绍刚徐炜遐庞征斌吴丹戴艺陆平静《国防科技大学学报》2013,35(1):97-102

并行应用程序中绝大部分的访存是对私有数据的访问,在cache一致性协议上不会产生冲突。传统一致性协议没有根据程序私有数据的访问模式进行针对性设计,存在着很大的优化空间。针对以上的问题,提出了一种支持私有状态的cache一致性协议PMESI,通过动态关闭和激活内存空间的cache一致性目录,优化私有内存空间的访问延迟和功耗。通过时钟精确模拟器的测试,PMESI协议优化了程序中54%的访存,并行程序的执行时间平均缩短了9%。相似文献

16.

高性能微处理器TLB的优化设计

下载免费PDF全文

陈海燕邓让钰邢座程《国防科技大学学报》2004,26(4):10-14

虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。相似文献