期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2):79-85

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了访问模式的多核末级Cache优化方法,它包含"可配置的共享私有Cache划分"、"可配置的旁路Cache策略"和"优先权替换策略"三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

2.

异构千核处理器系统的统一内存地址空间访问方法

下载免费PDF全文

裴颂文 吴小东唐作其熊乃学《国防科技大学学报》2015,37(1):28-33

为了达到异构多核处理器能直接交叉访问对方的内存地址空间的目的,通过构建统一的三级Cache结构和数据块状态标记方法,并优化Cache块状态的修改算法,提出了异构千核处理器系统的统一内存地址空间访问方法,避免了当前独立式异构计算机系统结构下复制和传输数据块所带来的大量额外访存开销。通过采用部分Rodinia基准测试程序测试,获得了最高9.8倍的系统加速比,最多减少了90%的访存频率。因此,采用该方法能有效减少异构核心间交换数据块所带来的系统开销,提高异构千核处理器的系统性能加速比。相似文献

3.

YHFT-DX高性能DSP中Cache失效流水设计

郭阳傅祎晖刘胜李勇《国防科技大学学报》2009,31(6):6-11

YHFT-DX是国防科技大学自主研制的一款高性能DSP.以提升YHFI-DX的 Cache 性能为目标,研究了降低 Cache 失效延迟的优化策略,设计并实现了一种针对高频高性能DSP的一级数据Cache优化策略--失效流水.与传统优化策略相比,该策略将连续访问Cache的失效请求并进行流水化处理,使多个Cache失效延迟重叠,从而达到降低平均Cache失效代价的目的.将该策略应用到YHFT-DX芯片的一级数据Cache控制器的设计与优化中,使访问Cache失效引起的流水线停顿从8拍降为2拍,显著提升了系统性能. 相似文献

4.

用于减少远程Cache访问延迟的最后一次写访问预测方法

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1):14-20

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

5.

2014nccet：一种新的用于减少远程Cache访问延迟的最后一次写访问预测方法_*

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1)

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

6.

高性能微处理器TLB的优化设计

下载免费PDF全文

陈海燕邓让钰邢座程《国防科技大学学报》2004,26(4):10-14

虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。相似文献

7.

位置信息与替换概率相结合的多核共享Cache管理机制

下载免费PDF全文

徐金波庞征斌李琰《国防科技大学学报》2016,38(5):32-38

多核系统中末级Cache是影响整体性能的关键。为了提出一种细粒度、低延迟、低代价的末级共享Cache资源管理机制,将系统性能目标转换为每个内核当前占用Cache资源的替换概率,以决定每个内核能够提供的被替换资源的数量;对某个需要增加Cache资源的内核,从可提供被替换资源的候选内核中选出距离较近且替换概率较高的一个内核,并以Cache块为粒度进行替换,从而实现Cache资源在不同内核间的动态划分。与传统以相联度为粒度的粗粒度替换机制相比,以Cache块为单位的替换机制具有更细的替换粒度,灵活性更高。另外,通过将位置信息和替换概率结合,保证了Cache资源与相应内核在物理布局上的收敛,降低了访问延迟。同时,所提出的方法只需要增加极少的硬件代价。实验结果表明,根据实验场景和对比对象的不同,所提方法与其他已有研究成果相比,可以实现从6.8%到22.7%的性能提升。相似文献

8.

基于共享Cache多核处理器的Radix聚集连接优化

邓亚丹景宁熊伟吴秋云《国防科技大学学报》2009,31(4):68-73

基于目前主流的多核处理器,研究了数据库Radix-Join算法中的聚集连接优化.针对多线程聚集连接执行时,线程Cache访问缺失严重的问题,采用预读线程预先将聚集连接线程需要访问的聚集对从内存读入L2-Cache,提高了线程的Cache访问性能.并根据聚集连接执行时的代价模型,优化了聚集连接执行框架和各种线程参数.在实验中,基于内存数据库EaseDB实现了本文提出了算法,实验结果表明,聚集连接性能得到较大提高. 相似文献

9.

顺序PROLOG机存储组织研究

下载免费PDF全文

李良良《国防科技大学学报》1989,11(4):11-18

YH-SIM是一种正在研制中的顺序PROLOG机。本文介绍该机存储组织的设计考虑。根据PROLOG过程执行的具体特点,文中提出了一种多专用Cache的存储子系统结构,旨在支持深度优先加回溯的顺序PROLOG求解机制。即按照不同的访问方式,设立常规Cache和栈式Cache,分别支持存储空间中的随机访问区域和栈式访问区域。作为一个典型的子部分,文中详细讨论了选择点Cache的控制和调度策略。相似文献

10.

一个基于图着色的CACHE优化方法

下载免费PDF全文

邓宇王蕾张明龚锐郭御风窦强《国防科技大学学报》2012,34(6):20-25

提出了一个编译时的Cache管理优化方法。该方法根据访存行为将程序中的数据划分成若干数据对象,根据数据对象的大小将Cache划分为一个带有别名的伪寄存器文件,每个伪寄存器由若干Cache行组成,可以容纳一个数据对象;使用一个经过改进的图着色寄存器分配算法来决定这些对象在Cache中的位置以及发生冲突时的替换关系。数据对象的划分将Cache的管理分为两个层次,一个是编译时编译器对粗粒度的数据对象的管理,另一个是运行时硬件对细粒度的Cache行的管理,这样编译器和硬件的优势都得到发挥。基于GCC进行了方法实现,并通过simplescalar构造了支持Cache Coloring的硬件模拟平台。实验结果表明Cache Coloring能较好地开发程序的局部性,降低Cache失效率。相似文献

11.

存储体编译和布局协同的片上缓存设计方法

刘必慰熊琪杨茗宋雨露《国防科技大学学报》2024,46(1):198-203

为了提高片上缓存的速度、降低面积和功耗,提出了一种存储体编译和布局协同的片上缓存设计方法。该方法基于存储体在芯片上的不同空间位置预估该存储体的时序余量,分别采用拆分/合并、尺寸调整、阈值替换和长宽比变形等多种配置参数穷举组合进行存储体编译,根据时序余量选择最优的静态随机存取存储器存储体编译配置。将该方法与现有的物理设计步骤集成为一个完整的设计流程。实验结果表明,该方法能够降低约9.9%的功耗,同时缩短7.5%的关键路径延时。相似文献

12.

顾及时空语义的多主题瓦片数据优化检索方法 总被引：1，自引：0，他引：1

下载免费PDF全文

仇林遥王萌朱庆杜志强《国防科技大学学报》2015,37(5):15-20

针对虚拟地球可视化中多个逻辑图层叠加产生大量同名瓦片索引重叠引起的数据无效访问和内存冗余等问题,提出顾及时空语义的瓦片数据优化检索方法。在客户端实现顾及时空语义的自适应瓦片优选,将视点信息与数据集的时空范围、分辨率和优先级等语义信息自动匹配与自适应筛选过滤,显著提高目标瓦片数据的命中率;在服务器端实现面向主题的内存数据库瓦片数据缓存,进一步提高瓦片数据二次访问的响应速度。实验表明,该方法不受逻辑图层增量影响,保证目标瓦片较高的命中率,缓存方法进一步提升瓦片二次访问效率,显著提高面向多数据集的海量数据实时可视化性能。相似文献

13.

基于新型非易失内存的远程零拷贝文件系统

下载免费PDF全文

韩文炳陈小刚李顺芬李大刚陈诗雁段有康宋志棠《国防科技大学学报》2020,42(3):9-16

为提升物联网与边缘计算应用中前端节点间的数据访问效率,提出了一种新型远程零拷贝文件系统。该文件系统无须借助特殊硬件,可直接基于通用网卡设备实现零拷贝的数据传输框架;充分利用新型非易失内存的随机访问特性,尽可能减少数据缓存和拷贝,提高数据访问的吞吐量。建立缓冲区池,精简并融合传统网络栈和存储栈,从而缩短文件访问路径,减少软件冗余,降低数据访问延迟。最终提供高带宽、低延迟的远程数据访问性能。测试结果表明,远程零拷贝文件系统比传统网络文件系统减少了42.26%～99.19%的读写延迟,细粒度访问下的吞吐量最高可提升1297倍,显著降低了处理器开销和缓存失效次数。相似文献

14.

用于DDR3访存优化的数据缓冲机制

下载免费PDF全文

陈胜刚付兴飞曾思刘胜《国防科技大学学报》2017,39(6):39-44

为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。相似文献

15.

基于程序特征分析的流处理器VLIW压缩技术与解压实现

下载免费PDF全文

管茂林何义杨乾明张春元《国防科技大学学报》2012,34(1):138-143

代码体积和代码稀疏是VLIW处理器一直存在的问题.通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行.实验证明,该技术能够减少MASA流处理器中近39％的片外指令访存,降低约65％的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37％和8.9％. 相似文献