期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1):14-20

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

2.

2014nccet：一种新的用于减少远程Cache访问延迟的最后一次写访问预测方法_*

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1)

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

3.

面向SDR应用的向量存储器的设计与优化

下载免费PDF全文

陈海燕刘胜刘仲陈书明《国防科技大学学报》2012,34(3):98-102

针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构.该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代价实现并行访问多个向量数据.在此基础上,还设计了一种向量访存重整理单元,使向量存储器可灵活支持多路SIMD结构向量处理单元的非对齐访问,实现了其对向量存储器的共享.测试结果表明,该向量存储器能有效减少或消除向量处理单元之间的数据混洗操作,加速相关应用算法. 相似文献

4.

高性能微处理器TLB的优化设计

下载免费PDF全文

陈海燕邓让钰邢座程《国防科技大学学报》2004,26(4):10-14

虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。相似文献

5.

面向访问模式的多核末级Cache优化方法

下载免费PDF全文

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2):79-85

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了访问模式的多核末级Cache优化方法,它包含"可配置的共享私有Cache划分"、"可配置的旁路Cache策略"和"优先权替换策略"三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

6.

基于访问模式的多核末级Cache优化方法_*

下载免费PDF全文

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2)

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了一种基于访问模式的多核末级Cache优化方法,它包含“可配置的共享私有Cache划分”、“可配置的旁路Cache策略”和“优先权替换策略”三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

7.

面向众核处理器的阴阳K-means算法优化

周天阳王庆林李荣春梅松竹尹尚飞郝若晨刘杰《国防科技大学学报》2024,(1):93-102

传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。相似文献

8.

用于DDR3访存优化的数据缓冲机制

下载免费PDF全文

陈胜刚付兴飞曾思刘胜《国防科技大学学报》2017,39(6):39-44

为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。相似文献

9.

面向图计算应用的处理器访存通路优化设计与实现

下载免费PDF全文

张旭常轶松张科陈明宇《国防科技大学学报》2020,42(2):13-22

针对图计算应用的访存特点,提出并实现一种支持高并发、乱序和异步访存的高并发访存模块(High Concurrency and high Performance Fetcher, HCPF)。通过软-硬件协同的设计方法,HCPF可同时处理192条共8种类型的内存访问请求,且访存粒度可由用户定义,满足图计算应用对海量低延迟细粒度数据访问的需求。同时,HCPF扩展了基于内存语义的跨计算节点定制互连技术,支持远程内存的细粒度直接访问,为后续实现分布式图计算框架提供技术基础。结合上述两个核心研究内容,基于流水线RISC-V处理器核,设计并实现了可支持HCPF的RISC-V片上系统(System-on-Chip,SoC)架构,搭建基于FPGA的原型验证平台,并使用自研测试程序对HCPF进行初步性能评测。实验结果表明,HCPF相比原有访存通路,最高可将基于数组和随机地址的两种随机内存访问性能分别提升至3.5倍和2.7倍。远程内存直接访问4 Byte数据的延时仅为1.63μs。相似文献

10.

一种面向异构多核DSP的数据流传输控制引擎设计与评测

汪东陈书明《国防科技大学学报》2009,31(5):19-23

根据多核DSP的应用特点,介绍了一种面向异构多核DSP的数据流传输控制引擎(DSTCE)的结构与设计,并实现了基于DSTCE的数据流前瞻传输技术.该技术以可编程的DSTCE模块为核心,实现了超节点内各个端口之间以及超节点之间的高效数据流传输,而且将传输过程与多核间的数据前瞻和编程模型有机结合起来.该技术避免了复杂的Cache一致性问题,显著提高了大规模多核DSP计算与访存的并行性.实验结果表明,采用DSTCE的多核DSP单个超节点的性能平均提高了22%,两个超节点情况下基于DSTCE结构的系统比基于CC-NUMA结构的系统性能平均提高了14%. 相似文献

11.

梯度学习的参数控制帮助线程预取模型

下载免费PDF全文

裴颂文张俊格宁静《国防科技大学学报》2016,38(5):59-63

对于非规则访存的应用程序,当某个应用程序的访存开销大于计算开销时,传统帮助线程的访存开销会高于主线程的计算开销,从而导致帮助线程落后于主线程。于是提出一种改进的基于参数控制的帮助线程预取模型,该模型采用梯度下降算法对控制参数求解最优值,从而有效地控制帮助线程与主线程的访存任务量,使帮助线程领先于主线程。实验结果表明,基于参数选择的线程预取模型能获得1.1~1.5倍的系统性能加速比。相似文献

12.

基于伪临界值的Cache一致性协议验证方法 总被引：1，自引：1，他引：0

下载免费PDF全文

屈婉霞郭阳庞征斌杨晓东《国防科技大学学报》2008,30(6):47-52

针对Cache一致性协议状态空间爆炸问题,提出共享集合伪临界值(Pseudo-cutoff)的概念,并以采用释放一致性模型的CC-NUMA系统为例,分析了共享数据的分布情况,推导出在一定条件下共享集合伪临界值为4的结论,有效优化了目录Cache协议状态空间,并提出了解决小概率的宽共享事件的方法.实验数据表明,基于伪临界值的协议模型优化,能够有效缩小Cache协议状态空间,加快验证速度,扩大验证规模. 相似文献

13.

基于内外子区域划分的高阶精度CFD程序异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2)

对计算流体力学(CFD)程序CNS提出一种Offload模式下基于内外子区域划分的异构并行算法，结合结构化网格下有限差分计算和四阶龙格库塔方法的特点，引入ghost网格点区域，设计了一种ghost区域收缩计算策略，显著降低了异构计算资源之间的数据传输开销，负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠，提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数，分析了负载均衡的条件。在“CPU(Intel Haswell Xeon E5-2670 12 cores ×2)＋加速器(Xeon Phi 7120A ×2)”的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升5.9倍，较MPI/OpenMP两级并行算法使用24个纯CPU核的性能，该算法使用单加速器时加速1.27倍，使用双加速器加速1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献

14.

高精度CFD程序的内外子区域划分异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2):31-40

对计算流体力学(Computational Fluid Dynamics, CFD)程序CNS提出一种Offload模式下对任务内外子区域划分的异构并行算法,结合结构化网格下有限差分计算和四阶龙格-库塔方法的特点,引入ghost网格点区域,设计了一种ghost区域收缩计算策略,显著降低了异构计算资源之间的数据传输开销,负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠,提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数,分析了负载均衡的条件。在"CPU(Intel Haswell Xeon E5-2670 12 cores×2)+加速器(Xeon Phi 7120A×2)"的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升至5.9倍,较MPI/OpenMP两级并行算法使用24个纯CPU核的性能,该算法使用单加速器时加速至1.27倍,使用双加速器加速至1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献

15.

具有吞吐量和时延约束的软件无线电波形部署决策算法

下载免费PDF全文

吴尚峰唐麒魏急波李卫《国防科技大学学报》2015,37(1):136-141

针对当前具有吞吐量和时延约束的软件无线电波形部署决策算法在内存开销方面考虑的不足,提出一个更为通用的波形部署决策系统模型,将波形的处理开销、内存开销和通信带宽开销都纳入到波形部署决策过程中,并设计了一种基于动态规划的波形部署决策算法以最小化波形对平台各种计算资源的占用总和。仿真结果表明,内存对波形部署决策具有重要影响,与未考虑内存开销的解决方案相比,平台支持的平均最大波形数目和平均处理资源利用率均下降40%左右。相似文献

16.

流编程模型下的存储一致性模型

下载免费PDF全文

邓宇杨学军戴华东王勐《国防科技大学学报》2008,30(1):37-41

在流编程模型下建立了一个新的存储一致性模型--流一致性模型,它比传统的释放一致性模型更加松弛.讨论了流一致性模型对程序设计和系统设计的要求,给出了一个正确的系统实现,并且指出流一致性模型的编程和实现并不比现有的一致性模型复杂. 相似文献

17.

PMESI：一种优化进程私有数据访问的缓存一致性协议

下载免费PDF全文

王绍刚徐炜遐庞征斌吴丹戴艺陆平静《国防科技大学学报》2013,35(1):97-102

并行应用程序中绝大部分的访存是对私有数据的访问,在cache一致性协议上不会产生冲突。传统一致性协议没有根据程序私有数据的访问模式进行针对性设计,存在着很大的优化空间。针对以上的问题,提出了一种支持私有状态的cache一致性协议PMESI,通过动态关闭和激活内存空间的cache一致性目录,优化私有内存空间的访问延迟和功耗。通过时钟精确模拟器的测试,PMESI协议优化了程序中54%的访存,并行程序的执行时间平均缩短了9%。相似文献