期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈胜刚付兴飞曾思刘胜《国防科技大学学报》2017,39(6):39-44

为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。相似文献

2.

异构千核处理器系统的统一内存地址空间访问方法

下载免费PDF全文

裴颂文 吴小东唐作其熊乃学《国防科技大学学报》2015,37(1):28-33

为了达到异构多核处理器能直接交叉访问对方的内存地址空间的目的,通过构建统一的三级Cache结构和数据块状态标记方法,并优化Cache块状态的修改算法,提出了异构千核处理器系统的统一内存地址空间访问方法,避免了当前独立式异构计算机系统结构下复制和传输数据块所带来的大量额外访存开销。通过采用部分Rodinia基准测试程序测试,获得了最高9.8倍的系统加速比,最多减少了90%的访存频率。因此,采用该方法能有效减少异构核心间交换数据块所带来的系统开销,提高异构千核处理器的系统性能加速比。相似文献

3.

面向图计算应用的处理器访存通路优化设计与实现

下载免费PDF全文

张旭常轶松张科陈明宇《国防科技大学学报》2020,42(2):13-22

针对图计算应用的访存特点,提出并实现一种支持高并发、乱序和异步访存的高并发访存模块(High Concurrency and high Performance Fetcher, HCPF)。通过软-硬件协同的设计方法,HCPF可同时处理192条共8种类型的内存访问请求,且访存粒度可由用户定义,满足图计算应用对海量低延迟细粒度数据访问的需求。同时,HCPF扩展了基于内存语义的跨计算节点定制互连技术,支持远程内存的细粒度直接访问,为后续实现分布式图计算框架提供技术基础。结合上述两个核心研究内容,基于流水线RISC-V处理器核,设计并实现了可支持HCPF的RISC-V片上系统(System-on-Chip,SoC)架构,搭建基于FPGA的原型验证平台,并使用自研测试程序对HCPF进行初步性能评测。实验结果表明,HCPF相比原有访存通路,最高可将基于数组和随机地址的两种随机内存访问性能分别提升至3.5倍和2.7倍。远程内存直接访问4 Byte数据的延时仅为1.63μs。相似文献

4.

基于伪临界值的Cache一致性协议验证方法 总被引：1，自引：1，他引：0

下载免费PDF全文

屈婉霞郭阳庞征斌杨晓东《国防科技大学学报》2008,30(6):47-52

针对Cache一致性协议状态空间爆炸问题,提出共享集合伪临界值(Pseudo-cutoff)的概念,并以采用释放一致性模型的CC-NUMA系统为例,分析了共享数据的分布情况,推导出在一定条件下共享集合伪临界值为4的结论,有效优化了目录Cache协议状态空间,并提出了解决小概率的宽共享事件的方法.实验数据表明,基于伪临界值的协议模型优化,能够有效缩小Cache协议状态空间,加快验证速度,扩大验证规模. 相似文献

5.

面向SDR应用的向量存储器的设计与优化

下载免费PDF全文

陈海燕刘胜刘仲陈书明《国防科技大学学报》2012,34(3):98-102

针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构.该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代价实现并行访问多个向量数据.在此基础上,还设计了一种向量访存重整理单元,使向量存储器可灵活支持多路SIMD结构向量处理单元的非对齐访问,实现了其对向量存储器的共享.测试结果表明,该向量存储器能有效减少或消除向量处理单元之间的数据混洗操作,加速相关应用算法. 相似文献

6.

涵盖I/O的广义存储一致性模型

下载免费PDF全文

李琼邓明堂杨学军《国防科技大学学报》2010,32(1):68-73

作为计算机体系结构核心问题之一的存储一致性研究主要是围绕CPU访存一致性问题展开的,I/O设备DMA操作引发的存储一致性问题则一直处于研究的边缘。从I/O与存储体系结构一体化设计理念出发,针对支持全局DMA访问的分布共享存储(DSM)系统存储一致性问题,研究广义存储一致性,定义了涵盖I/O的广义程序概念,建立了广义域存储一致性模型,研究了基于广义域存储一致性模型的Cache-Memory-I/O一致性协议实现技术,对于DSM系统实现全局共享I/O具有指导意义和参考价值。相似文献

7.

众核处理器访存链路接口的FPGA验证

下载免费PDF全文

周宏伟徐实王忠奕杨乾明冯权友邓让钰窦强《国防科技大学学报》2018,40(3):176-182

面向众核处理器提出一种访存链路接口的现场可编程门阵列(Field-Programmable Gate Array,FPGA)验证平台,用于对处理器访存链路关键部件进行功能及可靠性测试。提出片上读写激励自动产生与检查机制、以太网接口硬件用户数据报协议(User Datagram Protocol,UDP)协议栈和FPGA芯片间多通道并行链路三项关键技术并进行设计实现。实验结果表明提出的各项关键技术功能正确,不仅丰富了功能验证中随机激励产生及结果验证的手段,而且实现了对链路数据检错和多lane间延迟偏斜纠正逻辑的可靠性测试与评估。经过该平台验证的访存链路接口在实际芯片中通过了功能正确性测试,证明了验证的有效性。相似文献

8.

高性能微处理器TLB的优化设计

下载免费PDF全文

陈海燕邓让钰邢座程《国防科技大学学报》2004,26(4):10-14

虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。相似文献

9.

GSVM:一种支持Gather/Scatter的向量存储器

下载免费PDF全文

陈海燕刘胜吴健虢《国防科技大学学报》2020,42(3):1-8

宽单指令多数据流(Single Instruction Multiple Data, SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2～8的性能加速比。相似文献

10.

基于K-means和AGNES的未知二进制协议聚类

尹世庄王韬陈庆超刘丽君阎韶林《火力与指挥控制》2020,45(8)

协议的聚类是协议分析中一个重要的环节,为实现对未知二进制协议高效聚类,提出了一种基于K-means聚类和AGNES的未知二进制协议聚类方法。在对获取的二进制协议比特流进行数据预处理的基础上,先采用K-means算法对比特流数据进行初步聚类,再通过误差平方和、Calinski-Harabasz分数值和轮廓系数确定k值,最后选择AGNES算法将未知二进制协议比特流划分为不同的二进制协议子集。方法有效结合了K-means和AGNES算法的特点,降低了时间复杂度的同时提高了聚类的精确度。对实验数据集的测试结果验证了所提方法的有效性,较为准确地确定了k值,聚类精确度达到了98%。相似文献

11.

2014nccet：一种新的用于减少远程Cache访问延迟的最后一次写访问预测方法_*

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1)

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

12.

用于减少远程Cache访问延迟的最后一次写访问预测方法

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1):14-20

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

13.

基于访问模式的多核末级Cache优化方法_*

下载免费PDF全文

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2)

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了一种基于访问模式的多核末级Cache优化方法,它包含“可配置的共享私有Cache划分”、“可配置的旁路Cache策略”和“优先权替换策略”三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

14.

一种面向异构多核DSP的数据流传输控制引擎设计与评测

汪东陈书明《国防科技大学学报》2009,31(5):19-23

根据多核DSP的应用特点,介绍了一种面向异构多核DSP的数据流传输控制引擎(DSTCE)的结构与设计,并实现了基于DSTCE的数据流前瞻传输技术.该技术以可编程的DSTCE模块为核心,实现了超节点内各个端口之间以及超节点之间的高效数据流传输,而且将传输过程与多核间的数据前瞻和编程模型有机结合起来.该技术避免了复杂的Cache一致性问题,显著提高了大规模多核DSP计算与访存的并行性.实验结果表明,采用DSTCE的多核DSP单个超节点的性能平均提高了22%,两个超节点情况下基于DSTCE结构的系统比基于CC-NUMA结构的系统性能平均提高了14%. 相似文献

15.

基于共享Cache多核处理器的Radix聚集连接优化

邓亚丹景宁熊伟吴秋云《国防科技大学学报》2009,31(4):68-73

基于目前主流的多核处理器,研究了数据库Radix-Join算法中的聚集连接优化.针对多线程聚集连接执行时,线程Cache访问缺失严重的问题,采用预读线程预先将聚集连接线程需要访问的聚集对从内存读入L2-Cache,提高了线程的Cache访问性能.并根据聚集连接执行时的代价模型,优化了聚集连接执行框架和各种线程参数.在实验中,基于内存数据库EaseDB实现了本文提出了算法,实验结果表明,聚集连接性能得到较大提高. 相似文献

16.

存储体编译和布局协同的片上缓存设计方法

刘必慰熊琪杨茗宋雨露《国防科技大学学报》2024,46(1):198-203

为了提高片上缓存的速度、降低面积和功耗,提出了一种存储体编译和布局协同的片上缓存设计方法。该方法基于存储体在芯片上的不同空间位置预估该存储体的时序余量,分别采用拆分/合并、尺寸调整、阈值替换和长宽比变形等多种配置参数穷举组合进行存储体编译,根据时序余量选择最优的静态随机存取存储器存储体编译配置。将该方法与现有的物理设计步骤集成为一个完整的设计流程。实验结果表明,该方法能够降低约9.9%的功耗,同时缩短7.5%的关键路径延时。相似文献

17.

一种高效的支持原位计算的三角矩阵乘法向量化方法

下载免费PDF全文

刘仲田希陈磊《国防科技大学学报》2014,36(6)

向量处理器的向量化算法映射是难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法,采用将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重迭,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。在Matrix上的实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。相似文献

18.

MPI并行程序中通信等待问题的诊断方法及其应用

下载免费PDF全文

武林平景翠萍刘旭田鸿运《国防科技大学学报》2020,42(2):47-54

随着并行规模的扩大,现有通信等待问题的诊断方法存在内存开销大、测量时间开销大等问题。通过对现有通信等待问题诊断方法的深入分析,同时考虑测量开销可控的实际需求,建立基于热点函数的通信等待问题诊断模型。基于上述模型,总结出一种更精简、更实用的通信等待问题诊断方法。将该诊断方法分别应用到二维LARED集成、LARED-S、LAP3D等大规模MPI并行程序的通信等待问题诊断过程,应用效果表明本诊断方法可精确定位导致通信等待问题的关键代码段,给出的优化方案及性能提升空间对于后续的程序改进具有参考价值,其中根据诊断结果优化后的LARED-S程序性能提升32%,通信等待时间减少44%。相似文献

19.

针对SCPS-NP的协议分析方法

郑天明王韬李华《军械工程学院学报》2011,(3):56-59

描述了卫星通信协议中网络层协议SCPS-NP的基本结构,阐述了BM算法与ID3算法原理,提出了一种新的针对空间传输协议的有效分析方法———NP-BM-ID3算法,并通过仿真实验进行验证。实验结果表明：通过将原有的数据集分类,该算法不仅有效地解决了模式串长度不足问题,而且减少了规则总数,在条件属性数量不变的情况下降低了运算复杂度。相似文献