期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈胜刚付兴飞曾思刘胜《国防科技大学学报》2017,39(6):39-44

为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。相似文献

2.

GSVM:一种支持Gather/Scatter的向量存储器

下载免费PDF全文

陈海燕刘胜吴健虢《国防科技大学学报》2020,42(3):1-8

宽单指令多数据流(Single Instruction Multiple Data, SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2～8的性能加速比。相似文献

3.

注意力机制量化剪枝优化方法

何源宏姜晶菲许金伟《国防科技大学学报》2024,46(1):113-120

面向基于注意力机制模型的巨大计算和访存开销问题,研究量化和剪枝协同优化的模型压缩技术,提出针对注意力机制中查询、键、值、概率共四个激活值矩阵的对称线性定点量化方法。同时,提出概率矩阵剪枝方法和渐进式剪枝策略,有效降低剪枝精度损失。在不同数据集上的实验结果表明,针对典型基于注意力机制模型BERT,在较低或者没有精度损失的情况下该优化方法可达到4位或8位定点量化、0.93～0.98的稀疏度,大幅度降低模型计算量,为加速量化稀疏模型的推理奠定良好的基础。相似文献

4.

基于共享Cache多核处理器的Radix聚集连接优化

邓亚丹景宁熊伟吴秋云《国防科技大学学报》2009,31(4):68-73

基于目前主流的多核处理器,研究了数据库Radix-Join算法中的聚集连接优化.针对多线程聚集连接执行时,线程Cache访问缺失严重的问题,采用预读线程预先将聚集连接线程需要访问的聚集对从内存读入L2-Cache,提高了线程的Cache访问性能.并根据聚集连接执行时的代价模型,优化了聚集连接执行框架和各种线程参数.在实验中,基于内存数据库EaseDB实现了本文提出了算法,实验结果表明,聚集连接性能得到较大提高. 相似文献

5.

异构千核处理器系统的统一内存地址空间访问方法

下载免费PDF全文

裴颂文 吴小东唐作其熊乃学《国防科技大学学报》2015,37(1):28-33

为了达到异构多核处理器能直接交叉访问对方的内存地址空间的目的,通过构建统一的三级Cache结构和数据块状态标记方法,并优化Cache块状态的修改算法,提出了异构千核处理器系统的统一内存地址空间访问方法,避免了当前独立式异构计算机系统结构下复制和传输数据块所带来的大量额外访存开销。通过采用部分Rodinia基准测试程序测试,获得了最高9.8倍的系统加速比,最多减少了90%的访存频率。因此,采用该方法能有效减少异构核心间交换数据块所带来的系统开销,提高异构千核处理器的系统性能加速比。相似文献

6.

面向多核网络分组处理系统的线程亲和缓冲区管理机制

下载免费PDF全文

杨惠陈一骄李韬李世星戴幻尧《国防科技大学学报》2016,38(5):26-31

基于通用多核架构的网络分组处理系统性能受到诸如分组IO开销高、多核共享内存及进程调度竞争大、页表缓冲表项失效率高等问题的困扰。为此提出一种基于通用多核网络分组处理系统、面向高速分组转发应用的线程亲和缓冲区硬件管理机制,并在网络专用协处理引擎上实现。该机制采用无中断的线程亲和调度策略,将包含控制信息与缓冲区地址信息的描述符和分组数据按照分组处理的线程号链式地对应加载在多个地址连续的共享缓冲区中。基于通用多核和现场可编程门阵列平台进行报文转发测试,实验结果表明,采用线程亲和缓冲区管理机制能使平均报文转发处理性能提升12.4%,有效地降低IO开销和TLB表项失效率。相似文献

7.

面向图计算应用的处理器访存通路优化设计与实现

下载免费PDF全文

张旭常轶松张科陈明宇《国防科技大学学报》2020,42(2):13-22

针对图计算应用的访存特点,提出并实现一种支持高并发、乱序和异步访存的高并发访存模块(High Concurrency and high Performance Fetcher, HCPF)。通过软-硬件协同的设计方法,HCPF可同时处理192条共8种类型的内存访问请求,且访存粒度可由用户定义,满足图计算应用对海量低延迟细粒度数据访问的需求。同时,HCPF扩展了基于内存语义的跨计算节点定制互连技术,支持远程内存的细粒度直接访问,为后续实现分布式图计算框架提供技术基础。结合上述两个核心研究内容,基于流水线RISC-V处理器核,设计并实现了可支持HCPF的RISC-V片上系统(System-on-Chip,SoC)架构,搭建基于FPGA的原型验证平台,并使用自研测试程序对HCPF进行初步性能评测。实验结果表明,HCPF相比原有访存通路,最高可将基于数组和随机地址的两种随机内存访问性能分别提升至3.5倍和2.7倍。远程内存直接访问4 Byte数据的延时仅为1.63μs。相似文献

8.

超声速弹箭阻力系数随高度变化的计算方法研究

林献武王中原张薇《海军工程大学学报》2009,21(3)

基于气体分子动力学的理论分析了不同飞行高度下弹箭气动力的计算模型及工程计算方法,通过计算和分析不同高度下阻力系数的变化量及其对弹箭射程的影响,得出30 km以下阻力系数随高度的变化是射程主要影响因素的结论.基于参考焓方法分析了30 km以下不同来流参数时阻力系数的影响,将不同来漉温度对边界层影响的计算问题转化为同一来流温度不同来流密度下的边界层计算问题,从而简化了影响阻力系数的来流参数,并得到了一个阻力系数随高度变化的实用计算方法,可用于计算阻力系数随高度变化对超远程弹箭射程的影响. 相似文献

9.

分布共享存储系统中程序访存行为对性能的影响

下载免费PDF全文

史扬金士尧张晨曦《国防科技大学学报》1999,21(3):74-77

本文首先提取了分布共享存储系统（ＤＳＭ）中程序访存行为的几个重要参数,并以此建立了一个处理机效率模型。在此模型基础上分析了访存行为的各种因素对处理机效率的影响情况,文章最后给出了提高处理机效率的几种技术途径。相似文献

10.

具有高效混洗模式存储器的可编程混洗单元

下载免费PDF全文

万江华刘胜周锋王耀华陈书明《国防科技大学学报》2011,33(6):31-35

为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率.采用区分不同混洗粒度和元素索引等方法对混洗模式所对应的开关矩阵进行了压缩,我们的存储效率高于当前其他方案.该混洗单元具有可编程的特点,应用程序... 相似文献

11.

YHFT-DX高性能DSP中Cache失效流水设计

郭阳傅祎晖刘胜李勇《国防科技大学学报》2009,31(6):6-11

YHFT-DX是国防科技大学自主研制的一款高性能DSP.以提升YHFI-DX的 Cache 性能为目标,研究了降低 Cache 失效延迟的优化策略,设计并实现了一种针对高频高性能DSP的一级数据Cache优化策略--失效流水.与传统优化策略相比,该策略将连续访问Cache的失效请求并进行流水化处理,使多个Cache失效延迟重叠,从而达到降低平均Cache失效代价的目的.将该策略应用到YHFT-DX芯片的一级数据Cache控制器的设计与优化中,使访问Cache失效引起的流水线停顿从8拍降为2拍,显著提升了系统性能. 相似文献

12.

面向访问模式的多核末级Cache优化方法

下载免费PDF全文

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2):79-85

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了访问模式的多核末级Cache优化方法,它包含"可配置的共享私有Cache划分"、"可配置的旁路Cache策略"和"优先权替换策略"三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

13.

基于伪临界值的Cache一致性协议验证方法 总被引：1，自引：1，他引：0

下载免费PDF全文

屈婉霞郭阳庞征斌杨晓东《国防科技大学学报》2008,30(6):47-52

针对Cache一致性协议状态空间爆炸问题,提出共享集合伪临界值(Pseudo-cutoff)的概念,并以采用释放一致性模型的CC-NUMA系统为例,分析了共享数据的分布情况,推导出在一定条件下共享集合伪临界值为4的结论,有效优化了目录Cache协议状态空间,并提出了解决小概率的宽共享事件的方法.实验数据表明,基于伪临界值的协议模型优化,能够有效缩小Cache协议状态空间,加快验证速度,扩大验证规模. 相似文献

14.

基于硬件计数器的MPEG4视频应用性能特征分析 总被引：1，自引：0，他引：1

下载免费PDF全文

车永刚王正华李晓梅《国防科技大学学报》2004,26(2):46-50 ,55

通过指令集扩展来增强多媒体应用性能是微处理器发展的一个趋势,IntelMMX、SSE和SSE2是很好的例子。但应用本身的特点是否支持这些体系结构特性,应用软件是否充分发挥了多媒体指令集的潜力,都是值得关注的问题。采用动态Profiling的方法,研究MPEG4视频应用在基于IntelP4处理器的桌面机上的性能特性,使用硬件计数器工具来获取指令级的性能数据,并进行了深入分析。发现MPEG4播放软件较好地利用了IntelP4的64位MMX指令集,但对SSE和SSE2指令集几乎没有利用上;两级Cache不命中导致的性能损失很大。为提高视频播放性能,改进存储层次设计与优化播放软件比改进多媒体指令集更加有效。相似文献

15.

针对滑动窗口算法的椭圆曲线密码Cache计时攻击

张金中寇应展《军械工程学院学报》2012,(3):41-45

基于访问驱动攻击模型,提出一种针对椭圆曲线滑动窗口算法的踪迹驱动Cache计时攻击方法,引入了方差思想判断每次窗口滑动是否查找了预计算表,提高了攻击成功率．仿真实验结果表踞：由于滑动窗口算法引入了预计算表,易遭受Cache计时攻击．精确采集NITT-192一次加密过程中窗口105次滑动的Cache时间信息即可获取完整密钥．本文的攻击方法对其他使用预计算表的公钥密码具有借鉴意义．相似文献

16.

高性能微处理器TLB的优化设计

下载免费PDF全文

陈海燕邓让钰邢座程《国防科技大学学报》2004,26(4):10-14

虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。相似文献