期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨惠陈书明万江华《国防科技大学学报》2011,33(4):102-106

以超长指令字(VLIW)数字信号处理器(DSP)作为平台,针对现有提高单线程取指流水线效率的方法中存在的弊端,提出了一种高性能的取指流水架构.该架构支持无效取指的检测与作废,从而降低不必要的cacbe访问,减少取指流水停顿周期,该结构还引入专用硬件支持编译调度的循环软流水,有效提高指令并行性,降低代码存储空间,由此释放... 相似文献

2.

一种面向分布式寄存器文件的VLIW调度新策略

下载免费PDF全文

伍楠文梅张春元《国防科技大学学报》2008,30(1):32-36,62

新一代面向密集计算的高性能处理器普遍采用分布式寄存器文件来支撑ALU阵列,并通过VLIW开发指令级并行.面向分布式寄存器文件的编译成为新兴的研究热点,在斯坦福大学的kernelC编译器ISCD中最早提出了面向分布式寄存器的VLIW调度问题,在该领域处于领先水平,但是没有解决重负载下的分布式寄存器分配问题,使应用编程受到极大限制.在其基础上提出了一种新的VLIW调度策略,实验结果表明能够很好地解决重负载下的分布式寄存器分配问题. 相似文献

3.

面向能耗有效高性能嵌入式微处理器的VLIW调度

下载免费PDF全文

管茂林杨乾明张春元文梅《国防科技大学学报》2012,34(6):26-33

为了降低功耗,目前能耗有效的嵌入式微处理器一般都采用分布式与层次化的寄存器文件结构。第一层的超小寄存器文件(TORF)的极小容量使得很多数据必须存放到第二层的通用寄存器文件(GRF)中,这给编译器带来了新的挑战。通过分析程序特征,提出了新的VLIW调度算法,通过在编译时对变量进行检测,在恰当的时机插入虚拟的copy操作并进行指令与通信调度,为对寄存器需求较大的全局变量与软流水变量构建了新的包含GRF的数据传输路由,将对TORF的压力转移到GRF中。实验结果表明,新的VLIW调度算法符合处理器的设计初衷。与不使用GRF相比,在程序性能只降低约8%的情况下,降低了约51%的寄存器访问能耗,43%的处理器能耗。最关键的是避免了程序员手工分配优化的难题。相似文献

4.

流体系结构技术发展探讨 总被引：1，自引：0，他引：1

张春元文梅伍楠任巨管茂林何义《国防科技大学学报》2009,31(5):1-5,11

以流计算模型为基础的流体系结构,是面向未来的单片上集成超10亿只晶体管和上千ALU时代的新型体系结构,正成为微处理器体系结构研究关注的前沿焦点之一.首先分析流计算的背景;总结现有的具有代表性的流体系结构,并对它们的结构、执行模式、并行性、片上存储使用方式和应用目标等方面进行了比较;然后归纳流程序设计及其环境,讨论当前流编译研究的热点方向;最后探讨流处理器设计的发展趋势. 相似文献

5.

一种应用定制指令集可重构结构及FFT算法映射优化

下载免费PDF全文

刘磊杨子煜沈剑良李思昆《国防科技大学学报》2012,34(6):39-45

现代无线通信应用对FFT计算吞吐率与灵活性需求越来越高,针对传统方案实现FFT计算时难以兼顾性能与灵活性的问题,提出一种应用定制指令集可重构结构ASRA,实现了FFT算法在该结构上的映射优化。ASRA在静态多发射处理器内紧耦合应用定制的混合粒度可重构硬件作为扩展功能单元簇,通过运行时重构动态切换扩展指令集。ASRA采用多体便笺存储器、多端口便笺管理单元及可重构互连构成片上缓存系统,结合多体并行访问、循环级乒乓交替、读/写流水化等技术有效提高了访存带宽;静态多发射和运行时语境管理机制支持核心循环的硬件自动流水执行和软流水执行,开发了指令级、数据级和循环级等多层次并行性。实验结果表明,ASRA大幅提升了FFT计算吞吐率,且支持的FFT计算参数更加灵活,而增加的面积开销相对较小。相似文献

6.

一种新型的Free-memory众核处理器片上通信接口

下载免费PDF全文

郭御风李琼窦强张磊刘路《国防科技大学学报》2011,33(2):145-149

高性能计算机系统越来越多采用集群系统,集群系统的性能极大地依赖于通信接口.基于片外SRAM保存地址变换表的用户级通信方法,极大地增加了芯片和系统的设计复杂度和成本.在传统基于I/O总线的HCA基础上,提出并实现了一种新型的Free-Memory的众核处理器片上通信接口,去掉了本地存储器接口,通过高效的cache管理策略... 相似文献

7.

具有高效混洗模式存储器的可编程混洗单元

下载免费PDF全文

万江华刘胜周锋王耀华陈书明《国防科技大学学报》2011,33(6):31-35

为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率.采用区分不同混洗粒度和元素索引等方法对混洗模式所对应的开关矩阵进行了压缩,我们的存储效率高于当前其他方案.该混洗单元具有可编程的特点,应用程序... 相似文献

8.

面向SDR应用的向量存储器的设计与优化

下载免费PDF全文

陈海燕刘胜刘仲陈书明《国防科技大学学报》2012,34(3):98-102

针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构.该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代价实现并行访问多个向量数据.在此基础上,还设计了一种向量访存重整理单元,使向量存储器可灵活支持多路SIMD结构向量处理单元的非对齐访问,实现了其对向量存储器的共享.测试结果表明,该向量存储器能有效减少或消除向量处理单元之间的数据混洗操作,加速相关应用算法. 相似文献

9.

使用位流重定位与差异配置在线演化数字系统

下载免费PDF全文

姚睿何坤朱萍李增武羊宇中《国防科技大学学报》2017,39(3):69-76

利用位流重定位与差异配置技术对现有基于动态部分重构的演化硬件实现方法进行改进,以解决其演化复杂电路时位流存储开销大和演化速度慢的问题。利用Xilinx早期获取部分重构技术,定制能实现位流重定位的可演化IP核。原始位流文件经设计形成算子核位流库存于外部CF卡上,方便系统调用。将现场可编程门阵列片内软核处理器Micro Blaze作为演化控制器,采用染色体差异配置技术,在线实时调节可演化IP核的电路结构,构成基于片上可编程系统的自演化系统。以图像滤波器的在线演化设计为例,在Virtex-5现场可编程门阵列开发板ML507上对系统结构和演化机制进行验证,结果表明,所提演化机制能有效节省位流存储空间,提高演化速度。相似文献

10.

存储体编译和布局协同的片上缓存设计方法

刘必慰熊琪杨茗宋雨露《国防科技大学学报》2024,46(1):198-203

为了提高片上缓存的速度、降低面积和功耗,提出了一种存储体编译和布局协同的片上缓存设计方法。该方法基于存储体在芯片上的不同空间位置预估该存储体的时序余量,分别采用拆分/合并、尺寸调整、阈值替换和长宽比变形等多种配置参数穷举组合进行存储体编译,根据时序余量选择最优的静态随机存取存储器存储体编译配置。将该方法与现有的物理设计步骤集成为一个完整的设计流程。实验结果表明,该方法能够降低约9.9%的功耗,同时缩短7.5%的关键路径延时。相似文献

11.

2014nccet：一种新的用于减少远程Cache访问延迟的最后一次写访问预测方法_*

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1)

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

12.

GSVM:一种支持Gather/Scatter的向量存储器

下载免费PDF全文

陈海燕刘胜吴健虢《国防科技大学学报》2020,42(3):1-8

宽单指令多数据流(Single Instruction Multiple Data, SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2～8的性能加速比。相似文献

13.

顺序PROLOG机KD-PP的系统结构和硬件实现技术

下载免费PDF全文

刘滨海闻烽王剑琪张晨曦《国防科技大学学报》1990,12(2):106-112

本文提出的KD-PP系统是一种基于编译技术的顺序PROLOG推理系统,该系统的设计为逻辑型程序语言PROLOG的实现提供了硬件支持,因而能高效地执行PROLOG程序。本文从数据表示、存储系统、机器状态和指令系统等方面全面地介绍了顺序PROLOG机KD-PP的系统结构和硬件实现技术。相似文献

14.

用于减少远程Cache访问延迟的最后一次写访问预测方法

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1):14-20

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

15.

利用混合编程改善SMP机群上并行矩阵乘法的性能 总被引：1，自引：1，他引：0

下载免费PDF全文

吴建平王正华李晓梅《国防科技大学学报》2006,28(4):68-72

针对SMP机群,探讨了分别利用单机优化、OpenMP与MPI从指令级、共享存储级与分布主存级三个层次上改善矩阵并行乘Fox算法性能的方法。并通过调用数学函数库与混合编程的方式,在深腾6800上进行了实验,取得了相当满意的数值效果。相似文献

16.

高性能微处理器TLB的优化设计

下载免费PDF全文

陈海燕邓让钰邢座程《国防科技大学学报》2004,26(4):10-14

虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。相似文献

17.

基于中间表示规则替换的二进制翻译中间代码优化方法

下载免费PDF全文

李男庞建民《国防科技大学学报》2021,43(4):156-162

动态二进制翻译在实现多源到多目标的程序翻译过程中,为屏蔽不同源平台间的硬件差异引入中间代码,采用内存虚拟策略进行实现,但同时带来中间代码膨胀问题。传统的中间代码优化方法主要采用对冗余指令进行匹配删除的方法。将优化重点聚焦在针对特殊指令匹配的中间表示规则替换上,提出了一种基于中间表示规则替换的二进制翻译中间代码优化方法。该方法针对中间代码膨胀所呈现的几种典型情景,描述了中间表示替换规则,并将以往应用在后端代码优化上的寄存器直接映射策略应用在此处。通过建立映射公式,实现了将原来的内存虚拟操作替换为本地寄存器操作,从而降低了中间代码膨胀率。使用SPEC CPU2006测试集进行了实验,验证了此优化方法的正确性和有效性。测试用例在优化前和优化后的执行结果一致,验证了优化方法的正确性;优化后测试用例的中间代码平均缩减率达到32.59%,验证了优化方法的有效性。相似文献