期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

首页 | 本学科首页

官方微博 | 高级检索

相似文献

共查询到16条相似文献，搜索用时 328 毫秒

1.

面向SDR应用的向量存储器的设计与优化

下载免费PDF全文

陈海燕刘胜刘仲陈书明《国防科技大学学报》2012,34(3):98-102

针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构.该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代价实现并行访问多个向量数据.在此基础上,还设计了一种向量访存重整理单元,使向量存储器可灵活支持多路SIMD结构向量处理单元的非对齐访问,实现了其对向量存储器的共享.测试结果表明,该向量存储器能有效减少或消除向量处理单元之间的数据混洗操作,加速相关应用算法. 相似文献

2.

面向图计算应用的处理器访存通路优化设计与实现

下载免费PDF全文

张旭常轶松张科陈明宇《国防科技大学学报》2020,42(2):13-22

针对图计算应用的访存特点,提出并实现一种支持高并发、乱序和异步访存的高并发访存模块(High Concurrency and high Performance Fetcher, HCPF)。通过软-硬件协同的设计方法,HCPF可同时处理192条共8种类型的内存访问请求,且访存粒度可由用户定义,满足图计算应用对海量低延迟细粒度数据访问的需求。同时,HCPF扩展了基于内存语义的跨计算节点定制互连技术,支持远程内存的细粒度直接访问,为后续实现分布式图计算框架提供技术基础。结合上述两个核心研究内容,基于流水线RISC-V处理器核,设计并实现了可支持HCPF的RISC-V片上系统(System-on-Chip,SoC)架构,搭建基于FPGA的原型验证平台,并使用自研测试程序对HCPF进行初步性能评测。实验结果表明,HCPF相比原有访存通路,最高可将基于数组和随机地址的两种随机内存访问性能分别提升至3.5倍和2.7倍。远程内存直接访问4 Byte数据的延时仅为1.63μs。相似文献

3.

用于DDR3访存优化的数据缓冲机制

下载免费PDF全文

陈胜刚付兴飞曾思刘胜《国防科技大学学报》2017,39(6):39-44

为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。相似文献

4.

梯度学习的参数控制帮助线程预取模型

下载免费PDF全文

裴颂文张俊格宁静《国防科技大学学报》2016,38(5):59-63

对于非规则访存的应用程序,当某个应用程序的访存开销大于计算开销时,传统帮助线程的访存开销会高于主线程的计算开销,从而导致帮助线程落后于主线程。于是提出一种改进的基于参数控制的帮助线程预取模型,该模型采用梯度下降算法对控制参数求解最优值,从而有效地控制帮助线程与主线程的访存任务量,使帮助线程领先于主线程。实验结果表明,基于参数选择的线程预取模型能获得1.1~1.5倍的系统性能加速比。相似文献

5.

并行规约与扫描原语在ReRAM架构上的性能优化

下载免费PDF全文

金洲段懿洳伊恩鑫戢昊男刘伟峰《国防科技大学学报》2022,44(5):80-91

规约与扫描是并行计算中的核心原语,其并行加速至关重要。然而,冯·诺依曼体系结构下无法避免的数据移动使其面临“存储墙”等性能与功耗瓶颈。近来,基于ReRAM等非易失存储器的存算一体架构支持的原位计算可一步实现矩阵-向量乘,已在机器学习与图计算等应用中展现了巨大的潜力。提出面向忆阻器存算一体架构的规约与扫描的并行加速方法,重点阐述基于矩阵-向量乘运算的计算流程和在忆阻器架构上的映射方法,实现软硬件协同设计,降低功耗并提高性能。相比于GPU,所提规约与扫描原语可实现高达两个数量级的加速,平均加速比也可达到两个数量级。分段规约与扫描最大可达到五个(平均四个)数量级的加速,并将功耗降低79%。相似文献

6.

众核处理器访存链路接口的FPGA验证

下载免费PDF全文

周宏伟徐实王忠奕杨乾明冯权友邓让钰窦强《国防科技大学学报》2018,40(3):176-182

面向众核处理器提出一种访存链路接口的现场可编程门阵列(Field-Programmable Gate Array,FPGA)验证平台,用于对处理器访存链路关键部件进行功能及可靠性测试。提出片上读写激励自动产生与检查机制、以太网接口硬件用户数据报协议(User Datagram Protocol,UDP)协议栈和FPGA芯片间多通道并行链路三项关键技术并进行设计实现。实验结果表明提出的各项关键技术功能正确,不仅丰富了功能验证中随机激励产生及结果验证的手段,而且实现了对链路数据检错和多lane间延迟偏斜纠正逻辑的可靠性测试与评估。经过该平台验证的访存链路接口在实际芯片中通过了功能正确性测试,证明了验证的有效性。相似文献

7.

MGR-SAT:一种基于流模板的多粒度可重构数字信号处理器 总被引：1，自引：1，他引：0

下载免费PDF全文

杨乾明文梅伍楠苏华友全巍张春元《国防科技大学学报》2011,33(4):65-72

面对需求各异的数字信号处理应用,当前主流的通用处理器、DSP、ASIC和FPGA不能同时满足各应用在成本、功耗、性能、灵活性方面的要求.针对这些问题,结合流处理技术、可重构技术和平台技术,提出一种基于流模板的多粒度可重构数字信号处理器MGR-SAT.MGR-SAT利用流处理技术来解耦合数据运算与访存,提供多种粒度的大规... 相似文献

8.

多核数字信号处理器并行矩阵转置算法优化

下载免费PDF全文

裴向东王庆林廖林玉李荣春梅松竹刘杰庞征斌《国防科技大学学报》2023,45(1):57-66

矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。相似文献

9.

基于程序特征分析的流处理器VLIW压缩技术与解压实现

下载免费PDF全文

管茂林何义杨乾明张春元《国防科技大学学报》2012,34(1):138-143

代码体积和代码稀疏是VLIW处理器一直存在的问题.通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行.实验证明,该技术能够减少MASA流处理器中近39％的片外指令访存,降低约65％的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37％和8.9％. 相似文献

10.

一种应用定制指令集可重构结构及FFT算法映射优化

下载免费PDF全文

刘磊杨子煜沈剑良李思昆《国防科技大学学报》2012,34(6):39-45

现代无线通信应用对FFT计算吞吐率与灵活性需求越来越高,针对传统方案实现FFT计算时难以兼顾性能与灵活性的问题,提出一种应用定制指令集可重构结构ASRA,实现了FFT算法在该结构上的映射优化。ASRA在静态多发射处理器内紧耦合应用定制的混合粒度可重构硬件作为扩展功能单元簇,通过运行时重构动态切换扩展指令集。ASRA采用多体便笺存储器、多端口便笺管理单元及可重构互连构成片上缓存系统,结合多体并行访问、循环级乒乓交替、读/写流水化等技术有效提高了访存带宽;静态多发射和运行时语境管理机制支持核心循环的硬件自动流水执行和软流水执行,开发了指令级、数据级和循环级等多层次并行性。实验结果表明,ASRA大幅提升了FFT计算吞吐率,且支持的FFT计算参数更加灵活,而增加的面积开销相对较小。相似文献

11.

面向访问模式的多核末级Cache优化方法

下载免费PDF全文

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2):79-85

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了访问模式的多核末级Cache优化方法,它包含"可配置的共享私有Cache划分"、"可配置的旁路Cache策略"和"优先权替换策略"三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

12.

基于访问模式的多核末级Cache优化方法_*

下载免费PDF全文

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2)

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了一种基于访问模式的多核末级Cache优化方法,它包含“可配置的共享私有Cache划分”、“可配置的旁路Cache策略”和“优先权替换策略”三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

13.

高性能微处理器TLB的优化设计

下载免费PDF全文

陈海燕邓让钰邢座程《国防科技大学学报》2004,26(4):10-14

虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。相似文献

14.

毫米波引信数字信号处理系统设计

下载免费PDF全文

傅强吴建辉郁文贤《国防科技大学学报》1996,18(1):70-73

本文介绍用ＡＤ９０４８视频闪烁型Ａ／Ｄ芯片、ＴＭＣ２３１０高速矢量处理器和ＴＭＳ３２０Ｃ２５微处理器所设计的超高速可编程毫米波引信数字信号处理系统,给出了系统硬件结构框图和信号处理算法流程。相似文献

15.

基于SIMD处理器的全定制多粒度矩阵寄存器文件

下载免费PDF全文

张凯陈书明王耀华陈海燕李振涛《国防科技大学学报》2013,35(4):156-160

在SIMD处理器上映射矩阵运算时会带来大量的数据重排操作从而降低系统性能。本文提出定制化的多粒度矩阵寄存器文件(MMRF)以消除数据重排操作。MMRF支持多粒度的并行行访问和列访问,从而提升矩阵运算的性能。MMRF可以被动态配置为不同的并行访问模式,在不同模式下一个或多个子矩阵可以被并行处理。实验结果显示,同传统的向量寄存器文件(VRF)和矩阵寄存器文件(MRF)相比,MMRF可分别带来2.21倍和1.6倍的平均性能提升,面积分别增加14.3%和3.7%,功耗分别增加14.6%和2.2%。同TMS320C64x+处理器相比,基于SIMD技术的FT-Matrix处理器在引入MMRF后可以得到5.65倍到7.71倍的性能提升。通过层次化的全定制设计技术,MMRF的面积和关键路径分别减少17.9%和39.1%。相似文献

16.

激光陀螺数字抖动控制方法与特性

下载免费PDF全文

潘献飞江明明李长虹胡小平《国防科技大学学报》2006,28(5):99-103

针对传统的模拟抖动控制系统体积大、灵活性差的缺点,设计了一种基于单片机的新的激光陀螺数字抖动控制方法,建立了陀螺抖动的数学模型,比较研究了传统的模拟正弦波驱动和新的数字方波驱动的抖动特性,指出了后者不同于前者的抖幅变化律及非线性的随机噪声注入方式。仿真和实验证明,该方法能很好满足激光陀螺抖动控制要求,保证陀螺性能。相似文献

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司京ICP备09084417号