首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构.该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代价实现并行访问多个向量数据.在此基础上,还设计了一种向量访存重整理单元,使向量存储器可灵活支持多路SIMD结构向量处理单元的非对齐访问,实现了其对向量存储器的共享.测试结果表明,该向量存储器能有效减少或消除向量处理单元之间的数据混洗操作,加速相关应用算法.  相似文献   

2.
宽单指令多数据流(Single Instruction Multiple Data, SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2~8的性能加速比。  相似文献   

3.
并行应用程序中绝大部分的访存是对私有数据的访问,在cache一致性协议上不会产生冲突。传统一致性协议没有根据程序私有数据的访问模式进行针对性设计,存在着很大的优化空间。针对以上的问题,提出了一种支持私有状态的cache一致性协议PMESI,通过动态关闭和激活内存空间的cache一致性目录,优化私有内存空间的访问延迟和功耗。通过时钟精确模拟器的测试,PMESI协议优化了程序中54%的访存,并行程序的执行时间平均缩短了9%。  相似文献   

4.
提出并实现的一种数据错误快速定位机制(Fast Fault Location Mechanism,FFLM)面向多核处理器存储系统的功能验证,FFLM基于硬件仿真器构建多端口存储器黄金模型,通过在仿真过程中实时监控存储系统与处理器核之间的访存报文,在线比较被测系统访问真实存储器的数据与黄金模型中的对应数据是否一致,在错误数据从存储系统送入处理器核的时刻就能够发现数据错误。与传统方法相比,FFLM具有仿真速度快、硬件资源代价低以及定位错误时间短的优点。对自主设计的CMP-16多核处理器进行仿真时的统计数据表明:使用FFLM后定位数据错误的速度能够比未使用FFLM时平均提高6.5倍。  相似文献   

5.
针对图计算应用的访存特点,提出并实现一种支持高并发、乱序和异步访存的高并发访存模块(High Concurrency and high Performance Fetcher, HCPF)。通过软-硬件协同的设计方法,HCPF可同时处理192条共8种类型的内存访问请求,且访存粒度可由用户定义,满足图计算应用对海量低延迟细粒度数据访问的需求。同时,HCPF扩展了基于内存语义的跨计算节点定制互连技术,支持远程内存的细粒度直接访问,为后续实现分布式图计算框架提供技术基础。结合上述两个核心研究内容,基于流水线RISC-V处理器核,设计并实现了可支持HCPF的RISC-V片上系统(System-on-Chip,SoC)架构,搭建基于FPGA的原型验证平台,并使用自研测试程序对HCPF进行初步性能评测。实验结果表明,HCPF相比原有访存通路,最高可将基于数组和随机地址的两种随机内存访问性能分别提升至3.5倍和2.7倍。远程内存直接访问4 Byte数据的延时仅为1.63μs。  相似文献   

6.
为了达到异构多核处理器能直接交叉访问对方的内存地址空间的目的,通过构建统一的三级Cache结构和数据块状态标记方法,并优化Cache块状态的修改算法,提出了异构千核处理器系统的统一内存地址空间访问方法,避免了当前独立式异构计算机系统结构下复制和传输数据块所带来的大量额外访存开销。通过采用部分Rodinia基准测试程序测试,获得了最高9.8倍的系统加速比,最多减少了90%的访存频率。因此,采用该方法能有效减少异构核心间交换数据块所带来的系统开销,提高异构千核处理器的系统性能加速比。  相似文献   

7.
虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。  相似文献   

8.
面向众核处理器提出一种访存链路接口的现场可编程门阵列(Field-Programmable Gate Array,FPGA)验证平台,用于对处理器访存链路关键部件进行功能及可靠性测试。提出片上读写激励自动产生与检查机制、以太网接口硬件用户数据报协议(User Datagram Protocol,UDP)协议栈和FPGA芯片间多通道并行链路三项关键技术并进行设计实现。实验结果表明提出的各项关键技术功能正确,不仅丰富了功能验证中随机激励产生及结果验证的手段,而且实现了对链路数据检错和多lane间延迟偏斜纠正逻辑的可靠性测试与评估。经过该平台验证的访存链路接口在实际芯片中通过了功能正确性测试,证明了验证的有效性。  相似文献   

9.
代码体积和代码稀疏是VLIW处理器一直存在的问题.通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行.实验证明,该技术能够减少MASA流处理器中近39%的片外指令访存,降低约65%的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37%和8.9%.  相似文献   

10.
现代无线通信应用对FFT计算吞吐率与灵活性需求越来越高,针对传统方案实现FFT计算时难以兼顾性能与灵活性的问题,提出一种应用定制指令集可重构结构ASRA,实现了FFT算法在该结构上的映射优化。ASRA在静态多发射处理器内紧耦合应用定制的混合粒度可重构硬件作为扩展功能单元簇,通过运行时重构动态切换扩展指令集。ASRA采用多体便笺存储器、多端口便笺管理单元及可重构互连构成片上缓存系统,结合多体并行访问、循环级乒乓交替、读/写流水化等技术有效提高了访存带宽;静态多发射和运行时语境管理机制支持核心循环的硬件自动流水执行和软流水执行,开发了指令级、数据级和循环级等多层次并行性。实验结果表明,ASRA大幅提升了FFT计算吞吐率,且支持的FFT计算参数更加灵活,而增加的面积开销相对较小。  相似文献   

11.
为提升物联网与边缘计算应用中前端节点间的数据访问效率,提出了一种新型远程零拷贝文件系统。该文件系统无须借助特殊硬件,可直接基于通用网卡设备实现零拷贝的数据传输框架;充分利用新型非易失内存的随机访问特性,尽可能减少数据缓存和拷贝,提高数据访问的吞吐量。建立缓冲区池,精简并融合传统网络栈和存储栈,从而缩短文件访问路径,减少软件冗余,降低数据访问延迟。最终提供高带宽、低延迟的远程数据访问性能。测试结果表明,远程零拷贝文件系统比传统网络文件系统减少了42.26%~99.19%的读写延迟,细粒度访问下的吞吐量最高可提升1297倍,显著降低了处理器开销和缓存失效次数。  相似文献   

12.
针对现有神经网络加速器在处理稀疏神经网络时存在的数据加载效率低、乘加资源利用率低、输出缓存寻址逻辑复杂等问题,提出了稀疏卷积计算高效数据加载与输出缓存策略。将属于同一输入通道的非零输入特征图像数据和非零权重进行全对全乘累加运算,降低了非零数据配对难度,提高了乘加资源利用率;通过采用输入驻留计算,以及密集型循环加载特征图像数据,大幅减少了数据片外调取次数;优化了输出缓存设计,解决了现有方案中存在的输出缓存地址访问争用、存储拥塞等问题。实验表明,与采用类似架构的细粒度脉动加速器相比,在处理单元面积上减少了21.45%;在数据加载速度方面平均提高了117.71%在平均乘法器利用率方面提高了11.25%,达到89%。  相似文献   

13.
顾及时空语义的多主题瓦片数据优化检索方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对虚拟地球可视化中多个逻辑图层叠加产生大量同名瓦片索引重叠引起的数据无效访问和内存冗余等问题,提出顾及时空语义的瓦片数据优化检索方法。在客户端实现顾及时空语义的自适应瓦片优选,将视点信息与数据集的时空范围、分辨率和优先级等语义信息自动匹配与自适应筛选过滤,显著提高目标瓦片数据的命中率;在服务器端实现面向主题的内存数据库瓦片数据缓存,进一步提高瓦片数据二次访问的响应速度。实验表明,该方法不受逻辑图层增量影响,保证目标瓦片较高的命中率,缓存方法进一步提升瓦片二次访问效率,显著提高面向多数据集的海量数据实时可视化性能。  相似文献   

14.
YH-SIM是一种正在研制中的顺序PROLOG机。本文介绍该机存储组织的设计考虑。根据PROLOG过程执行的具体特点,文中提出了一种多专用Cache的存储子系统结构,旨在支持深度优先加回溯的顺序PROLOG求解机制。即按照不同的访问方式,设立常规Cache和栈式Cache,分别支持存储空间中的随机访问区域和栈式访问区域。作为一个典型的子部分,文中详细讨论了选择点Cache的控制和调度策略。  相似文献   

15.
高性能RTI自适应通信机制研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了提高HLA仿真系统在高性能计算平台上的运行性能,针对高性能计算平台的高性能层次式通信环境,提出了一种共享内存/IB/以太网自适应RTI通信机制-SACM机制,该机制能够根据通信双方所在节点的网络拓扑信息,自适应建立延迟最小的通信连接,实现共享内存、IB等高速互连及以太网互连的自适应选择.同时在该通信机制中,针对节点内高速共享内存通信需求,提出了一种面向多盟员互连的共享内存通信算法,有效提高了节点内盟员通信效率.对象属性值更新延迟测试结果表明,该通信机制可以有效提高RTI在高性能计算平台的通信性能.  相似文献   

16.
提出了一种面向故障的软件测试方法,用以检测C程序中坏的存储分配、存储泄漏、空指针引用、数组越界和未初始化变量等5类故障.该方法在词法分析和语法分析的基础上,利用检查点查找算法查找可疑点,通过适当的人工确认,能够有效找出软件中的故障.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号