首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
宽单指令多数据流(Single Instruction Multiple Data, SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2~8的性能加速比。  相似文献   

2.
为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率.采用区分不同混洗粒度和元素索引等方法对混洗模式所对应的开关矩阵进行了压缩,我们的存储效率高于当前其他方案.该混洗单元具有可编程的特点,应用程序...  相似文献   

3.
为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。  相似文献   

4.
现代无线通信应用对FFT计算吞吐率与灵活性需求越来越高,针对传统方案实现FFT计算时难以兼顾性能与灵活性的问题,提出一种应用定制指令集可重构结构ASRA,实现了FFT算法在该结构上的映射优化。ASRA在静态多发射处理器内紧耦合应用定制的混合粒度可重构硬件作为扩展功能单元簇,通过运行时重构动态切换扩展指令集。ASRA采用多体便笺存储器、多端口便笺管理单元及可重构互连构成片上缓存系统,结合多体并行访问、循环级乒乓交替、读/写流水化等技术有效提高了访存带宽;静态多发射和运行时语境管理机制支持核心循环的硬件自动流水执行和软流水执行,开发了指令级、数据级和循环级等多层次并行性。实验结果表明,ASRA大幅提升了FFT计算吞吐率,且支持的FFT计算参数更加灵活,而增加的面积开销相对较小。  相似文献   

5.
实时图像的采集与显示   总被引:1,自引:0,他引:1       下载免费PDF全文
本文介绍了一个实时图象采集与显示系统,较为详细地说明了系统的工作原理,分析了各部分的实现过程。特别是本系统中引入多体存储器存储图象的方法,改善了数据接口的带宽,实现了图象数据采集、存储、传送的实时操作。  相似文献   

6.
虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。  相似文献   

7.
针对图计算应用的访存特点,提出并实现一种支持高并发、乱序和异步访存的高并发访存模块(High Concurrency and high Performance Fetcher, HCPF)。通过软-硬件协同的设计方法,HCPF可同时处理192条共8种类型的内存访问请求,且访存粒度可由用户定义,满足图计算应用对海量低延迟细粒度数据访问的需求。同时,HCPF扩展了基于内存语义的跨计算节点定制互连技术,支持远程内存的细粒度直接访问,为后续实现分布式图计算框架提供技术基础。结合上述两个核心研究内容,基于流水线RISC-V处理器核,设计并实现了可支持HCPF的RISC-V片上系统(System-on-Chip,SoC)架构,搭建基于FPGA的原型验证平台,并使用自研测试程序对HCPF进行初步性能评测。实验结果表明,HCPF相比原有访存通路,最高可将基于数组和随机地址的两种随机内存访问性能分别提升至3.5倍和2.7倍。远程内存直接访问4 Byte数据的延时仅为1.63μs。  相似文献   

8.
为了达到异构多核处理器能直接交叉访问对方的内存地址空间的目的,通过构建统一的三级Cache结构和数据块状态标记方法,并优化Cache块状态的修改算法,提出了异构千核处理器系统的统一内存地址空间访问方法,避免了当前独立式异构计算机系统结构下复制和传输数据块所带来的大量额外访存开销。通过采用部分Rodinia基准测试程序测试,获得了最高9.8倍的系统加速比,最多减少了90%的访存频率。因此,采用该方法能有效减少异构核心间交换数据块所带来的系统开销,提高异构千核处理器的系统性能加速比。  相似文献   

9.
大尺寸滑动窗口的应用在数据输入速度与处理速度之间存在较大差距.为了缩短差距,提出了一种并行计算模型,使用尽可能少的存储资源与尽可能简单的存储器读写控制逻辑实现了尽可能高的数据重用性与并行性.该模型将不同滑动窗口之间的并行处理与单个窗口内不同数据之间的并行处理结合起来:对于不同窗口,按列进行分组并映射到多个处理单元上并行...  相似文献   

10.
代码体积和代码稀疏是VLIW处理器一直存在的问题.通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行.实验证明,该技术能够减少MASA流处理器中近39%的片外指令访存,降低约65%的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37%和8.9%.  相似文献   

11.
作为计算机体系结构核心问题之一的存储一致性研究主要是围绕CPU访存一致性问题展开的,I/O设备DMA操作引发的存储一致性问题则一直处于研究的边缘。从I/O与存储体系结构一体化设计理念出发,针对支持全局DMA访问的分布共享存储(DSM)系统存储一致性问题,研究广义存储一致性,定义了涵盖I/O的广义程序概念,建立了广义域存储一致性模型,研究了基于广义域存储一致性模型的Cache-Memory-I/O一致性协议实现技术,对于DSM系统实现全局共享I/O具有指导意义和参考价值。  相似文献   

12.
在SIMD处理器上映射矩阵运算时会带来大量的数据重排操作从而降低系统性能。本文提出定制化的多粒度矩阵寄存器文件(MMRF)以消除数据重排操作。MMRF支持多粒度的并行行访问和列访问,从而提升矩阵运算的性能。MMRF可以被动态配置为不同的并行访问模式,在不同模式下一个或多个子矩阵可以被并行处理。实验结果显示,同传统的向量寄存器文件(VRF)和矩阵寄存器文件(MRF)相比,MMRF可分别带来2.21倍和1.6倍的平均性能提升,面积分别增加14.3%和3.7%,功耗分别增加14.6%和2.2%。同TMS320C64x+处理器相比,基于SIMD技术的FT-Matrix处理器在引入MMRF后可以得到5.65倍到7.71倍的性能提升。通过层次化的全定制设计技术,MMRF的面积和关键路径分别减少17.9%和39.1%。  相似文献   

13.
提出了一种安全私有云解决方案,是通过研究云计算安全体系模型,结合私有云架构特点设计的一种安全架构。与其他私有云解决方案相比,该架构安全系数较高,具有多层次、可扩展和强安全的特点。能够保证云用户安全快速登录云系统,使用透明加解密来保证用数据的可用性和安全性,实现了云数据的密文访问控制功能,增强了云存储数据的机密性,为私有云解决方案提供安全技术保障。  相似文献   

14.
文中介绍了军用通信网接入层的组建原则,通过比较目前几种不同的接入技术,说明了多业务接入平台(MSAP)的技术特点和优势,提出了以MSAP作为军用通信网接入层的解决方案,并给出了采用MSAP组网的网络示意图。最后采用CPU+ASIC+FPGA这种典型的通信系统硬件架构,分析了MSAP的软硬件联合实现。  相似文献   

15.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

16.
用户入站容量是RDSS系统设计的一个重要指标,主要受限于入站信号之间的多址干扰.提高扩频码速率可以增加人站容量,但卫星转发器带宽限制了扩频码速率的最大值,从而限制了单个扩频频谱入站信号容量最大值.在卫星转发器带宽受限情况下,提出了采用分离扩频频谱的方法来提高入站容量,并分别对扩频频谱分离为两个和三个的情况进行了详细分析,得出了两种分离扩频频谱方案下扩频码速率的最优值.仿真结果表明,在现有转发器带宽内分离为两个扩频频谱可以提高入站容量29%,分离为三个扩频频谱可以提高人站容量37%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号