首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
一种低功耗预比较TLB结构   总被引:2,自引:0,他引:2       下载免费PDF全文
介绍了一种低功耗TLB结构。这种结构的思想是基于程序局部性原理,结合Block Buffering[1]技术,并对CAM结构进行改造,提出一种预比较TLB结构,实现低功耗的TLB。并且采用Simplescalar 3.0模拟该TLB结构和几种传统的TLB结构的失效率。通过改进的CACTI3[2]模拟结果显示:提出的TLB结构比FA-TLB平均功耗×延迟降低约85%,比Micro-TLB降低80%,比Victim-TLB降低66%,比Bank-TLB降低66%以上。从而,所提出的TLB结构可以达到降低功耗的目的。  相似文献   

2.
并行应用程序中绝大部分的访存是对私有数据的访问,在cache一致性协议上不会产生冲突。传统一致性协议没有根据程序私有数据的访问模式进行针对性设计,存在着很大的优化空间。针对以上的问题,提出了一种支持私有状态的cache一致性协议PMESI,通过动态关闭和激活内存空间的cache一致性目录,优化私有内存空间的访问延迟和功耗。通过时钟精确模拟器的测试,PMESI协议优化了程序中54%的访存,并行程序的执行时间平均缩短了9%。  相似文献   

3.
针对图计算应用的访存特点,提出并实现一种支持高并发、乱序和异步访存的高并发访存模块(High Concurrency and high Performance Fetcher, HCPF)。通过软-硬件协同的设计方法,HCPF可同时处理192条共8种类型的内存访问请求,且访存粒度可由用户定义,满足图计算应用对海量低延迟细粒度数据访问的需求。同时,HCPF扩展了基于内存语义的跨计算节点定制互连技术,支持远程内存的细粒度直接访问,为后续实现分布式图计算框架提供技术基础。结合上述两个核心研究内容,基于流水线RISC-V处理器核,设计并实现了可支持HCPF的RISC-V片上系统(System-on-Chip,SoC)架构,搭建基于FPGA的原型验证平台,并使用自研测试程序对HCPF进行初步性能评测。实验结果表明,HCPF相比原有访存通路,最高可将基于数组和随机地址的两种随机内存访问性能分别提升至3.5倍和2.7倍。远程内存直接访问4 Byte数据的延时仅为1.63μs。  相似文献   

4.
为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。  相似文献   

5.
微处理器经过近30年的发展,已从最初的4位微处理器发展到今天的64位微处理器,本文分析了当前几种主要的64位微处理器体系结构技术特征,论述了在当前64位微处理器中广泛采用的通用技术以及它们对未来微处理器发展的影响,在此基础上提出一些未来的研究方向。  相似文献   

6.
ADTA-1:一种嵌入式异构双核微处理器   总被引:1,自引:0,他引:1  
针对多核日益严重的功耗问题,利用异步技术在低功耗方面的优势,结合数据触发结构设计并实现了一种嵌入式异构双核微处理器(ADTA-1).该设计将异步设计应用于嵌入式多核微处理器中,并在芯片中对异步微处理器进行了测试,验证了异步电路在多核微处理器中的有效性和低功耗特性,为进一步设计和实现低功耗异步多核微处理器进行了有益的探索.  相似文献   

7.
针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构.该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代价实现并行访问多个向量数据.在此基础上,还设计了一种向量访存重整理单元,使向量存储器可灵活支持多路SIMD结构向量处理单元的非对齐访问,实现了其对向量存储器的共享.测试结果表明,该向量存储器能有效减少或消除向量处理单元之间的数据混洗操作,加速相关应用算法.  相似文献   

8.
微处理器是控制系统运行的核心芯片,受到了硬件木马的严重威胁。针对典型微处理器硬件木马进行了分析,根据微处理器的组成结构及其硬件木马的激活方式进行了分类,对现有旁路检测技术进行了系统总结,分析了微处理器硬件木马对旁路检测所提出的挑战,从指令模板分析、电磁与功耗联合分析、差分旁路信号采集等方面进行了应对展望。  相似文献   

9.
低成本惯性制导系统(LCIGS:以下简称惯导系统)是飞行姿态(陀螺)和速度(加速度表)坐标的一种模块化捷联系统,它允许互换地使用不同厂家的仪表而不影响系统的电气、机械接口或处理软件,由于使用微处理器进行处理和控制,使系统的这种设计灵活性成为可能。共用了五个微处理器嵌入到每个模块里:三个加速度表共用一个,三个陀螺模块各用一个,还有一个用于服务模块。这些微处理器实现陀螺在线数字加矩控制和仪表误差模型的有源补偿,包括对温度敏感效应、温度控制、自检等建立的模型。为了适应仪表变化或感受环境变化,利用一个可改写的只读数据库来适应处理和校正算法的要求。只读数据库可由低成本惯导系统支持设备根据标定要求或更换仪表的要求修改。该数据序接受微处理器访问,并用于处理算法系数的修正计算。本文介绍了系统结构并描述了微处理器软件划分及功能。  相似文献   

10.
随着现代微处理器和大规模集成电路、集成光路的发展,自动目标识别(ATR)算法技术在现代防御系统领域中具有越来越重要的作用。文章归纳了目标表示方法,着重对ATR算法──一统计模式识别算法、模板相关算法、基于模型的算法、人工神经网络算法,进行了概述和综合理论分析,并得出了一些有用的结论,为ATR系统学科的发展和应用奠定基础。  相似文献   

11.
高性能计算机系统越来越多采用集群系统,集群系统的性能极大地依赖于通信接口.基于片外SRAM保存地址变换表的用户级通信方法,极大地增加了芯片和系统的设计复杂度和成本.在传统基于I/O总线的HCA基础上,提出并实现了一种新型的Free-Memory的众核处理器片上通信接口,去掉了本地存储器接口,通过高效的cache管理策略...  相似文献   

12.
针对ARM9处理器专用总线扩展时存在总线竞争以及WindowsCE系统下的应用程序不能直接访问外设物理地址等问题,以S3C2410处理器通过HPI接口扩展TMS320VC5402型DSP为例,提出了一种专用总线设计方法,并对防止总线竞争和WindowsCE系统下总线设备的虚拟地址编程访问进行了详细分析。  相似文献   

13.
宽单指令多数据流(Single Instruction Multiple Data, SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2~8的性能加速比。  相似文献   

14.
基于通用多核架构的网络分组处理系统性能受到诸如分组IO开销高、多核共享内存及进程调度竞争大、页表缓冲表项失效率高等问题的困扰。为此提出一种基于通用多核网络分组处理系统、面向高速分组转发应用的线程亲和缓冲区硬件管理机制,并在网络专用协处理引擎上实现。该机制采用无中断的线程亲和调度策略,将包含控制信息与缓冲区地址信息的描述符和分组数据按照分组处理的线程号链式地对应加载在多个地址连续的共享缓冲区中。基于通用多核和现场可编程门阵列平台进行报文转发测试,实验结果表明,采用线程亲和缓冲区管理机制能使平均报文转发处理性能提升12.4%,有效地降低IO开销和TLB表项失效率。  相似文献   

15.
动态二进制翻译在实现多源到多目标的程序翻译过程中,为屏蔽不同源平台间的硬件差异引入中间代码,采用内存虚拟策略进行实现,但同时带来中间代码膨胀问题。传统的中间代码优化方法主要采用对冗余指令进行匹配删除的方法。将优化重点聚焦在针对特殊指令匹配的中间表示规则替换上,提出了一种基于中间表示规则替换的二进制翻译中间代码优化方法。该方法针对中间代码膨胀所呈现的几种典型情景,描述了中间表示替换规则,并将以往应用在后端代码优化上的寄存器直接映射策略应用在此处。通过建立映射公式,实现了将原来的内存虚拟操作替换为本地寄存器操作,从而降低了中间代码膨胀率。使用SPEC CPU2006测试集进行了实验,验证了此优化方法的正确性和有效性。测试用例在优化前和优化后的执行结果一致,验证了优化方法的正确性;优化后测试用例的中间代码平均缩减率达到32.59%,验证了优化方法的有效性。  相似文献   

16.
多核环境下负载均衡的并行离散事件全局调度机制   总被引:1,自引:1,他引:0       下载免费PDF全文
分析了多核环境下传统的离散事件时间弯曲并行系统的性能,针对其事件调度开销小和负载均衡能力强难以兼得的问题,提出了一种基于分布式队列的全局调度机制,设计了相应的数据结构和调度算法,大大减少了锁开销.通过大量实验对多核环境下几种典型离散事件系统并行策略的性能分析表明,本文提出的全局调度策略不仅事件调度开销小,而且回滚率大大降低,有效克服了传统策略回滚量较大或难以实现动态负载平衡的情况,并具备良好的可扩展性.  相似文献   

17.
基于FPGA的内容可寻址存储器研究设计与应用   总被引:5,自引:0,他引:5       下载免费PDF全文
内容可寻址存储器 (CAM )是一种快速匹配存储器件 ,在通信、雷达等许多领域有着广泛的应用。在介绍CAM基本原理的基础上 ,提出了在两类新型FPGA上实现CAM的设计方法 ,并讨论了两种基于CAM的新型关联比较器 (CP)实现途径 ,通过半实物仿真实验 ,验证了CAM和CP的实时信号处理性能。  相似文献   

18.
介绍了DLX虚拟处理器的结构特征和流水线处理机的工作原理,通过矩阵乘法运算实例模拟了程序在DLX虚拟处理器中的流水执行过程,并利用DLX的统计分析工具对流水线的性能进行对比分析,提出了流水线处理过程中潜在问题的解决方法,为设计和改进流水线结构及提高流水线处理机中算法的执行效率提供了参考依据。  相似文献   

19.
代码体积和代码稀疏是VLIW处理器一直存在的问题.通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行.实验证明,该技术能够减少MASA流处理器中近39%的片外指令访存,降低约65%的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37%和8.9%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号