首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  免费   6篇
  2024年   1篇
  2018年   1篇
  2012年   2篇
  2011年   2篇
排序方式: 共有6条查询结果,搜索用时 0 毫秒
1
1.
随着标准和算法的不断演进,高端嵌入式应用对性能和能耗提出了越来越高的要求.然而,能耗问题成为将VLSI潜力转换为实际应用需求的最大挑战,基于此,提出ET( Embedded Tera-scale Computing)处理器设计.ET以众多轻量级处理器(称为小核)来搭建目标处理器,每个小核都是一个基于显式数据和指令管理的...  相似文献   
2.
面向众核处理器提出一种访存链路接口的现场可编程门阵列(Field-Programmable Gate Array,FPGA)验证平台,用于对处理器访存链路关键部件进行功能及可靠性测试。提出片上读写激励自动产生与检查机制、以太网接口硬件用户数据报协议(User Datagram Protocol,UDP)协议栈和FPGA芯片间多通道并行链路三项关键技术并进行设计实现。实验结果表明提出的各项关键技术功能正确,不仅丰富了功能验证中随机激励产生及结果验证的手段,而且实现了对链路数据检错和多lane间延迟偏斜纠正逻辑的可靠性测试与评估。经过该平台验证的访存链路接口在实际芯片中通过了功能正确性测试,证明了验证的有效性。  相似文献   
3.
面对需求各异的数字信号处理应用,当前主流的通用处理器、DSP、ASIC和FPGA不能同时满足各应用在成本、功耗、性能、灵活性方面的要求.针对这些问题,结合流处理技术、可重构技术和平台技术,提出一种基于流模板的多粒度可重构数字信号处理器MGR-SAT.MGR-SAT利用流处理技术来解耦合数据运算与访存,提供多种粒度的大规...  相似文献   
4.
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。  相似文献   
5.
代码体积和代码稀疏是VLIW处理器一直存在的问题.通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行.实验证明,该技术能够减少MASA流处理器中近39%的片外指令访存,降低约65%的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37%和8.9%.  相似文献   
6.
为了降低功耗,目前能耗有效的嵌入式微处理器一般都采用分布式与层次化的寄存器文件结构。第一层的超小寄存器文件(TORF)的极小容量使得很多数据必须存放到第二层的通用寄存器文件(GRF)中,这给编译器带来了新的挑战。通过分析程序特征,提出了新的VLIW调度算法,通过在编译时对变量进行检测,在恰当的时机插入虚拟的copy操作并进行指令与通信调度,为对寄存器需求较大的全局变量与软流水变量构建了新的包含GRF的数据传输路由,将对TORF的压力转移到GRF中。实验结果表明,新的VLIW调度算法符合处理器的设计初衷。与不使用GRF相比,在程序性能只降低约8%的情况下,降低了约51%的寄存器访问能耗,43%的处理器能耗。最关键的是避免了程序员手工分配优化的难题。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号