排序方式: 共有91条查询结果,搜索用时 250 毫秒
71.
72.
向量处理器的向量化算法映射是难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法,采用将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重迭,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。在Matrix上的实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。 相似文献
73.
提出一种基于融合乘加指令加速FFT计算的向量化方法,通过变换FFT的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得DIT基2 FFT算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,DIT基4 FFT算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速FFT的计算,取得高效的计算性能和效率。 相似文献
74.
75.
76.
77.
论述了一种采用数字信号处理器(DSP)TMS320LF2407A为微控制器的直流电动机控制系统,将传统的PID控制与模糊控制相结合,提出了一种新型的模糊PID智能控制方法,其主要内容涉及模糊控制器的硬件电路构成和软件编程设计。对该系统进行了计算机仿真实验,从仿真结果可知,以TMS320LF2407A为核心的数字控制系统调速系统具有良好的控制性能,不仅能够满足实时控制的要求,易于实现先进的控制策略,而且该设计方案电路简单、可靠性强,具有较高的应用价值。 相似文献
78.
研究并提出一种有效支持组播的高性能路由器QoS机制QoS RESM,该机制以多阈值机制为基础,考虑远程转发引擎的拥塞状态信息,引入全局控制反馈机制,有效完成了高性能路由器上支持组播的流量控制。最后描述QoS RESM在基于网络处理器的核心路由器上的实现方法。 相似文献
79.
利用CUDA Fortran语言发展了基于图形处理器(GPU)的计算流体力学可压缩湍流求解器。该求解器基于结构网格有限体积法,空间离散采用AUSMPW+格式,湍流模型为k-ωSST两方程模型,采用MPI实现并行计算。针对最新的GPU架构,讨论了通量计算的优化方法及GPU计算与PCIe数据传输、MPI通信重叠的多GPU并行算法。进行了超声速进气道及空天飞机等算例的数值模拟以验证GPU在大网格量情况下的加速性能。计算结果表明:相对于Intel Xeon E5-2670 CPU单一核心的计算时间,单块NVIDIA GTX Titan Black GPU可获得107~125倍的加速比。利用四块GPU实现了复杂外形1.34亿网格的快速计算,并行效率为91.6%。 相似文献
80.
本文主要讨论了闪烁存储器(FLASH)Am29LV400B的结构原理及其在DSP系统中的使用方式。通过一个工程实例:以FLASH为应用程序和初始化数据的存储器,通过系统的外部并行自举方式将程序和数据搬移到程序存储空间运行,并介绍了FLASH存储器的优点和软硬件设计中应注意的一些问题。 相似文献