期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王巍徐传福车永刚《国防科技大学学报》2020,42(2)

对计算流体力学(CFD)程序CNS提出一种Offload模式下基于内外子区域划分的异构并行算法，结合结构化网格下有限差分计算和四阶龙格库塔方法的特点，引入ghost网格点区域，设计了一种ghost区域收缩计算策略，显著降低了异构计算资源之间的数据传输开销，负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠，提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数，分析了负载均衡的条件。在“CPU(Intel Haswell Xeon E5-2670 12 cores ×2)＋加速器(Xeon Phi 7120A ×2)”的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升5.9倍，较MPI/OpenMP两级并行算法使用24个纯CPU核的性能，该算法使用单加速器时加速1.27倍，使用双加速器加速1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献

2.

高精度CFD程序的内外子区域划分异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2):31-40

对计算流体力学(Computational Fluid Dynamics, CFD)程序CNS提出一种Offload模式下对任务内外子区域划分的异构并行算法,结合结构化网格下有限差分计算和四阶龙格-库塔方法的特点,引入ghost网格点区域,设计了一种ghost区域收缩计算策略,显著降低了异构计算资源之间的数据传输开销,负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠,提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数,分析了负载均衡的条件。在"CPU(Intel Haswell Xeon E5-2670 12 cores×2)+加速器(Xeon Phi 7120A×2)"的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升至5.9倍,较MPI/OpenMP两级并行算法使用24个纯CPU核的性能,该算法使用单加速器时加速至1.27倍,使用双加速器加速至1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献

3.

基于SOPC的陀螺星敏感器姿态确定系统

白博周军于晓洲《火力与指挥控制》2011,36(2):33-38

为了提高姿态确定算法的计算速度,通过对陀螺星敏感器姿态确定算法的详细分析,设计出了基于SOPC(System On a Programmable Chip)系统的卡尔曼滤波处理器.在该处理器中,对算法进行了软硬件代码划分.软件部分采用Nios II IDE编程环境进行编写和编译,硬件部分采用硬件描述语言进行构造.通过S... 相似文献

4.

乱序超标量处理器核的性能分析与优化

下载免费PDF全文

孙彩霞隋兵才王蕾王永文黄立波李文哲王俊辉《国防科技大学学报》2016,38(5):14-19

随着处理器微体系结构日益复杂,性能分析在处理器研制过程中的作用越来越重要。常用的性能分析方法是建立性能模型,该方法主要用于研制初期的设计空间探索,如果用于微体系结构级的分析和优化,速度和精度都会成为限制因素。因此,提出一种基于计数器的性能分析方法,该方法以项目组已经完成的一款处理器核的硬件实现代码为基础,在处理器核外部添加一个专用性能监测单元,收集微体系结构分析和优化需要的各种事件,并通过结果分析器对统计的事件进行分析,得到微体系结构实现的性能受限因素。采用此方法,在现场可编程门阵列原型系统上对SPEC CPU2000测试程序运行时的性能受限因素进行分析,并根据分析结果采取相应的优化措施,优化后的处理器核性能得到了明显提升。相似文献

5.

基于计数器的处理器核性能分析与优化

下载免费PDF全文

孙彩霞隋兵才王蕾王永文黄立波李文哲王俊辉《国防科技大学学报》2016,38(5)

随着处理器微体系结构日益复杂,性能分析在处理器研制过程中的作用越来越重要。常用的性能分析方法是建立性能模型,该方法主要用于研制初期的设计空间探索,如果用于微体系结构级的分析和优化,速度和精度都会成为限制因素。提出了一种基于计数器的性能分析方法,该方法以项目组已经完成的一款处理器核的硬件实现代码为基础,在处理器核外部添加一个专用性能监测单元,收集微体系结构分析和优化需要的各种事件,并通过结果分析器对统计的事件进行分析,得到微体系结构实现的性能受限因素。采用此方法,在FPGA原型系统上对SPEC CPU2000测试程序运行时的性能受限因素进行了分析,并根据分析结果采取了相应的优化措施,优化后的处理器核性能得到了明显提升。相似文献

6.

一类二维ARMA模型的判阶及参数辨识的一种算法

下载免费PDF全文

吕锐《国防科技大学学报》1986,(2):37-46

本文首先推导出了二维ARMA模型的冲激响应序列h(i,j)与模型参数集{a_(ij)}及{b_(ij)}的关系式,并给出了证明。利用导出的关系式,给出了一种用冲激响应序列确定二维ARMA模型的阶的算法,进而给出了基于冲激响应序列及己确定的阶,求模型参数集{a_(ij)}及{b_(ij)}的算法。由这些算法得到了一种不同于FFT方法的由冲激响应序列求二维频率响应的方法,它与传统的FFT方法比较,具有运算量小,分辩率高及能给出连续频响的优点。最后给出了微机仿真的例子。该算法加以修正后可用于Radar目标辩识和图象重建应用中。相似文献

7.

联合创新军民融合转型升级

《中国军转民》2015,(8)

<正>中国电子以提供电子信息技术产品与服务为主营业务,产业分布在新型显示、信息安全、集成电路、高新电子、信息服务等国家战略性、基础性领域,核心业务聚焦国家信息安全和国民经济发展主战场。中国电子采取联合创新、协同创新、军民融合创新的发展策略,聚焦通用CPU和网络交换芯片作为重点突破口,取得了一系列可喜的成果。中国电子旗下天津飞腾信息技术有限公司的FT—1500A系列CPU处理器,和盛科网络(苏州)有限相似文献

8.

雷达自动目标识别系统中目标检测模块的DSP实现 总被引：5，自引：0，他引：5

下载免费PDF全文

王书宏姜卫东邱兆坤陈曾平《国防科技大学学报》2002,24(3):60-63

研究了基于数字信号处理器 (DSP)雷达目标检测系统的硬件结构和基于该平台的雷达目标检测方法在DSP上的实现。外场实验表明 ,该系统能与多种类型雷达对接 ,实现雷达目标自动检测相似文献

9.

长向量处理器高效RNN推理方法

下载免费PDF全文

苏华友陈抗抗杨乾明《国防科技大学学报》2024,46(1):121-130

模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。相似文献

10.

基于FPGA的带回溯的Smith-Waterman算法加速器的设计与实现

邹丹窦勇夏飞倪时策《国防科技大学学报》2009,31(5):29-32

针对传统的Smith-Waterman硬件算法加速器未保存回溯路径而无法回溯的问题,通过将计算路径存入外存,在FPGA平台上基于脉动阵列实现了带回溯的Smith-Waterman算法加速器,详细阐述了算法加速器回溯设计中的关键技术以及算法加速器的系统结构.实验表明,与传统的解决方案相比,带回溯的算法加速器最高可获得161倍加速比,能够有效提高带回溯的Smith-Waterman算法执行效率. 相似文献

11.

一种新的雷达恒虚警(CFAR) 处理器 总被引：2，自引：0，他引：2

下载免费PDF全文

吉书龙皇甫堪周良柱孙仲康《国防科技大学学报》1990,12(4):116-121

如何维持雷达检测系统恒定的虚警率是现代雷达技术和信号处理技术中重要的问题之一。为使雷达检测系统在复杂的杂波环境中获得恒定的虚警率,就需要有高性能的恒虚警(CFAR)处理器。本文提出的新型CFAR 处理器选择一个与被检测距离单元的值相接近的均值来作为CFAR 的门限,从而使这种处理器具有能够及时反映外部杂波环境变化的自适应性;它硬件实现简单,具有很好的抗多目标效应、抗杂波边缘效应、抗大目标“吃”小目标效应以及降低(CFAR)损失的性能。相似文献

12.

SNR准则下的认知MIMO雷达波形设计 总被引：1，自引：0，他引：1

张鑫崔琛《火力与指挥控制》2012,37(12)

研究了MIMO雷达信号模型下基于最大化信噪比(SNR)准则的最优和稳健波形设计问题.根据对目标冲击响应功率谱密度(PSD)确定和不确定两种条件的分析,推导了最优波形和稳健波形的闭式表达式.仿真结果表明,当目标冲激响应PSD的先验知识准确时,使用最优波形作为发射波形,在接收端获得在给定条件下最优的SNR;当目标冲击响应PSD的先验知识不准确时,使用稳健波形作为发射波形,能够降低目标冲激响应PSD的不确定性对输出端信噪比(SNR)的负面影响. 相似文献

13.

多核处理器验证中存储数据错误快速定位机制

下载免费PDF全文

周宏伟邓让钰李永进晏小波窦强《国防科技大学学报》2012,34(6):1-6

提出并实现的一种数据错误快速定位机制(Fast Fault Location Mechanism,FFLM)面向多核处理器存储系统的功能验证,FFLM基于硬件仿真器构建多端口存储器黄金模型,通过在仿真过程中实时监控存储系统与处理器核之间的访存报文,在线比较被测系统访问真实存储器的数据与黄金模型中的对应数据是否一致,在错误数据从存储系统送入处理器核的时刻就能够发现数据错误。与传统方法相比,FFLM具有仿真速度快、硬件资源代价低以及定位错误时间短的优点。对自主设计的CMP-16多核处理器进行仿真时的统计数据表明:使用FFLM后定位数据错误的速度能够比未使用FFLM时平均提高6.5倍。相似文献

14.

基于BFS和FPGA-CPU的混合加速器设计

郭小波杨光露《火力与指挥控制》2019,44(10)

为了实现由软件和硬件执行小世界图搜索的加速器系统,提出了一种在单芯片FPGA-CPU异构硬件平台上基于广度优先搜索算法实现的混合加速器系统设计;提出了采用线性代数语言实现的BFS;提出了一种处理单元结构,它由一个负责与主存储器全部交互的后端、用于执行布尔塥运算的前端和一个距离生成器构成;在ZedBoard平台上设计了一种采用Xilinx Zynq Z7020 FPGA-CPU混合结构的实际加速器系统。实验结果表明,设计的混合加速器不仅能够实现小世界图的快速搜索,而且相比于目前其他先进的基于BFS算法的混合加速器结构有更好的加速性能。相似文献

15.

用FPGA实现浮点FFT处理器的研究 总被引：11，自引：2，他引：9

下载免费PDF全文

王远模赵宏钟张军付强《国防科技大学学报》2004,26(6):61-64

针对定点FFT处理器精度不高的缺点,提出了浮点格式FFT处理器的FPGA硬件实现方案。详细阐述了FFT处理器的自定制浮点格式确定、算法选择和浮点加法实现等关键技术。该处理器已投入使用,工作性能稳定,系统时钟80MHz,完成1024点FFT IFFT运算只需64μs,误差小于-80dB。相似文献

16.

多业务接入平台及其在军事通信中的应用

李永成乔庐峰付永明《军事通信技术》2009,(1)

文中介绍了军用通信网接入层的组建原则,通过比较目前几种不同的接入技术,说明了多业务接入平台(MSAP)的技术特点和优势,提出了以MSAP作为军用通信网接入层的解决方案,并给出了采用MSAP组网的网络示意图。最后采用CPU+ASIC+FPGA这种典型的通信系统硬件架构,分析了MSAP的软硬件联合实现。相似文献

17.

冲激雷达实验系统与测量数据处理技术

陆仲良粟毅何建国余志武《国防科技大学学报》1993,15(3):52-57

本文介绍一种冲激雷达实验系统。它是设置在微波暗室内的全空间实验系统,天线、录取电路和数据处理器是专门设计的,能录取各种目标的回波数据,给出实时处理结果。文中讨论了数据处理技术,提出用规则化方法求解目标冲激响应、估计AR模型参数,给出了实际结果,表明该算法的有效性。测量了涂覆RAM目标的回波,对比分析结果证实了冲激雷达具有良好的反隐身能力。相似文献

18.

采用S-Tag的M-DSP片上存储DMA访问优化

下载免费PDF全文

鲁建壮孙书为陈胜刚陆文远《国防科技大学学报》2018,40(6):112-117

针对自主设计的M-DSP,提出并设计实现了一种基于Tag副本(S-Tag)的片上SRAM DMA访问数据相关性维护机制,该机制以流水化方式实现,在基本对CPU无打扰的前提下,有效支撑了DMA数据的无阻塞传递。仿真和芯片实测结果表明,该机制硬件开销较小,并在有效带宽和带宽利用率上均优于已有典型同类芯片。相似文献

19.

基于SOPC技术的无人机飞控系统硬件平台设计 总被引：4，自引：0，他引：4

于晓洲周凤岐黄河《火力与指挥控制》2006,31(12):48-50

提出了一种基于可编程片上系统(SOPC)技术的无人机飞行控制系统硬件解决方案.控制系统核心为单片FPGA芯片,处理单元采用了多个高性能32位嵌入式NiosⅡ处理器来并行处理数据.利用VerilogHDL硬件描述语言在FPGA芯片内部编写了包括图像预处理、姿态预处理、逻辑控制系统等设备.和传统的无人机控制系统相比,得益于采用SOPC技术带来的高度集成性,控制系统保证了在具有很强的数据处理能力的同时拥有较小的体积和较低的功耗. 相似文献

20.

一种基于VLIW DSP架构的高性能取指流水线

下载免费PDF全文

杨惠陈书明万江华《国防科技大学学报》2011,33(4):102-106

以超长指令字(VLIW)数字信号处理器(DSP)作为平台,针对现有提高单线程取指流水线效率的方法中存在的弊端,提出了一种高性能的取指流水架构.该架构支持无效取指的检测与作废,从而降低不必要的cacbe访问,减少取指流水停顿周期,该结构还引入专用硬件支持编译调度的循环软流水,有效提高指令并行性,降低代码存储空间,由此释放... 相似文献