期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨惠陈一骄李韬李世星戴幻尧《国防科技大学学报》2016,38(5):26-31

基于通用多核架构的网络分组处理系统性能受到诸如分组IO开销高、多核共享内存及进程调度竞争大、页表缓冲表项失效率高等问题的困扰。为此提出一种基于通用多核网络分组处理系统、面向高速分组转发应用的线程亲和缓冲区硬件管理机制,并在网络专用协处理引擎上实现。该机制采用无中断的线程亲和调度策略,将包含控制信息与缓冲区地址信息的描述符和分组数据按照分组处理的线程号链式地对应加载在多个地址连续的共享缓冲区中。基于通用多核和现场可编程门阵列平台进行报文转发测试,实验结果表明,采用线程亲和缓冲区管理机制能使平均报文转发处理性能提升12.4%,有效地降低IO开销和TLB表项失效率。相似文献

2.

基于并行模拟的多核集群系统性能预测和分析

下载免费PDF全文

徐传福车永刚王正华《国防科技大学学报》2010,32(5):62-68

针对多核集群系统所表现出的新的性能特征,提出了面向多核集群系统消息传递应用程序的并行模拟模型并设计、实现了一个并行模拟器MCPSim(Multi-core Cluster Parallel Simulator),MCPSim在功能模型和性能模型上体现了片内核间、结点内片间以及结点间等三个层次上消息通信的特点,同时支持对应用的消息数量、通信量等的百分比分布的profiling功能,采用PRIMEJ、acobi3D、NPB IS以及HPL等Benchmark程序对MCPSim进行了测试,结果表明MCPSim性能预测的精度优于BigSim,同时能够广泛应用于针对多核集群系统消息传递应用程序的性能分析中。相似文献

3.

基于关键路径和任务复制的多核调度算法

下载免费PDF全文

谢志强韩英杰齐永红杨静《国防科技大学学报》2014,36(1):172-177

针对目前大多数多核处理器任务分配优化算法没有考虑关键路径上节点对任务完成时间的重要影响,导致任务完成总时间延迟的问题,提出了基于关键路径和任务复制(CPTD)的单任务调度算法。CPTD算法通过复制任务图中fork节点的方式将任务图转化为与之相对应的产品加工树;再在生成的产品加工树中找到关键路径,并采取使关键路径上节点的紧前节点尽早调度的方式,使关键路径上节点尽早开始执行,进而使产品加工树中节点完成时间得以提前,达到缩短任务执行总时间的目的。理论分析表明,CPTD算法能够实现应用程序在多核上充分并行处理,并能缩短任务完成时间。相似文献

4.

灾害应急反应建模与仿真

下载免费PDF全文

尹全军秦龙陈伟崔浩浩《国防科技大学学报》2012,34(1):43-47

为了满足多智能体应急反应仿真的需求,首先对构建多智能体应急反应仿真模拟框架的复杂性进行了分析,在此基础上提出并设计了组件式仿真模拟框架.采用本体(Ontology)建模、语义网模型及产生式规则推理等理论方法构建了仿真模拟框架的场景建模模块、人员Agent建模模块等组件.最后对依照上述研究内容所开发的原型系统进行了测试,对测试结果进行了分析,结果表明该框架能够有效满足多智能体应急反应仿真的建模需求. 相似文献

5.

位置信息与替换概率相结合的多核共享Cache管理机制

下载免费PDF全文

徐金波庞征斌李琰《国防科技大学学报》2016,38(5):32-38

多核系统中末级Cache是影响整体性能的关键。为了提出一种细粒度、低延迟、低代价的末级共享Cache资源管理机制,将系统性能目标转换为每个内核当前占用Cache资源的替换概率,以决定每个内核能够提供的被替换资源的数量;对某个需要增加Cache资源的内核,从可提供被替换资源的候选内核中选出距离较近且替换概率较高的一个内核,并以Cache块为粒度进行替换,从而实现Cache资源在不同内核间的动态划分。与传统以相联度为粒度的粗粒度替换机制相比,以Cache块为单位的替换机制具有更细的替换粒度,灵活性更高。另外,通过将位置信息和替换概率结合,保证了Cache资源与相应内核在物理布局上的收敛,降低了访问延迟。同时,所提出的方法只需要增加极少的硬件代价。实验结果表明,根据实验场景和对比对象的不同,所提方法与其他已有研究成果相比,可以实现从6.8%到22.7%的性能提升。相似文献

6.

基于访问模式的多核末级Cache优化方法_*

下载免费PDF全文

刘胜陈海燕葛磊磊刘仲《国防科技大学学报》2015,37(2)

多核处理器架构已经成为当前处理器的主流趋势,应用程序中访问模式的多样性给多核处理器的末级Cache带来了许多挑战。提出了一种基于访问模式的多核末级Cache优化方法,它包含“可配置的共享私有Cache划分”、“可配置的旁路Cache策略”和“优先权替换策略”三个协同递进的层次。通过使用该方法,程序员能够灵活地改变末级Cache执行行为,从而高效地适应应用程序访问模式的变化。实验结果表明,提出的方法能够显著降低末级Cache的缺失率,进而提高系统的整体性能。相似文献

7.

基于广义模糊函数的MIMO SAR分辨特性分析

下载免费PDF全文

周伟陈浩文刘永祥凌永顺《国防科技大学学报》2013,35(6):77-81

多发多收合成孔径雷达（MIMO SAR）是近年来发展起来的一种新型雷达体制。与传统SAR相比,MIMO SAR综合利用了波形分集和空间分集优势,如何衡量系统的分辨特性以及模糊特性成为亟待解决的问题。本文将模糊函数概念推广到MIMO SAR性能分析中,通过数学推导获得了广义模糊函数的解析表示,结果表明MIMO SAR系统分辨率不仅取决于发射波形参数以及合成孔径长度,还与发射波形集的正交性以及收发天线阵列流形密切相关,仿真实验验证了系统模型的有效性和相应分析的正确性。相似文献

8.

多核数字信号处理器并行矩阵转置算法优化

下载免费PDF全文

裴向东王庆林廖林玉李荣春梅松竹刘杰庞征斌《国防科技大学学报》2023,45(1):57-66

矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。相似文献

9.

多核数字信号处理卷积算法并行优化

许金伟王庆林李娅琳姜晶菲高蕾李荣春李东升《国防科技大学学报》2024,46(1):103-112

针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%～88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。相似文献

10.

梯度学习的参数控制帮助线程预取模型

下载免费PDF全文

裴颂文张俊格宁静《国防科技大学学报》2016,38(5):59-63

对于非规则访存的应用程序,当某个应用程序的访存开销大于计算开销时,传统帮助线程的访存开销会高于主线程的计算开销,从而导致帮助线程落后于主线程。于是提出一种改进的基于参数控制的帮助线程预取模型,该模型采用梯度下降算法对控制参数求解最优值,从而有效地控制帮助线程与主线程的访存任务量,使帮助线程领先于主线程。实验结果表明,基于参数选择的线程预取模型能获得1.1~1.5倍的系统性能加速比。相似文献