期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

5.

2014nccet：一种新的用于减少远程Cache访问延迟的最后一次写访问预测方法_*

下载免费PDF全文

夏军徐炜遐庞征斌张峻常俊胜《国防科技大学学报》2015,37(1)

为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。相似文献

6.

MPI并行程序中通信等待问题的诊断方法及其应用

下载免费PDF全文

武林平景翠萍刘旭田鸿运《国防科技大学学报》2020,42(2):47-54

随着并行规模的扩大,现有通信等待问题的诊断方法存在内存开销大、测量时间开销大等问题。通过对现有通信等待问题诊断方法的深入分析,同时考虑测量开销可控的实际需求,建立基于热点函数的通信等待问题诊断模型。基于上述模型,总结出一种更精简、更实用的通信等待问题诊断方法。将该诊断方法分别应用到二维LARED集成、LARED-S、LAP3D等大规模MPI并行程序的通信等待问题诊断过程,应用效果表明本诊断方法可精确定位导致通信等待问题的关键代码段,给出的优化方案及性能提升空间对于后续的程序改进具有参考价值,其中根据诊断结果优化后的LARED-S程序性能提升32%,通信等待时间减少44%。相似文献

7.

基于Windows CE．net的仪器控制和数据处理系统的开发

管亮冯新泸王帅景恒《后勤工程学院学报》2007,23(3):49-53

基于RS232协议的串行通讯在工业和分析测试仪器控制及数据传输中有着广泛的应用.目前,分析测试仪器对于所采集到的数据的处理过程随着分析对象日益复杂而变得复杂,而单片机的运算速度和开发进程已经不能完全满足仪器开发的需求.以基于Windows CE.net嵌入式操作系统的带有串口的PDA(Personal Digital Assistant)为平台,以Embedded Visual C 4.0(SP6)为工具,采用串行通讯、多线程技术,构建了针对系列测试仪器的仪器控制和数据处理系统.并对实现过程中的有关关键技术进行了探讨.该系统的开发成功使得下位机--单片机从复杂的数据处理中解脱出来,而仅完成仪器的数据采集和传输工作.这种方案的实现可以大大缩短仪器的开发周期并极大地提高仪器控制和数据处理的灵活性. 相似文献

8.

PC／104与PC机之间串行通信的实现

马健王晟达刘焱《现代军事通信》2003,11(2):61-63

本文介绍了PC／104与PC之间的串行通信方法．比较了在串行通信中采用查询方式和采用中断方式的优缺点．给出了采用中断方式编程时用Borland C++编写的串口的初始化程序及中断服务程序。相似文献

9.

大规模串行分布式检测的性能

下载免费PDF全文

谢红卫《国防科技大学学报》1996,18(1):74-78

串行分布式（Ｎ＝２,３,４）检测的最优协调门限组难以求取,因而只能就由少量传感器组成的小规模串行网,通过数值计算来考察检测性能。本文在一定条件下,给出了求取串行分布式检测性能的解析方法,进而可得到大规模串行分布式检测的性能,使我们能考察和了解检测性能在积累数增加时的变化趋势。相似文献

10.

长向量处理器高效RNN推理方法

苏华友陈抗抗杨乾明《国防科技大学学报》2024,46(1):121-130

模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。相似文献

11.

药物效用鉴定的序贯抽样检验方法和条件推导

姚洪伟许传青郑素文《装甲兵工程学院学报》2001,15(2):11-14,31

给出了制定药物效用鉴定的序贯抽样检验方案,对未用的同类药品进行随机抽样,利用抽样结果,对剩下的N-n个样品的性能进行推断,得到判断药品是否失效的抽样方法以及有效的抽样截断方案,在减小抽样量的前提下,准确的判断药物是否有效.并对该序贯抽样性能的优劣与固定样本最优检验方法进行了比较,得到在犯同样错误的前提下,序贯抽样检验的样本量比固定样本最优检验的样本量小的多. 相似文献

12.

基于强化学习的移动自组织网络分步路由算法_^*

下载免费PDF全文

蒯振然王少尉《国防科技大学学报》2020,42(4)

移动自组织网络是一种无基础设施、由移动通信节点组成的无线网络,具有高度的动态特性。传统的路由协议并不能适应节点移动性带来的频繁拓扑变化,简单的洪泛路由也会因开销过大降低网络的性能。针对如何在移动自组织网络中自适应地进行路由选择,提出了一种基于强化学习的分步路由选择算法。该算法以最小链路总往返时延为目标,基于强化学习进行路由搜寻,在筛选出符合目标需求节点集合的基础上,结合置信度选择路由。在链路变得不可靠时,数据包被广播给筛选出的邻居节点集来提升路由可靠性并降低开销。对提出的算法在分组到达率和路由开销等主要性能指标进行数值仿真分析,仿真结果表明,提出的分步路由算法相比于基于强化学习的智能鲁棒路由,在降低开销的同时,保持着相当的吞吐率。相似文献

13.

强化学习框架下移动自组织网络分步路由算法

下载免费PDF全文

蒯振然王少尉《国防科技大学学报》2020,42(4):1-6

移动自组织网络是一种无基础设施、由移动通信节点组成的无线网络,具有高动态特性。传统的路由协议并不能适应节点移动性带来的频繁拓扑变化,简单的洪泛路由也会因开销过大降低网络的性能。针对如何在移动自组织网络中自适应地进行路由选择,提出强化学习框架下的分步路由选择算法。该算法以最小链路总往返时延为目标,基于强化学习进行路由搜寻,在筛选出符合目标需求节点集合的基础上,结合置信度选择路由。在链路变得不可靠时,数据包被广播给筛选出的邻居节点集以提升路由可靠性并降低开销。对提出的算法在分组到达率和路由开销等主要性能指标进行数值仿真分析。仿真结果表明,提出的分步路由算法相比于基于强化学习的智能鲁棒路由,在降低开销的同时,保持着相当的吞吐率。相似文献

14.

面向恶劣环境的高效P2P网络拓扑维护方法

桂林赵舰张春生李靖黄河陶灵姣张一鸣《国防科技》2014,35(4):67-72

互联网逐渐成为现代社会的重要信息基础设施。Peer-to-Peer(P2P)技术是近年来兴起的一种分布式互联网计算技术,具有广阔的应用前景。FissionE是一种基于Kautz图的结构化P2P覆盖网,具有较高的路由性能。针对恶劣环境下结点失效导致的FissionE拓扑维护性能较差的问题,文章对FissionE的P2P拓扑维护方法进行改进,其基本思想是:直接由门结点产生ZONE消息,避免传统FissionE的ZONE消息产生机制带来的维护开销,从而在恶劣环境下获得更好的拓扑维护性能。相似文献

15.

序列近似优化方法

下载免费PDF全文

胡凡武泽平王东辉张为华《国防科技大学学报》2017,39(1):92-101

随着工程优化中仿真模型精度和计算时间的不断提高,常规的智能优化方法难以在可接受的计算代价中得到最优解。序列近似优化方法通过将近似模型技术引入优化过程,并采用不断更新采样点的方法来指导寻优,在基于计算耗时模型的优化中得到了越来越广泛的应用。通过论述序列近似优化方法的若干关键技术及其发展现状,可有效指导其在工程优化中的应用,并给出了序列近似优化方法可能的改进方法及发展趋势。相似文献

16.

高精度CFD程序的内外子区域划分异构并行算法

下载免费PDF全文

王巍徐传福车永刚《国防科技大学学报》2020,42(2):31-40

对计算流体力学(Computational Fluid Dynamics, CFD)程序CNS提出一种Offload模式下对任务内外子区域划分的异构并行算法,结合结构化网格下有限差分计算和四阶龙格-库塔方法的特点,引入ghost网格点区域,设计了一种ghost区域收缩计算策略,显著降低了异构计算资源之间的数据传输开销,负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠,提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数,分析了负载均衡的条件。在"CPU(Intel Haswell Xeon E5-2670 12 cores×2)+加速器(Xeon Phi 7120A×2)"的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升至5.9倍,较MPI/OpenMP两级并行算法使用24个纯CPU核的性能,该算法使用单加速器时加速至1.27倍,使用双加速器加速至1.45倍。讨论和分析了性能瓶颈与存在的问题。相似文献