期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于逆向强化学习的舰载机甲板调度优化方案生成方法 总被引：2，自引：0，他引：2

李耀宇朱一凡杨峰贾全《国防科技大学学报》2013,35(4):171-175

针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,采用逆向学习方法计算得到回报函数,从而能够通过强化学习方法得到智能优化策略,生成舰载机甲板调度方案。经仿真实验验证,本文所提方法能够较好地学习专家演示,结果符合调度方案优化需求,为形成辅助决策提供了基础。相似文献

2.

基于DDPG的无人机路径规划

李琳李双霖高佩忻《兵器装备工程学报》2022,(2):176-180

针对无人机路径规划中传统算法面对未知情况时适应程度低、在线求解效率低、计算量大等问题,基于深度强化学习DDPG算法,提出了一种无人机路径规划方法.采用策略网络和评价网络的双网络结构,拟合无人机路径规划决策函数和状态动作函数,根据状态空间、动作空间和网络结构设计了 DDPG算法模型.通过仿真验证了所提出的路径规划方法的... 相似文献

3.

机载多智能体信息融合决策系统

柳毅高晓光卢广山陈红林《火力与指挥控制》2007,32(9):13-16

将多智能体技术引入到多传感器信息融合领域,通过充分利用智能体的自主性,分布性和协作性等优点,构建基于多智能体的机载信息融合决策系统.详细介绍了多智能体技术在该融合决策系统中的应用,重点描述了各智能体的功能,融合决策体系的结构框架,工作机制和软件实现等内容,为信息融合技术的发展开辟了新的方向. 相似文献

4.

高性能异构加速器MiniGo算子优化方法

下载免费PDF全文

乔鹏贺周雨李荣春姜晶菲《国防科技大学学报》2024,46(1):131-140

根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。相似文献

5.

全感知条件下基于奖励塑形的Q-learning算法及仿真

《指挥控制与仿真》2021,43(5)

相似文献

6.

对抗环境下的智能兵棋系统设计及其关键技术

孙宇祥李原百周胜赵俊杰周献中《火力与指挥控制》2024,(2):33-41

智能博弈对抗领域已成为当前研究的热门领域之一。侧重在兵棋推演系统的体系构建和模块设计,分析了兵棋推演系统的建模要素,包括兵棋要素、兵棋规则及智能接口设计,构建了智能兵棋推演系统的整体架构。通过A3C强化学习智能算法对系统设计进行可行性验证。其中,改进了强化学习训练过程的奖励设置,明确智能兵棋环境的状态输入、算法驱动过程及动作输出过程,通过自主实现的智能兵棋推演系统,验证了所提的系统理论与工作。该工作为基于强化学习的智能博弈系统的设计与实现提供了可行路径,并为以后基于强化学习的智能博弈对抗研究提供了基础平台。相似文献

7.

基于强化学习的美军指控系统的发展及启示

吴宜珈徐鹏《火力与指挥控制》2020,45(10):8-11,18

相似文献

8.

无人机蜂群通信感知一体化关键技术

贾维敏杨龑赵建伟金伟何芳《国防科技》2023,(3):88-95

无人机蜂群机动性强、易于调度、部署灵活,是未来战场态势互联互通、快速精确打击的重要手段。多无人机“通信感知一体化”将无人机通信和感知两个功能互融在一起,在无线信道传输信息的同时,主动认知并分析信道的特性,感知周围环境的物理特征,使得通信与感知功能相互得到增强。与此同时,深度强化学习将深度学习的感知能力和特征提取能力与传统强化学习的决策能力进行有机结合,解决了智能体决策博弈类的现实问题。将通信感知一体化和深度强化学习应用于多无人机态势感知、信息传递、任务规划、资源调度等,能够为多无人机蜂群系统的发展和实践应用奠定基础。相似文献

9.

强化学习框架下移动自组织网络分步路由算法

下载免费PDF全文

蒯振然王少尉《国防科技大学学报》2020,42(4):1-6

移动自组织网络是一种无基础设施、由移动通信节点组成的无线网络,具有高动态特性。传统的路由协议并不能适应节点移动性带来的频繁拓扑变化,简单的洪泛路由也会因开销过大降低网络的性能。针对如何在移动自组织网络中自适应地进行路由选择,提出强化学习框架下的分步路由选择算法。该算法以最小链路总往返时延为目标,基于强化学习进行路由搜寻,在筛选出符合目标需求节点集合的基础上,结合置信度选择路由。在链路变得不可靠时,数据包被广播给筛选出的邻居节点集以提升路由可靠性并降低开销。对提出的算法在分组到达率和路由开销等主要性能指标进行数值仿真分析。仿真结果表明,提出的分步路由算法相比于基于强化学习的智能鲁棒路由,在降低开销的同时,保持着相当的吞吐率。相似文献

10.

陆战Agent学习机理模型研究

韩月敏林燕刘非平吴淑娟《指挥控制与仿真》2010,32(1):13-17

陆战Agent是陆军作战复杂系统ABMS核心的基础要素,学习是陆战Agent适应复杂动态陆战环境的重要能力,如何构建符合陆军作战特点的陆战Agent学习机理模型,是陆军作战复杂系统ABMS必须要解决的关键问题之一。通过陆战Agent基于效果学习本质特征和强化学习算法的分析,结合陆战Agent通信和指挥控制的特点,提出了基于知识共享的陆战Agent PS强化学习机理模型。与一般强化学习模型相比,该模型既能解决感知混淆和学习一致性的问题,又能节省存储空间,提高运行效率,还可实现不同形式的知识共享,增强陆战Agent系统的整体学习和完成作战任务的能力。相似文献

11.

基于深度逆向强化学习的行动序列规划问题研究

陈希亮曹雷沈驰《国防科技》2019,40(4)

针对深度强化学习在解决序贯决策任务中严重依赖回报函数,而回报函数又存在着反馈稀疏和反馈延迟等问题,论文提出了基于深度逆向强化学习方法的行动序列生成与优化方法,通过专家示例轨迹数据重构回报函数,实现高质量示例轨迹数据中隐性专家经验的获取和利用,挖掘数据背后的规律。然后将重构的回报函数与环境固有的回报函数进行奖赏塑型,生成的新的回报函数能够更加及时、准确地对智能实体的行为给予反馈,大幅加速了强化学习的收敛速度。 相似文献

12.

基于强化学习的移动自组织网络分步路由算法_^*

下载免费PDF全文

蒯振然王少尉《国防科技大学学报》2020,42(4)

移动自组织网络是一种无基础设施、由移动通信节点组成的无线网络,具有高度的动态特性。传统的路由协议并不能适应节点移动性带来的频繁拓扑变化,简单的洪泛路由也会因开销过大降低网络的性能。针对如何在移动自组织网络中自适应地进行路由选择,提出了一种基于强化学习的分步路由选择算法。该算法以最小链路总往返时延为目标,基于强化学习进行路由搜寻,在筛选出符合目标需求节点集合的基础上,结合置信度选择路由。在链路变得不可靠时,数据包被广播给筛选出的邻居节点集来提升路由可靠性并降低开销。对提出的算法在分组到达率和路由开销等主要性能指标进行数值仿真分析,仿真结果表明,提出的分步路由算法相比于基于强化学习的智能鲁棒路由,在降低开销的同时,保持着相当的吞吐率。相似文献

13.

2022年深度学习技术主要发展动向分析

王亚珅胡武陵朱小伶葛悦涛《无人系统技术》2023,(1):104-113

深度学习正逐渐成为新一代人工智能最核心的技术之一。对2022年深度学习热门领域的主要发展动向进行了综合评述。首先,介绍小数据小样本深度学习研究领域的最新进展;其次,探讨量子计算与深度学习的融合路径;然后,概述强化学习对通用智能的推动作用;最后,盘点深度学习在多模态学习方向的进展。综述表明,面向小数据、小样本的深度学习技术正在引领深度学习向自监督方向不断迈进,深度学习与其他先进计算范式（例如量子计算等）深入融合趋势愈发明显,强化学习在一定程度上具备解决复杂问题的通用智能,多模态深度学习技术已迎来关键性突破。相似文献

14.

基于深度强化学习的兵棋推演决策方法框架

崔文华李东唐宇波柳少军《国防科技》2020,41(2)

针对兵棋推演的自动对抗问题,文章提出基于深度学习网络和强化学习模型来构建对抗策略。文章结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战场态势表示方法;将作战指挥分层分域的原则同即时策略游戏中的模块化和分层架构相结合,提出一种层次化和模块化深度强化学习方法框架,用于各决策智能体与战场环境交互的机制以及对抗策略的产生;为满足实际作战响应高实时特点,提出压缩的深度强化学习,提升模型输出速度;为改善对不同环境的适应性,提出利用深度迁移学习提升模型泛化能力。相似文献

15.

基于深度强化学习的作战实体智能感知与决策研究

刘网定张国宁郑世明《火力与指挥控制》2023,(5):164-169

为解决战场上作战实体的自主感知与决策问题,构建了一种基于深度强化学习的智能感知与决策框架,主要包括态势数据预处理、态势感知、行动优化和知识库4个模块,并通过单智能体无人机突防实验验证其应用效果,为解决作战实体的自主感知与决策问题提供了一种可行的技术途径。相似文献

16.

潜艇CGF规避反潜航空兵行为建模

徐旺曹志敏韩瑜《指挥控制与仿真》2012,34(6):103-109

对战场态势的不完全观测是潜艇作战的重要特点,充分利用不完全观测信息,提高潜艇对抗决策的合理性是设计潜艇CGF的核心问题。针对潜艇作战特点,提出了潜艇自防御行为模型框架,并利用多Agent不确定场景建模技术,建立了基于POMDP的规避反潜航空兵行为模型,最后进行了仿真验证。结果表明,该模型具有较强的可行性。相似文献

17.

基于仿真实验的智能并行训练方法

马春华《指挥控制与仿真》2024,(1):93-99

智能训练是利用机器学习算法对神经网络智能体模型进行训练优化的过程,智能体模型通过不断试错的训练方式实现智能提升。大规模训练数据是智能训练的必要条件,通常难以从现实世界中直接获取,如何通过仿真的方式生成大量有效的训练数据,是智能训练的重要研究方向。对此提出一种基于仿真实验的智能并行训练方法,利用仿真实验管理可快速生成批量仿真实验想定,并支持节点自动部署和运行,通过合理的训练架构设计和有效训练流程设计实现智能并行训练。通过实际案例展示了智能训练的仿真实验管理过程,并结合训练效果证明了给出的方法提高了智能训练效率和智能体泛化性。相似文献

18.

基于深度强化学习的分布式UUV集群任务分配算法

郝冠捷姚尧常鹏张晓霜《指挥控制与仿真》2023,(3):25-33

任务分配问题是智能体集群研究的基础关键问题之一,UUV集群在任务分配问题方面受到水下探测和通信能力的限制,UUV个体只能获得周围局部信息,常规的全局算法无法得到很好的应用。提出了一种基于深度强化学习和分布式UUV集群组织架构的任务分配算法,算法首先实现每个UUV个体的局部任务分配,其次相邻的个体之间进行信息一致协调,从而实现UUV集群的最优化任务分配。仿真实验结果表明,所提算法相较遗传算法收敛更快,相较合同网算法通信量小,任务分配效率高,且分布式架构不依赖“指挥中心”,UUV集群系统的鲁棒性更高,任务分配可靠性更高。相似文献

19.

基于深度强化学习的智能对手自主空战决策技术

杨凯达杨兴昊刘钊《火力与指挥控制》2023,(10):27-33

为提升空战训练对手的智能性与自主性,提升空战训练效果。针对空战战术训练智能对手自主空战决策问题,提出一种基于深度强化学习的智能体训练方法,采用最大熵强化学习（SAC）算法平衡策略探索与利用的优势,引入自博弈和多智能体联盟训练方法提升空战智能体策略的多样性和鲁棒性。针对一对一近距格斗空战场景建立智能博弈框架及奖励函数,仿真结果表明,基于零经验训练得到的智能体能够有效自主机动决策并实施近距导弹攻击,产生较好的战术效果,证明该方法在一对一近距格斗空战智能体训练中的有效性。相似文献

20.

基于课程强化学习的联合海空博弈决策模型训练方法

林泽阳赖俊陈希亮王军《火力与指挥控制》2023,(3):25-34+42

针对多智能体深度强化学习在解决联合海空作战战术博弈决策模型难以训练优化问题,结合多智能体深度强化学习在智能化指挥决策问题中的应用性优势,以及课程学习在复杂问题研究中的改进优势,构建基于马尔可夫决策过程的联合海空战术决策过程模型,提出基于复杂度指数函数的任务复杂性度量方法,建立基于值分解网络算法的求解模型。针对一个典型联合海空作战战术决策场景,构建从易到难的课程学习任务和模型求解框架,设计针对任务的决策模型训练方法,在兵棋推演仿真系统上,对模型训练方法的可行性进行了验证。相似文献