首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 625 毫秒
1.
针对陆军装甲分队博弈对抗决策问题,在分析深度强化学习方法在构建智能博弈对抗决策模型适用性基础上,对基于马尔科夫决策过程的陆军装甲分队博弈对抗过程模型进行了形式化描述,提出了基于元深度强化学习的博弈对抗决策模型,给出了分队战术平台下基于元深度强化学习的智能博弈对抗策略生成与优化框架.研究成果可为智能博弈对抗问题的解决提供一种思路.  相似文献   

2.
为提升空战训练对手的智能性与自主性,提升空战训练效果。针对空战战术训练智能对手自主空战决策问题,提出一种基于深度强化学习的智能体训练方法,采用最大熵强化学习(SAC)算法平衡策略探索与利用的优势,引入自博弈和多智能体联盟训练方法提升空战智能体策略的多样性和鲁棒性。针对一对一近距格斗空战场景建立智能博弈框架及奖励函数,仿真结果表明,基于零经验训练得到的智能体能够有效自主机动决策并实施近距导弹攻击,产生较好的战术效果,证明该方法在一对一近距格斗空战智能体训练中的有效性。  相似文献   

3.
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。  相似文献   

4.
针对兵棋推演的自动对抗问题,文章提出基于深度学习网络和强化学习模型来构建对抗策略。文章结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战场态势表示方法;将作战指挥分层分域的原则同即时策略游戏中的模块化和分层架构相结合,提出一种层次化和模块化深度强化学习方法框架,用于各决策智能体与战场环境交互的机制以及对抗策略的产生;为满足实际作战响应高实时特点,提出压缩的深度强化学习,提升模型输出速度;为改善对不同环境的适应性,提出利用深度迁移学习提升模型泛化能力。  相似文献   

5.
针对高动态强对抗战场环境下,无人战车面临的自主行为决策问题,分析了未来陆战场无人战车实际作战需求,构建了基于马尔可夫决策过程的自主行为决策模型,提出了一种深度强化学习结合行为树的方法,利用行为树的逻辑规则与先验知识降低强化学习问题的难度,保证收敛性和鲁棒性,同时使行为决策模型具有学习能力.构建典型作战场景,验证深度强化学习结合行为树的无人战车自主行为决策方法的有效性.  相似文献   

6.
深度强化学习在游戏智能决策领域取得了令人瞩目的突破。多智能体深度强化学习、分层深度强化学习等领域的研究工作正将深度强化学习研究引向深入。由于联合战役兵棋博弈复杂的问题构成难以仅依靠深度强化学习方法解决,因而需要将人的知识经验有机融入强化学习过程中。对深度强化学习算法进行综合分析,并系统总结梳理联合战役兵棋AI的军事运用需求,在此基础上设计联合战役兵棋AI的体系框架并就框架中的相关技术进行探讨。  相似文献   

7.
针对巡飞弹武器平台,如何提高态势感知的精准性和实时性以及作战任务自主决策的准确性,已成为当前的一个研究热点.结合以深度学习技术为代表的人工智能最新研究成果,提出基于深度学习的目标识别模型、任务自主决策模型和任务规划模型,并将模型应用于巡飞弹武器平台,提升巡飞弹武器平台协同作战任务的自主决策和智能规划能力.  相似文献   

8.
在兵棋等对抗性作战实验环境下,通过使用基于强化学习方法训练的智能体进行仿真推演,能够检验作战决策效果,达到辅助决策的目的。针对当前作战决策智能体评估往往采用胜率这一单一数据指标的局限,提出了一种基于融合赋权的综合评估方法。通过构建涵盖作战决策有效性、作战意图实现性、作战环境适应性、智能体训练效率、智能体训练体系和智能体训练方法等技战术效果指标的评估体系,然后使用主客观方法对不同类型指标进行赋权,再根据指标性质将权值融合进入评估体系,实现基于融合权重的智能体决策效果评估。构建了陆上合成分队进攻作战场景,利用该方法对6个智能体进行评估验证,能够获得智能体的综合排名,有效避免了单一指标的评估局限。该方法对作战决策智能体评估提供了新的思路,符合作战环境需要,具有一定的应用价值。  相似文献   

9.
随着武器装备智能化发展的速度加快,传统武器装备的训练方法已经无法满足大规模现代战争的训练需求。在近十年中深度强化学习等人工智能方法在棋类以及电子竞技游戏中取得了极大突破,证明了人工智能方法在面对大搜索空间博弈问题的优势,能够有效解决军事对抗问题中的形势预判和临机调整问题。基于此背景,依托海军舰艇对空方面作战,开展了深度强化学习的方法研究。首先通过并行场景建模技术以及空中威胁决策行为建模技术实现深度学习模型的构建,之后通过单机突防场景的对抗迭代学习,得到收敛的突防策略。验证了深度强化学习方法在空中威胁行为构建场景的可行性,为后续深入开展编队联合防空训练场景构建提供支撑。  相似文献   

10.
多智能体对抗仿真建模技术在军事上具有重要作用,其中强化学习深度增强网络(DQN)是重要的建模技术.随着体系对抗建模中环境输入信息及智能体数量的增加,DQN的复杂性不断增长,而单纯采用强化学习技术只能通过极度稀疏的对抗胜负结果提供反馈进行训练,模型训练的收敛速度是一个难题.探讨在多智能体对抗建模中采用基于生成对抗网络(G...  相似文献   

11.
针对传统战术任务推理方法难以处理对抗性意图存在欺骗行为的问题,通过变换态势分析人员视角,以敌方指挥员角度建立了基于作战效能最大化的单平台战术任务推理模型。模型首先根据对空防御战场态势构建了执行各战术任务的效能评价指标及其优势函数;进而将此多平台战术任务推理转化为多目标优化问题,并通过连续Hopfield神经网络优化算法对该问题进行求解。最后通过仿真实验对推理模型的可行性与有效性进行了验证。  相似文献   

12.
针对日益复杂的战场环境研究了深度不确定战场环境下的战术决策问题。结合鲁棒决策的特征,提出一套将情景规划与定量方法融合于鲁棒决策分析方法中的决策流程;并结合战争复杂性、不确定性的特性,将深度不确定环境下的鲁棒决策方法应用于战术决策的制定当中,从战场情景规划到基于综合集成方法的鲁棒战术决策模型,给出了具体的生成过程。  相似文献   

13.
针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,采用逆向学习方法计算得到回报函数,从而能够通过强化学习方法得到智能优化策略,生成舰载机甲板调度方案。经仿真实验验证,本文所提方法能够较好地学习专家演示,结果符合调度方案优化需求,为形成辅助决策提供了基础。  相似文献   

14.
无人机蜂群机动性强、易于调度、部署灵活,是未来战场态势互联互通、快速精确打击的重要手段。多无人机“通信感知一体化”将无人机通信和感知两个功能互融在一起,在无线信道传输信息的同时,主动认知并分析信道的特性,感知周围环境的物理特征,使得通信与感知功能相互得到增强。与此同时,深度强化学习将深度学习的感知能力和特征提取能力与传统强化学习的决策能力进行有机结合,解决了智能体决策博弈类的现实问题。将通信感知一体化和深度强化学习应用于多无人机态势感知、信息传递、任务规划、资源调度等,能够为多无人机蜂群系统的发展和实践应用奠定基础。  相似文献   

15.
潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队、反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验.为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种近端策略优化(Proximal Policy Optimization,PPO)算法改进机...  相似文献   

16.
为解决战场上作战实体的自主感知与决策问题,构建了一种基于深度强化学习的智能感知与决策框架,主要包括态势数据预处理、态势感知、行动优化和知识库4个模块,并通过单智能体无人机突防实验验证其应用效果,为解决作战实体的自主感知与决策问题提供了一种可行的技术途径。  相似文献   

17.
在基于复杂自适应系统的多Agent的作战仿真实验过程中,由于行为、规则、属性构成了复杂的局势,目前还未能构建一种有效的决策支持模型.应用灰色局势决策的方法建立了战术Agent决策模型,对于解决战术试验当中的战术Agent决策问题,具有一定的意义.在分析灰色局势决策的相关概念及步骤的基础上,结合作战实例,说明了该模型的合理可行性.  相似文献   

18.
利用作战领域启发知识,综合传统建模技术和智能体优点,首先按照分层结构化组合思想建立了装甲兵兵力智能体模型,并基于层次任务网的决策规划机制和基于军事命令控制结构构建了多智能体模型,然后采用VRMS平台开发了装甲兵作战多智能体应用验证演示系统,最后结合实例探索了多智能体系统在模拟训练、作战实验、辅助决策等领域的仿真应用,其研究有效地提高了装甲兵作战行为仿真的智能性、自主性和逼真性。  相似文献   

19.
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对Deep Mind的Py SC2平台Defeat Roaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。  相似文献   

20.
弹药保障CGF智能决策系统是装备保障效能评估系统必不可少的组成部分,其核心是对人类决策行为的建模与仿真.在介绍智能决策含义和决策过程的基础上,重点研究和分析了CGF智能决策行为,构建了CGF智能决策模型.针对决策过程中由于无法获得人脑思维方式而导致行为模型的表达、描述、推理等受到怀疑的问题,在弹药保障CGF智能决策模型中,将决策行为分解为任务决策、过程决策和动作决策3个步骤,接近于人类思维方式.同时,对实现弹药保障CGF智能决策具有关键作用的任务决策原则、过程决策方法和动作决策规则进行了研究,并给出了应用实例.实例证明,弹药保障CGF智能决策方法逻辑清晰,易于理解和维护,便于实现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号