首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对多智能体深度强化学习在解决联合海空作战战术博弈决策模型难以训练优化问题,结合多智能体深度强化学习在智能化指挥决策问题中的应用性优势,以及课程学习在复杂问题研究中的改进优势,构建基于马尔可夫决策过程的联合海空战术决策过程模型,提出基于复杂度指数函数的任务复杂性度量方法,建立基于值分解网络算法的求解模型。针对一个典型联合海空作战战术决策场景,构建从易到难的课程学习任务和模型求解框架,设计针对任务的决策模型训练方法,在兵棋推演仿真系统上,对模型训练方法的可行性进行了验证。  相似文献   

2.
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。  相似文献   

3.
为提升空战训练对手的智能性与自主性,提升空战训练效果。针对空战战术训练智能对手自主空战决策问题,提出一种基于深度强化学习的智能体训练方法,采用最大熵强化学习(SAC)算法平衡策略探索与利用的优势,引入自博弈和多智能体联盟训练方法提升空战智能体策略的多样性和鲁棒性。针对一对一近距格斗空战场景建立智能博弈框架及奖励函数,仿真结果表明,基于零经验训练得到的智能体能够有效自主机动决策并实施近距导弹攻击,产生较好的战术效果,证明该方法在一对一近距格斗空战智能体训练中的有效性。  相似文献   

4.
多无人机的作战协同研究内容主要包含飞行协同、侦察协同及干扰协同,随着无人机数量及协同决策内容的增加,多智能体强化学习模型的状态空间及动作空间维度呈指数增长,多智能体强化学习算法在训练中不易收敛,协同决策水平难以得到显著提升。采用并对多智能体深度确定性策略梯度(MADDPG)算法原理进行模型构建,在此基础上提出了一种选择性经验存储策略的多智能体深度确定性策略梯度(SES-MADDPG)算法。该算法通过设置回收存储标准以及选择性因子,对进入经验池的经验进行选择性存储,以缓解奖励稀疏的问题。仿真实验表明,在保证算法时间复杂度的前提下,SES-MADDPG算法比其他强化学习算法有了更好的收敛效果,相较于MADDPG算法,任务完成率提高了25.427%。  相似文献   

5.
近年来,基于深度强化学习的机器学习技术突破性进展为智能博弈对抗提供了新的技术发展方向。针对智能对抗中异构多智能体强化学习算法训练收敛速度慢,训练效果差异大等问题,提出了一种先验知识驱动的多智能体强化学习博弈对抗算法PK-MADDPG,构建了双重Critic框架下的MADDPG模型。该模型使用了经验优先回放技术来优化先验知识提取,在博弈对抗训练中取得显著的效果。论文成果应用于MaCA异构多智能体博弈对抗全国竞赛,将PK-MADDPG算法与经典规则算法的博弈对抗结果进行比较,验证了所提算法的有效性。  相似文献   

6.
针对陆军装甲分队博弈对抗决策问题,在分析深度强化学习方法在构建智能博弈对抗决策模型适用性基础上,对基于马尔科夫决策过程的陆军装甲分队博弈对抗过程模型进行了形式化描述,提出了基于元深度强化学习的博弈对抗决策模型,给出了分队战术平台下基于元深度强化学习的智能博弈对抗策略生成与优化框架.研究成果可为智能博弈对抗问题的解决提供一种思路.  相似文献   

7.
针对兵棋推演的自动对抗问题,文章提出基于深度学习网络和强化学习模型来构建对抗策略。文章结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战场态势表示方法;将作战指挥分层分域的原则同即时策略游戏中的模块化和分层架构相结合,提出一种层次化和模块化深度强化学习方法框架,用于各决策智能体与战场环境交互的机制以及对抗策略的产生;为满足实际作战响应高实时特点,提出压缩的深度强化学习,提升模型输出速度;为改善对不同环境的适应性,提出利用深度迁移学习提升模型泛化能力。  相似文献   

8.
基于强化学习的鱼群自组织行为模拟   总被引:1,自引:0,他引:1       下载免费PDF全文
自组织行为广泛存在于自然界中。为了通过学习的方式模拟鱼群自组织行为,构建了鱼群模拟环境模型、智能体模型和奖励机制,并提出了一种基于赫布迹和行动者-评价者框架的多智能体强化学习方法。该方法利用赫布迹加强游动策略的学习记忆能力,基于同构思想实现了多智能体的分布式学习。仿真结果表明,该方法能够适用于领航跟随、自主漫游、群体导航等场景中鱼群自组织行为学习,并且基于学习方法模拟的鱼群展现的行为特性与基于博德规则计算模拟的鱼群行为类似。  相似文献   

9.
随着武器装备智能化发展的速度加快,传统武器装备的训练方法已经无法满足大规模现代战争的训练需求。在近十年中深度强化学习等人工智能方法在棋类以及电子竞技游戏中取得了极大突破,证明了人工智能方法在面对大搜索空间博弈问题的优势,能够有效解决军事对抗问题中的形势预判和临机调整问题。基于此背景,依托海军舰艇对空方面作战,开展了深度强化学习的方法研究。首先通过并行场景建模技术以及空中威胁决策行为建模技术实现深度学习模型的构建,之后通过单机突防场景的对抗迭代学习,得到收敛的突防策略。验证了深度强化学习方法在空中威胁行为构建场景的可行性,为后续深入开展编队联合防空训练场景构建提供支撑。  相似文献   

10.
多智能体对抗仿真建模技术在军事上具有重要作用,其中强化学习深度增强网络(DQN)是重要的建模技术.随着体系对抗建模中环境输入信息及智能体数量的增加,DQN的复杂性不断增长,而单纯采用强化学习技术只能通过极度稀疏的对抗胜负结果提供反馈进行训练,模型训练的收敛速度是一个难题.探讨在多智能体对抗建模中采用基于生成对抗网络(G...  相似文献   

11.
智能博弈对抗领域已成为当前研究的热门领域之一。侧重在兵棋推演系统的体系构建和模块设计,分析了兵棋推演系统的建模要素,包括兵棋要素、兵棋规则及智能接口设计,构建了智能兵棋推演系统的整体架构。通过A3C强化学习智能算法对系统设计进行可行性验证。其中,改进了强化学习训练过程的奖励设置,明确智能兵棋环境的状态输入、算法驱动过程及动作输出过程,通过自主实现的智能兵棋推演系统,验证了所提的系统理论与工作。该工作为基于强化学习的智能博弈系统的设计与实现提供了可行路径,并为以后基于强化学习的智能博弈对抗研究提供了基础平台。  相似文献   

12.
针对策略未知逃逸无人机环境中多无人机协同追捕对抗任务,提出P3C-MADDPG算法的多无人机协同追捕对抗策略。首先,为解决多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法训练速度慢和Q值高估问题,在MADDPG算法中分别采用基于树形结构储存的优先经验回放机制(Prioritized Experience Replay, PER)和设计的3线程并行Critic网络模型,提出P3C-MADDPG算法。然后基于构建的无人机运动学模型,设计追逃无人机的状态空间、稀疏奖励与引导式奖励相结合的奖励函数、加速度不同的追逃动作空间等训练要素。最后基于上述训练要素,通过P3C-MADDPG算法生成策略未知逃逸无人机环境中多无人机协同追捕对抗策略。仿真实验表明,P3C-MADDPG算法在训练速度上平均提升了11.7%,Q值平均降低6.06%,生成的多无人机协同追捕对抗策略能有效避开障碍物,能实现对策略未知逃逸无人机的智能追捕。  相似文献   

13.
基于无人机集群智能攻防对抗构想,建立了无人机集群智能攻防对抗仿真环境。针对传统强化学习算法中难以通过奖励信号精准控制对抗过程中无人机的速度和攻击角度等问题,提出一种规则与智能耦合约束训练的多智能体深度确定性策略梯度(rule and intelligence coupling constrained multi-agent deep deterministic policy gradient, RIC-MADDPG)算法,该算法采用规则对强化学习中无人机的动作进行约束。实验结果显示,基于RIC-MADDPG方法训练的无人机集群对抗模型能使得红方无人机集群在对抗中的胜率从53%提高至79%,表明采用“智能体训练—发现问题—编写规则—再次智能体训练—再次发现问题—再次编写规则”的方式对优化智能体对抗策略是有效的。研究结果对建立无人机集群智能攻防策略训练体系、开展规则与智能相耦合的集群战法研究具有一定参考意义。  相似文献   

14.
从联合火力打击智能优化系统的系统架构分析出发,详细阐述了涉及联合火力打击智能优化的关键技术:战法策略转译算法、对抗推演算法、体系价值评估算法和多智能体协同进化算法,并重点介绍了协同进化算法的设计原理、"协同+竞争"机制构成、智能体内部构造以及变异和优胜劣汰方法,通过系统设计实验内容,分别检验了冗余项、备选任务规划项、歼...  相似文献   

15.
智能训练是利用机器学习算法对神经网络智能体模型进行训练优化的过程,智能体模型通过不断试错的训练方式实现智能提升。大规模训练数据是智能训练的必要条件,通常难以从现实世界中直接获取,如何通过仿真的方式生成大量有效的训练数据,是智能训练的重要研究方向。对此提出一种基于仿真实验的智能并行训练方法,利用仿真实验管理可快速生成批量仿真实验想定,并支持节点自动部署和运行,通过合理的训练架构设计和有效训练流程设计实现智能并行训练。通过实际案例展示了智能训练的仿真实验管理过程,并结合训练效果证明了给出的方法提高了智能训练效率和智能体泛化性。  相似文献   

16.
针对复杂动态不确定环境下的无人机集群对抗问题,基于多智能体强化学习开展了对抗决策方法的研究。首先,基于MaCA环境构建了无人机集群对抗模型;其次,引入集中训练网络的混合架构模式,改进了传统DDPG算法,设计了面向无人机集群对抗的MADDPG算法,分别采用基于规则的对抗策略和基于DQN的对抗策略对算法进行了训练,提升了对抗算法的鲁棒性、适应性和泛化性;最后,通过搭建对抗仿真环境,验证了所设计方法的有效性和可靠性。  相似文献   

17.
在深入分析现代高技术条件下海上舰艇编队协同防空决策特点的基础上,应用智能体技术,提出一种基于多智能体协作的编队协同防空决策方法.详细介绍了方法的原理和各类智能体的设计,并针对如何在编队多个舰艇决策Agent之间开展有效协同的关键问题,提出一种中心控制的MAS分布规划算法.  相似文献   

18.
人工智能技术的快速发展使得各国信息化建设水平不断提高。智能化是未来战争形态发展的必然趋势,智能化战争对指挥控制也提出了新的要求,即智能化指挥控制。通过对智能化指挥控制与传统指挥控制的分析发现,智能化指挥控制需要博弈强化学习等人工智能技术为其提供支撑。博弈强化学习能够提升指挥控制中态势预测、方案评估和行动控制等能力,但博弈强化学习仍有诸多瓶颈问题。为进一步加深和拓宽博弈强化学习的理论研究,给出了基于图论、元均衡、复因子动力学和分数阶微积分等不同领域的新型解决思路。最后,为验证上述理论提出了基于演化博弈的EG-Q-Learning强化学习算法模型,并阐述了关于当前智能技术的几点思考。  相似文献   

19.
基于合作博弈的智能集群自主聚集策略   总被引:1,自引:0,他引:1       下载免费PDF全文
以无人车集群系统协同监视再入体着靶过程为任务背景,开展智能集群自组织策略相关技术研究。设计无人车集群执行再入体着靶协同监视的集群行为模式;针对协同监视过程中的集群聚集行为,提出基于合作博弈的智能集群自主聚集策略。各智能体以实现群体聚集为"合作目标",以降低自身能量消耗为"竞争目标",开展博弈;基于微粒群算法规划局部路径,最终使群体系统涌现出聚集行为。仿真实验验证了设计的自主聚集策略的有效性。  相似文献   

20.
智能集群是指由大量智能体构成、采用自组织策略协作完成任务的群体。以无人车集群系统协同监视再入体着靶过程为任务背景,开展智能集群自组织策略的关键技术研究。设计了无人车集群执行再入体着靶协同监视的集群行为模式,提出了基于合作博弈的智能集群自组织策略,各智能体以实现群体聚集为“合作目标”,以降低自身能量消耗为“竞争目标”,开展博弈,基于微粒群算法规划局部路径,最终使群体系统涌现出聚集行为。仿真实验验证了设计的自主聚集策略的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号