首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
深度强化学习在游戏智能决策领域取得了令人瞩目的突破。多智能体深度强化学习、分层深度强化学习等领域的研究工作正将深度强化学习研究引向深入。由于联合战役兵棋博弈复杂的问题构成难以仅依靠深度强化学习方法解决,因而需要将人的知识经验有机融入强化学习过程中。对深度强化学习算法进行综合分析,并系统总结梳理联合战役兵棋AI的军事运用需求,在此基础上设计联合战役兵棋AI的体系框架并就框架中的相关技术进行探讨。  相似文献   

2.
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。  相似文献   

3.
作为卫星运控系统中的一个重要模块,卫星任务短期规划对充分发挥卫星系统效能有着重要影响。与卫星任务的日规划的作用和特点不同,它既涉及到任务规划的技术问题又涉及到卫星管理问题。针对周规划任务,本文分析周规划的需求和特点,兼顾周规划的四项主要作用,构造周规划的分层框架;分析周规划优化目标及约束条件,建立卫星任务的负载度周规划模型;针对模型求解属于高维离散组合优化问题,仿真实验评价了几种基本智能优化求解算法,并应用引入分布式并行技术的遗传模拟退火算法求解。  相似文献   

4.
近年来,基于深度强化学习的机器学习技术突破性进展为智能博弈对抗提供了新的技术发展方向。针对智能对抗中异构多智能体强化学习算法训练收敛速度慢,训练效果差异大等问题,提出了一种先验知识驱动的多智能体强化学习博弈对抗算法PK-MADDPG,构建了双重Critic框架下的MADDPG模型。该模型使用了经验优先回放技术来优化先验知识提取,在博弈对抗训练中取得显著的效果。论文成果应用于MaCA异构多智能体博弈对抗全国竞赛,将PK-MADDPG算法与经典规则算法的博弈对抗结果进行比较,验证了所提算法的有效性。  相似文献   

5.
随着无人机技术的应用和发展,无人机执行任务的飞行环境愈发复杂多变,对无人机机动避障能力和航迹规划的实时性提出了更高的要求。基于泛化性较好、对环境依赖弱的深度强化学习算法,以雷达实时获取的障碍物地图信息为基础进行实时路径规划,针对二维航迹规划问题特点设计了连续奖励函数,解决了强化学习算法在二维平面航迹规划中奖励稀疏的问题;基于迁移学习的思想设计多个训练环境,并按任务的难易程度进行分步训练,降低了算法的训练难度,提高了训练效果,并使算法的收敛效果更加稳定。在实验中将SAC算法与目前主流的PPO和TD3算法进行对比,实验结果表明:SAC算法收敛速度快,实时性好,航迹平滑度更好。  相似文献   

6.
针对兵棋推演的自动对抗问题,文章提出基于深度学习网络和强化学习模型来构建对抗策略。文章结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战场态势表示方法;将作战指挥分层分域的原则同即时策略游戏中的模块化和分层架构相结合,提出一种层次化和模块化深度强化学习方法框架,用于各决策智能体与战场环境交互的机制以及对抗策略的产生;为满足实际作战响应高实时特点,提出压缩的深度强化学习,提升模型输出速度;为改善对不同环境的适应性,提出利用深度迁移学习提升模型泛化能力。  相似文献   

7.
针对多智能体深度强化学习在解决联合海空作战战术博弈决策模型难以训练优化问题,结合多智能体深度强化学习在智能化指挥决策问题中的应用性优势,以及课程学习在复杂问题研究中的改进优势,构建基于马尔可夫决策过程的联合海空战术决策过程模型,提出基于复杂度指数函数的任务复杂性度量方法,建立基于值分解网络算法的求解模型。针对一个典型联合海空作战战术决策场景,构建从易到难的课程学习任务和模型求解框架,设计针对任务的决策模型训练方法,在兵棋推演仿真系统上,对模型训练方法的可行性进行了验证。  相似文献   

8.
应急通信具有较强的突发性和不确定性,为满足应急通信网规划中灵活快速组网的要求,根据不同层次网络特点,进行网络拓扑结构分层建模描述,应用深度强化学习算法,实现拓扑结构生成,并通过算法优化其生成效率,依据业务特点,按策略分配应急通信网业务资源,实现完整的应急通信网规划,最后通过样例仿真,验证了应急通信网模型及算法的科学性和高效性,为应急通信网的规划提供参考。  相似文献   

9.
针对战场态势信息众多、变化趋势认知困难的问题,提出基于大模型的态势认知智能体框架和智能态势认知推演方法。从认知概念出发,结合智能体的抽象性、具身性特点,明确了智能体构建的3个关键环节:学习环境、记忆方式和产生知识机制;设计了战场态势认知智能体架构,包括记忆部件、规划部件、执行部件、评估部件以及智能体训练要点。在长期记忆部件中,围绕战场复杂状态建模特点,分析大语言模型、多模态大模型、大序列模型的运用问题。  相似文献   

10.
基于无人机集群智能攻防对抗构想,建立了无人机集群智能攻防对抗仿真环境。针对传统强化学习算法中难以通过奖励信号精准控制对抗过程中无人机的速度和攻击角度等问题,提出一种规则与智能耦合约束训练的多智能体深度确定性策略梯度(rule and intelligence coupling constrained multi-agent deep deterministic policy gradient, RIC-MADDPG)算法,该算法采用规则对强化学习中无人机的动作进行约束。实验结果显示,基于RIC-MADDPG方法训练的无人机集群对抗模型能使得红方无人机集群在对抗中的胜率从53%提高至79%,表明采用“智能体训练—发现问题—编写规则—再次智能体训练—再次发现问题—再次编写规则”的方式对优化智能体对抗策略是有效的。研究结果对建立无人机集群智能攻防策略训练体系、开展规则与智能相耦合的集群战法研究具有一定参考意义。  相似文献   

11.
针对兵棋对抗推演中的制权瘫体阶段联合火力打击任务规划问题,研究智能算法应用的可行性.设计了以多智能体协同进化为设计理念的群体智能优化算法,同时针对联合火力打击毁伤特点设计了对抗模拟平台,通过计算机迭代进化输出优化智能体,分析对应的最优任务规划的结构特点.实验分析表明,相比于手工拟制任务规划本算法应用于联合火力打击任务规...  相似文献   

12.
多无人机的作战协同研究内容主要包含飞行协同、侦察协同及干扰协同,随着无人机数量及协同决策内容的增加,多智能体强化学习模型的状态空间及动作空间维度呈指数增长,多智能体强化学习算法在训练中不易收敛,协同决策水平难以得到显著提升。采用并对多智能体深度确定性策略梯度(MADDPG)算法原理进行模型构建,在此基础上提出了一种选择性经验存储策略的多智能体深度确定性策略梯度(SES-MADDPG)算法。该算法通过设置回收存储标准以及选择性因子,对进入经验池的经验进行选择性存储,以缓解奖励稀疏的问题。仿真实验表明,在保证算法时间复杂度的前提下,SES-MADDPG算法比其他强化学习算法有了更好的收敛效果,相较于MADDPG算法,任务完成率提高了25.427%。  相似文献   

13.
实施全军“菜篮子”工程三年规划,适应了新的历史条件对后勤保障工作提出的客观要求,较好地激发了广大官兵艰苦奋斗的传统精神,抓住了实现保障有力的根本。要使全军“菜篮子”工程建设出成效,必须注重培养和稳定人才队伍,学习和运用先进科技知识,从实际出发,合理规划,严格生产管理,强化奖惩制度。  相似文献   

14.
针对智能小车行走过程中的全局路径规划和路障规避问题,提出了一种基于神经网络Q-learning强化学习算法,采用RBF(Radial Basis Function)网络对Q学习算法的动作值函数进行逼近,基于MATLAB环境开发了智能小车全局路径规划和路障规避仿真系统。与传统的以及基于势场的Q学习算法相比,所采用的算法能更加有效地完成智能小车在行驶环境中的路径规划和路障规避。仿真结果表明:算法具有更好的收敛速度,可增强智能小车的自导航能力。  相似文献   

15.
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对Deep Mind的Py SC2平台Defeat Roaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。  相似文献   

16.
利用作战领域启发知识,综合传统建模技术和智能体优点,首先按照分层结构化组合思想建立了装甲兵兵力智能体模型,并基于层次任务网的决策规划机制和基于军事命令控制结构构建了多智能体模型,然后采用VRMS平台开发了装甲兵作战多智能体应用验证演示系统,最后结合实例探索了多智能体系统在模拟训练、作战实验、辅助决策等领域的仿真应用,其研究有效地提高了装甲兵作战行为仿真的智能性、自主性和逼真性。  相似文献   

17.
为提高复杂非结构化作战环境下作战系统规划能力,提出一种新的分层任务网络智能规划方法 HGTN(Hierarchical Goal-Task Network),给出了HGTN的形式化定义,研究了HGTN规划算法,以及启发式搜索算法和目标推理规划算法。HGTN在HTN(Hierarchical Task Network)规划方法基础上,增加了目标任务和相关处理方法,具备基于目标的逆向推理机制。通过作战任务规划实例分析,HGTN规划方法相对HTN,能够提高规划的适用性和求解效率,符合作战决策推理的思维模式。  相似文献   

18.
针对多约束条件下大规模探测/通信智能体集群协同探测任务分配问题,从全局与局部相结合的角度,提出了一种分层任务分配求解方法。首先,根据通信距离约束对所有任务节点进行聚类预分组,将集群任务分配问题划分为上层全局任务分配和底层局部任务分配。然后,根据聚类结果采用启发式算法求解探测/通信智能体组间全局任务分配结果。随后,根据探测智能体的全局任务分配结果,采用遗传算法对探测智能体组内任务进行分配。最后,通信智能体根据探测智能体的组内任务分配结果,采用基于虚拟节点的方法进行组内任务分配。实验结果表明,相较于直接求解方法,分层任务分配方法不仅解决了大规模集群协同任务分配问题,还可以在保证优化目标值相近的情况下,缩短70%以上的求解时间,较快得到相对最优的任务分配结果。  相似文献   

19.
针对多UCAV协同作战的控制决策问题,从任务、空域和时域三个角度阐述了多UCAV协同任务规划问题的层次特性,提出了多UCAV协同任务规划的分层迭代逻辑流程.基于该分层迭代逻辑流程,完成了多UCAV协同任务规划原型系统的开发工作,并进行了初步的综合仿真验证.仿真结果表明,所提出的分层迭代逻辑流程,可以降低任务规划问题的复杂度,是实现多UCAV协同任务规划的一种有效方法.  相似文献   

20.
面向陆战场兵力机动过程中存在的大范围地域越野路径规划需求,研究并设计了基于通行性分析的分层越野路径规划方法。该方法聚焦大范围地域路径规划效率和可行性,提出一种分层规划方法,通过构建两种不同分辨率的地图栅格实现分层路径规划,并结合地表覆盖和地表粗糙度进行区域通行性分析,针对性构建了A*算法的估价函数。仿真实验结果表明,该路径规划方法能够有效提升算法效率,越野路径规划结果合理可行。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号