共查询到20条相似文献,搜索用时 31 毫秒
1.
针对多智能体深度强化学习在解决联合海空作战战术博弈决策模型难以训练优化问题,结合多智能体深度强化学习在智能化指挥决策问题中的应用性优势,以及课程学习在复杂问题研究中的改进优势,构建基于马尔可夫决策过程的联合海空战术决策过程模型,提出基于复杂度指数函数的任务复杂性度量方法,建立基于值分解网络算法的求解模型。针对一个典型联合海空作战战术决策场景,构建从易到难的课程学习任务和模型求解框架,设计针对任务的决策模型训练方法,在兵棋推演仿真系统上,对模型训练方法的可行性进行了验证。 相似文献
2.
智能博弈对抗领域已成为当前研究的热门领域之一。侧重在兵棋推演系统的体系构建和模块设计,分析了兵棋推演系统的建模要素,包括兵棋要素、兵棋规则及智能接口设计,构建了智能兵棋推演系统的整体架构。通过A3C强化学习智能算法对系统设计进行可行性验证。其中,改进了强化学习训练过程的奖励设置,明确智能兵棋环境的状态输入、算法驱动过程及动作输出过程,通过自主实现的智能兵棋推演系统,验证了所提的系统理论与工作。该工作为基于强化学习的智能博弈系统的设计与实现提供了可行路径,并为以后基于强化学习的智能博弈对抗研究提供了基础平台。 相似文献
3.
4.
5.
6.
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。 相似文献
7.
8.
9.
陆军分队对抗训练数据工程实现及思考 总被引:1,自引:0,他引:1
杜江洪 《军事运筹与系统工程》2012,(1):18-21,72
以陆军分队对抗训练辅助裁决系统的实现过程数据需求为背景,讨论和分析了分队对抗训练数据的基本框架和流程,给出了系统数据的配置与管理主要过程,以及系统数据处理的关键技术,最后就分队级别对抗系统的数据工程问题提出了几点思考。 相似文献
10.
11.
基于无人机集群智能攻防对抗构想,建立了无人机集群智能攻防对抗仿真环境。针对传统强化学习算法中难以通过奖励信号精准控制对抗过程中无人机的速度和攻击角度等问题,提出一种规则与智能耦合约束训练的多智能体深度确定性策略梯度(rule and intelligence coupling constrained multi-agent deep deterministic policy gradient, RIC-MADDPG)算法,该算法采用规则对强化学习中无人机的动作进行约束。实验结果显示,基于RIC-MADDPG方法训练的无人机集群对抗模型能使得红方无人机集群在对抗中的胜率从53%提高至79%,表明采用“智能体训练—发现问题—编写规则—再次智能体训练—再次发现问题—再次编写规则”的方式对优化智能体对抗策略是有效的。研究结果对建立无人机集群智能攻防策略训练体系、开展规则与智能相耦合的集群战法研究具有一定参考意义。 相似文献
12.
《现代防御技术》2020,(5)
随着武器装备智能化发展的速度加快,传统武器装备的训练方法已经无法满足大规模现代战争的训练需求。在近十年中深度强化学习等人工智能方法在棋类以及电子竞技游戏中取得了极大突破,证明了人工智能方法在面对大搜索空间博弈问题的优势,能够有效解决军事对抗问题中的形势预判和临机调整问题。基于此背景,依托海军舰艇对空方面作战,开展了深度强化学习的方法研究。首先通过并行场景建模技术以及空中威胁决策行为建模技术实现深度学习模型的构建,之后通过单机突防场景的对抗迭代学习,得到收敛的突防策略。验证了深度强化学习方法在空中威胁行为构建场景的可行性,为后续深入开展编队联合防空训练场景构建提供支撑。 相似文献
13.
14.
针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,采用逆向学习方法计算得到回报函数,从而能够通过强化学习方法得到智能优化策略,生成舰载机甲板调度方案。经仿真实验验证,本文所提方法能够较好地学习专家演示,结果符合调度方案优化需求,为形成辅助决策提供了基础。 相似文献
15.
16.
17.
18.
针对军事目标图像智能识别、智能平台对抗等AI算法学习训练缺乏高质量样本难题,提出了一种基于对抗推演的训练样本生成框架。从训练样本的数据格式、作战业务的维度,建立了训练样本分类体系;从样本特征、样本标签两方面,提出了训练样本的表征方法,建立了军事目标图像、目标航迹等训练样本表征模型;建立了基于对抗推演的训练样本生成框架,依据红蓝双方的行为决策模型,开展对抗式仿真推演,积累训练样本数据;以智能空战决策训练样本为典型案例,提出了基于规则与微分方程求解相结合的方法,通过自主对抗模拟产生训练样本数据,支撑智能空战决策AI算法训练。 相似文献
19.
随着无人机战场环境越来越复杂,空战对抗将逐渐成为主要的一种无人机作战方式.为了能够确保我方无人机在快速演变的战场态势下抓住先机、精确决策、快速致胜,需要根据实际作战环境、作战样式,建立无人机和环境进行交互的规则、无人机空战对抗中采用的战术使用规则,并结合规则,通过智能决策算法,达到提升无人机空战对抗胜率的目的.提出一种结合微分对策(Differential Games,DG)的深度强化学习方法(Deep Reinforcement Learning,DRL)解决此问题,利用深度强化学习的智能决策性以及微分对策的准确机动性,实现战术决策到机动决策.最后以空战对抗1V1为例,对提出的方法进行验证,结果证明方法可行有效. 相似文献