共查询到20条相似文献,搜索用时 625 毫秒
1.
针对陆军装甲分队博弈对抗决策问题,在分析深度强化学习方法在构建智能博弈对抗决策模型适用性基础上,对基于马尔科夫决策过程的陆军装甲分队博弈对抗过程模型进行了形式化描述,提出了基于元深度强化学习的博弈对抗决策模型,给出了分队战术平台下基于元深度强化学习的智能博弈对抗策略生成与优化框架.研究成果可为智能博弈对抗问题的解决提供一种思路. 相似文献
2.
3.
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。 相似文献
4.
5.
6.
7.
8.
在兵棋等对抗性作战实验环境下,通过使用基于强化学习方法训练的智能体进行仿真推演,能够检验作战决策效果,达到辅助决策的目的。针对当前作战决策智能体评估往往采用胜率这一单一数据指标的局限,提出了一种基于融合赋权的综合评估方法。通过构建涵盖作战决策有效性、作战意图实现性、作战环境适应性、智能体训练效率、智能体训练体系和智能体训练方法等技战术效果指标的评估体系,然后使用主客观方法对不同类型指标进行赋权,再根据指标性质将权值融合进入评估体系,实现基于融合权重的智能体决策效果评估。构建了陆上合成分队进攻作战场景,利用该方法对6个智能体进行评估验证,能够获得智能体的综合排名,有效避免了单一指标的评估局限。该方法对作战决策智能体评估提供了新的思路,符合作战环境需要,具有一定的应用价值。 相似文献
9.
《现代防御技术》2020,(5)
随着武器装备智能化发展的速度加快,传统武器装备的训练方法已经无法满足大规模现代战争的训练需求。在近十年中深度强化学习等人工智能方法在棋类以及电子竞技游戏中取得了极大突破,证明了人工智能方法在面对大搜索空间博弈问题的优势,能够有效解决军事对抗问题中的形势预判和临机调整问题。基于此背景,依托海军舰艇对空方面作战,开展了深度强化学习的方法研究。首先通过并行场景建模技术以及空中威胁决策行为建模技术实现深度学习模型的构建,之后通过单机突防场景的对抗迭代学习,得到收敛的突防策略。验证了深度强化学习方法在空中威胁行为构建场景的可行性,为后续深入开展编队联合防空训练场景构建提供支撑。 相似文献
10.
11.
针对传统战术任务推理方法难以处理对抗性意图存在欺骗行为的问题,通过变换态势分析人员视角,以敌方指挥员角度建立了基于作战效能最大化的单平台战术任务推理模型。模型首先根据对空防御战场态势构建了执行各战术任务的效能评价指标及其优势函数;进而将此多平台战术任务推理转化为多目标优化问题,并通过连续Hopfield神经网络优化算法对该问题进行求解。最后通过仿真实验对推理模型的可行性与有效性进行了验证。 相似文献
12.
针对日益复杂的战场环境研究了深度不确定战场环境下的战术决策问题。结合鲁棒决策的特征,提出一套将情景规划与定量方法融合于鲁棒决策分析方法中的决策流程;并结合战争复杂性、不确定性的特性,将深度不确定环境下的鲁棒决策方法应用于战术决策的制定当中,从战场情景规划到基于综合集成方法的鲁棒战术决策模型,给出了具体的生成过程。 相似文献
13.
针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,采用逆向学习方法计算得到回报函数,从而能够通过强化学习方法得到智能优化策略,生成舰载机甲板调度方案。经仿真实验验证,本文所提方法能够较好地学习专家演示,结果符合调度方案优化需求,为形成辅助决策提供了基础。 相似文献
14.
无人机蜂群机动性强、易于调度、部署灵活,是未来战场态势互联互通、快速精确打击的重要手段。多无人机“通信感知一体化”将无人机通信和感知两个功能互融在一起,在无线信道传输信息的同时,主动认知并分析信道的特性,感知周围环境的物理特征,使得通信与感知功能相互得到增强。与此同时,深度强化学习将深度学习的感知能力和特征提取能力与传统强化学习的决策能力进行有机结合,解决了智能体决策博弈类的现实问题。将通信感知一体化和深度强化学习应用于多无人机态势感知、信息传递、任务规划、资源调度等,能够为多无人机蜂群系统的发展和实践应用奠定基础。 相似文献
15.
16.
17.
18.
19.
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对Deep Mind的Py SC2平台Defeat Roaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。 相似文献
20.
弹药保障CGF智能决策系统是装备保障效能评估系统必不可少的组成部分,其核心是对人类决策行为的建模与仿真.在介绍智能决策含义和决策过程的基础上,重点研究和分析了CGF智能决策行为,构建了CGF智能决策模型.针对决策过程中由于无法获得人脑思维方式而导致行为模型的表达、描述、推理等受到怀疑的问题,在弹药保障CGF智能决策模型中,将决策行为分解为任务决策、过程决策和动作决策3个步骤,接近于人类思维方式.同时,对实现弹药保障CGF智能决策具有关键作用的任务决策原则、过程决策方法和动作决策规则进行了研究,并给出了应用实例.实例证明,弹药保障CGF智能决策方法逻辑清晰,易于理解和维护,便于实现. 相似文献