共查询到20条相似文献,搜索用时 15 毫秒
1.
针对陆军装甲分队博弈对抗决策问题,在分析深度强化学习方法在构建智能博弈对抗决策模型适用性基础上,对基于马尔科夫决策过程的陆军装甲分队博弈对抗过程模型进行了形式化描述,提出了基于元深度强化学习的博弈对抗决策模型,给出了分队战术平台下基于元深度强化学习的智能博弈对抗策略生成与优化框架.研究成果可为智能博弈对抗问题的解决提供一种思路. 相似文献
2.
3.
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。 相似文献
4.
5.
6.
多无人机的作战协同研究内容主要包含飞行协同、侦察协同及干扰协同,随着无人机数量及协同决策内容的增加,多智能体强化学习模型的状态空间及动作空间维度呈指数增长,多智能体强化学习算法在训练中不易收敛,协同决策水平难以得到显著提升。采用并对多智能体深度确定性策略梯度(MADDPG)算法原理进行模型构建,在此基础上提出了一种选择性经验存储策略的多智能体深度确定性策略梯度(SES-MADDPG)算法。该算法通过设置回收存储标准以及选择性因子,对进入经验池的经验进行选择性存储,以缓解奖励稀疏的问题。仿真实验表明,在保证算法时间复杂度的前提下,SES-MADDPG算法比其他强化学习算法有了更好的收敛效果,相较于MADDPG算法,任务完成率提高了25.427%。 相似文献
7.
8.
近年来,基于深度强化学习的机器学习技术突破性进展为智能博弈对抗提供了新的技术发展方向。针对智能对抗中异构多智能体强化学习算法训练收敛速度慢,训练效果差异大等问题,提出了一种先验知识驱动的多智能体强化学习博弈对抗算法PK-MADDPG,构建了双重Critic框架下的MADDPG模型。该模型使用了经验优先回放技术来优化先验知识提取,在博弈对抗训练中取得显著的效果。论文成果应用于MaCA异构多智能体博弈对抗全国竞赛,将PK-MADDPG算法与经典规则算法的博弈对抗结果进行比较,验证了所提算法的有效性。 相似文献
9.
10.
针对空中对抗环境中多对多拦截的武器目标分配问题,提出了一种基于强化学习的多目标智能分配方法。在多对多拦截交战场景下,基于交战态势评估构建了目标分配的数学模型。通过引入目标威胁程度和拦截有效程度的概念,充分反映了各目标的拦截紧迫性和各拦截器的拦截能力表征,从而全面评估了攻防双方的交战态势。在目标分配模型的基础上,将目标分配问题构建为马尔可夫决策过程,并采用基于深度Q网络的强化学习算法训练求解。依靠环境交互下的自学习和奖励机制,有效实现了最优分配方案的动态生成。通过数学仿真构建多对多拦截场景,并验证了该方法的有效性,经训练后的目标分配方法能够满足多对多拦截中连续动态的任务分配要求。 相似文献
11.
《现代防御技术》2020,(5)
随着武器装备智能化发展的速度加快,传统武器装备的训练方法已经无法满足大规模现代战争的训练需求。在近十年中深度强化学习等人工智能方法在棋类以及电子竞技游戏中取得了极大突破,证明了人工智能方法在面对大搜索空间博弈问题的优势,能够有效解决军事对抗问题中的形势预判和临机调整问题。基于此背景,依托海军舰艇对空方面作战,开展了深度强化学习的方法研究。首先通过并行场景建模技术以及空中威胁决策行为建模技术实现深度学习模型的构建,之后通过单机突防场景的对抗迭代学习,得到收敛的突防策略。验证了深度强化学习方法在空中威胁行为构建场景的可行性,为后续深入开展编队联合防空训练场景构建提供支撑。 相似文献
12.
在兵棋等对抗性作战实验环境下,通过使用基于强化学习方法训练的智能体进行仿真推演,能够检验作战决策效果,达到辅助决策的目的。针对当前作战决策智能体评估往往采用胜率这一单一数据指标的局限,提出了一种基于融合赋权的综合评估方法。通过构建涵盖作战决策有效性、作战意图实现性、作战环境适应性、智能体训练效率、智能体训练体系和智能体训练方法等技战术效果指标的评估体系,然后使用主客观方法对不同类型指标进行赋权,再根据指标性质将权值融合进入评估体系,实现基于融合权重的智能体决策效果评估。构建了陆上合成分队进攻作战场景,利用该方法对6个智能体进行评估验证,能够获得智能体的综合排名,有效避免了单一指标的评估局限。该方法对作战决策智能体评估提供了新的思路,符合作战环境需要,具有一定的应用价值。 相似文献
13.
14.
15.
针对传统战术任务推理方法难以处理对抗性意图存在欺骗行为的问题,通过变换态势分析人员视角,以敌方指挥员角度建立了基于作战效能最大化的单平台战术任务推理模型。模型首先根据对空防御战场态势构建了执行各战术任务的效能评价指标及其优势函数;进而将此多平台战术任务推理转化为多目标优化问题,并通过连续Hopfield神经网络优化算法对该问题进行求解。最后通过仿真实验对推理模型的可行性与有效性进行了验证。 相似文献
16.
针对可疑用户可能利用无线通信危害公共安全的问题,通过智能反射面和无人机组合的方法来帮助合法监视器监听可疑链路。首先,考虑了无人机与地面用户以及地面用户之间复杂的信道交互,构建了一个合法监视器监听速率最大的优化问题。其次,为了解决这个复杂的非凸优化问题,采用深度强化学习技术,将无人机的轨迹规划和智能反射面的相移变化问题建模为马尔可夫决策过程,设计了相应的奖励函数,并基于最大熵的深度强化学习算法实现无人机和智能反射面相移设计的联合优化。最后,从仿真结果看,与无智能反射面的优化方案相比,有智能反射面的优化方案不仅提高了合法监视器的监听速率,还降低了无人机的能耗,另外智能反射面反射单元的不同数量也会对监听速率产生影响。同时,相较于近端策略优化,基于最大熵的深度强化学习算法的优化策略拥有更稳定的训练过程和更快的收敛速度。 相似文献
17.
18.
19.
无人机蜂群机动性强、易于调度、部署灵活,是未来战场态势互联互通、快速精确打击的重要手段。多无人机“通信感知一体化”将无人机通信和感知两个功能互融在一起,在无线信道传输信息的同时,主动认知并分析信道的特性,感知周围环境的物理特征,使得通信与感知功能相互得到增强。与此同时,深度强化学习将深度学习的感知能力和特征提取能力与传统强化学习的决策能力进行有机结合,解决了智能体决策博弈类的现实问题。将通信感知一体化和深度强化学习应用于多无人机态势感知、信息传递、任务规划、资源调度等,能够为多无人机蜂群系统的发展和实践应用奠定基础。 相似文献