期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐志雄曹雷陈希亮《军事运筹与系统工程》2021,35(3):66-72

针对陆军装甲分队博弈对抗决策问题,在分析深度强化学习方法在构建智能博弈对抗决策模型适用性基础上,对基于马尔科夫决策过程的陆军装甲分队博弈对抗过程模型进行了形式化描述,提出了基于元深度强化学习的博弈对抗决策模型,给出了分队战术平台下基于元深度强化学习的智能博弈对抗策略生成与优化框架.研究成果可为智能博弈对抗问题的解决提供一种思路. 相似文献

2.

基于深度强化学习的智能对手自主空战决策技术

杨凯达杨兴昊刘钊《火力与指挥控制》2023,(10):27-33

为提升空战训练对手的智能性与自主性,提升空战训练效果。针对空战战术训练智能对手自主空战决策问题,提出一种基于深度强化学习的智能体训练方法,采用最大熵强化学习（SAC）算法平衡策略探索与利用的优势,引入自博弈和多智能体联盟训练方法提升空战智能体策略的多样性和鲁棒性。针对一对一近距格斗空战场景建立智能博弈框架及奖励函数,仿真结果表明,基于零经验训练得到的智能体能够有效自主机动决策并实施近距导弹攻击,产生较好的战术效果,证明该方法在一对一近距格斗空战智能体训练中的有效性。相似文献

3.

海空跨域协同兵棋AI架构设计及关键技术分析

苏炯铭罗俊仁陈少飞项凤涛《指挥控制与仿真》2024,(2):35-43

以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。相似文献

4.

基于深度强化学习的兵棋推演决策方法框架

崔文华李东唐宇波柳少军《国防科技》2020,41(2)

针对兵棋推演的自动对抗问题,文章提出基于深度学习网络和强化学习模型来构建对抗策略。文章结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战场态势表示方法;将作战指挥分层分域的原则同即时策略游戏中的模块化和分层架构相结合,提出一种层次化和模块化深度强化学习方法框架,用于各决策智能体与战场环境交互的机制以及对抗策略的产生;为满足实际作战响应高实时特点,提出压缩的深度强化学习,提升模型输出速度;为改善对不同环境的适应性,提出利用深度迁移学习提升模型泛化能力。相似文献

5.

基于深度强化学习的无人战车自主行为决策

张耀武富春王明段宏张昭王海龙《火力与指挥控制》2021,46(4):72-77

针对高动态强对抗战场环境下,无人战车面临的自主行为决策问题,分析了未来陆战场无人战车实际作战需求,构建了基于马尔可夫决策过程的自主行为决策模型,提出了一种深度强化学习结合行为树的方法,利用行为树的逻辑规则与先验知识降低强化学习问题的难度,保证收敛性和鲁棒性,同时使行为决策模型具有学习能力.构建典型作战场景,验证深度强化学习结合行为树的无人战车自主行为决策方法的有效性. 相似文献

6.

基于改进强化学习的多无人机协同对抗算法研究

张磊李姜侯进永高远王烨《兵器装备工程学报》2023,(5):230-238

多无人机的作战协同研究内容主要包含飞行协同、侦察协同及干扰协同,随着无人机数量及协同决策内容的增加,多智能体强化学习模型的状态空间及动作空间维度呈指数增长,多智能体强化学习算法在训练中不易收敛,协同决策水平难以得到显著提升。采用并对多智能体深度确定性策略梯度(MADDPG)算法原理进行模型构建,在此基础上提出了一种选择性经验存储策略的多智能体深度确定性策略梯度(SES-MADDPG)算法。该算法通过设置回收存储标准以及选择性因子,对进入经验池的经验进行选择性存储,以缓解奖励稀疏的问题。仿真实验表明,在保证算法时间复杂度的前提下,SES-MADDPG算法比其他强化学习算法有了更好的收敛效果,相较于MADDPG算法,任务完成率提高了25.427%。相似文献

7.

联合战役兵棋AI体系框架设计及关键技术分析

任航贺筱媛陶九阳《火力与指挥控制》2023,(1):121-129

深度强化学习在游戏智能决策领域取得了令人瞩目的突破。多智能体深度强化学习、分层深度强化学习等领域的研究工作正将深度强化学习研究引向深入。由于联合战役兵棋博弈复杂的问题构成难以仅依靠深度强化学习方法解决,因而需要将人的知识经验有机融入强化学习过程中。对深度强化学习算法进行综合分析,并系统总结梳理联合战役兵棋AI的军事运用需求,在此基础上设计联合战役兵棋AI的体系框架并就框架中的相关技术进行探讨。相似文献

8.

融合先验知识的异构多智能体强化学习算法研究

周佳炜孙宇祥薛宇凡项祺吴莹周献中《指挥控制与仿真》2023,(3):99-107

近年来,基于深度强化学习的机器学习技术突破性进展为智能博弈对抗提供了新的技术发展方向。针对智能对抗中异构多智能体强化学习算法训练收敛速度慢,训练效果差异大等问题,提出了一种先验知识驱动的多智能体强化学习博弈对抗算法PK-MADDPG,构建了双重Critic框架下的MADDPG模型。该模型使用了经验优先回放技术来优化先验知识提取,在博弈对抗训练中取得显著的效果。论文成果应用于MaCA异构多智能体博弈对抗全国竞赛,将PK-MADDPG算法与经典规则算法的博弈对抗结果进行比较,验证了所提算法的有效性。相似文献

9.

基于深度学习的自组织态势感知与决策系统

李晓婷贾婧孟云霞《火力与指挥控制》2021,46(4):147-151

针对巡飞弹武器平台,如何提高态势感知的精准性和实时性以及作战任务自主决策的准确性,已成为当前的一个研究热点.结合以深度学习技术为代表的人工智能最新研究成果,提出基于深度学习的目标识别模型、任务自主决策模型和任务规划模型,并将模型应用于巡飞弹武器平台,提升巡飞弹武器平台协同作战任务的自主决策和智能规划能力. 相似文献

10.

基于强化学习的多对多拦截目标分配方法

郭建国胡冠杰许新鹏刘悦曹晋《空天防御》2024,(1):24-31

针对空中对抗环境中多对多拦截的武器目标分配问题,提出了一种基于强化学习的多目标智能分配方法。在多对多拦截交战场景下,基于交战态势评估构建了目标分配的数学模型。通过引入目标威胁程度和拦截有效程度的概念,充分反映了各目标的拦截紧迫性和各拦截器的拦截能力表征,从而全面评估了攻防双方的交战态势。在目标分配模型的基础上,将目标分配问题构建为马尔可夫决策过程,并采用基于深度Q网络的强化学习算法训练求解。依靠环境交互下的自学习和奖励机制,有效实现了最优分配方案的动态生成。通过数学仿真构建多对多拦截场景,并验证了该方法的有效性,经训练后的目标分配方法能够满足多对多拦截中连续动态的任务分配要求。相似文献

11.

基于深度强化学习的舰艇空中威胁行为建模

《现代防御技术》2020,(5)

随着武器装备智能化发展的速度加快,传统武器装备的训练方法已经无法满足大规模现代战争的训练需求。在近十年中深度强化学习等人工智能方法在棋类以及电子竞技游戏中取得了极大突破,证明了人工智能方法在面对大搜索空间博弈问题的优势,能够有效解决军事对抗问题中的形势预判和临机调整问题。基于此背景,依托海军舰艇对空方面作战,开展了深度强化学习的方法研究。首先通过并行场景建模技术以及空中威胁决策行为建模技术实现深度学习模型的构建,之后通过单机突防场景的对抗迭代学习,得到收敛的突防策略。验证了深度强化学习方法在空中威胁行为构建场景的可行性,为后续深入开展编队联合防空训练场景构建提供支撑。相似文献

12.

面向作战决策智能体的融合赋权评估方法

张人文赖俊陈希亮赵春宇《火力与指挥控制》2024,(2):180-188+194

在兵棋等对抗性作战实验环境下,通过使用基于强化学习方法训练的智能体进行仿真推演,能够检验作战决策效果,达到辅助决策的目的。针对当前作战决策智能体评估往往采用胜率这一单一数据指标的局限,提出了一种基于融合赋权的综合评估方法。通过构建涵盖作战决策有效性、作战意图实现性、作战环境适应性、智能体训练效率、智能体训练体系和智能体训练方法等技战术效果指标的评估体系,然后使用主客观方法对不同类型指标进行赋权,再根据指标性质将权值融合进入评估体系,实现基于融合权重的智能体决策效果评估。构建了陆上合成分队进攻作战场景,利用该方法对6个智能体进行评估验证,能够获得智能体的综合排名,有效避免了单一指标的评估局限。该方法对作战决策智能体评估提供了新的思路,符合作战环境需要,具有一定的应用价值。相似文献

13.

基于生成对抗网络的多智能体对抗仿真建模方法

白桦孙旭朋黄文铮《火力与指挥控制》2022,47(2):127-133

多智能体对抗仿真建模技术在军事上具有重要作用,其中强化学习深度增强网络(DQN)是重要的建模技术.随着体系对抗建模中环境输入信息及智能体数量的增加,DQN的复杂性不断增长,而单纯采用强化学习技术只能通过极度稀疏的对抗胜负结果提供反馈进行训练,模型训练的收敛速度是一个难题.探讨在多智能体对抗建模中采用基于生成对抗网络(G... 相似文献

14.

战术Agent的灰色局势决策

于虎张峥王剑《火力与指挥控制》2009,34(12)

在基于复杂自适应系统的多Agent的作战仿真实验过程中,由于行为、规则、属性构成了复杂的局势,目前还未能构建一种有效的决策支持模型.应用灰色局势决策的方法建立了战术Agent决策模型,对于解决战术试验当中的战术Agent决策问题,具有一定的意义.在分析灰色局势决策的相关概念及步骤的基础上,结合作战实例,说明了该模型的合理可行性. 相似文献

15.

对空防御态势分析中敌平台战术任务识别方法

崇元李加祥《指挥控制与仿真》2015,(2):6-12

针对传统战术任务推理方法难以处理对抗性意图存在欺骗行为的问题,通过变换态势分析人员视角,以敌方指挥员角度建立了基于作战效能最大化的单平台战术任务推理模型。模型首先根据对空防御战场态势构建了执行各战术任务的效能评价指标及其优势函数;进而将此多平台战术任务推理转化为多目标优化问题,并通过连续Hopfield神经网络优化算法对该问题进行求解。最后通过仿真实验对推理模型的可行性与有效性进行了验证。相似文献

16.

基于智能反射面辅助的无人机主动监听优化方法

王贤明杨超群邵晋梁龚成龙张恒《无人系统技术》2024,(1):106-114

针对可疑用户可能利用无线通信危害公共安全的问题,通过智能反射面和无人机组合的方法来帮助合法监视器监听可疑链路。首先,考虑了无人机与地面用户以及地面用户之间复杂的信道交互,构建了一个合法监视器监听速率最大的优化问题。其次,为了解决这个复杂的非凸优化问题,采用深度强化学习技术,将无人机的轨迹规划和智能反射面的相移变化问题建模为马尔可夫决策过程,设计了相应的奖励函数,并基于最大熵的深度强化学习算法实现无人机和智能反射面相移设计的联合优化。最后,从仿真结果看,与无智能反射面的优化方案相比,有智能反射面的优化方案不仅提高了合法监视器的监听速率,还降低了无人机的能耗,另外智能反射面反射单元的不同数量也会对监听速率产生影响。同时,相较于近端策略优化,基于最大熵的深度强化学习算法的优化策略拥有更稳定的训练过程和更快的收敛速度。相似文献

17.

基于多Agent的要地防空指挥决策体系结构

糜玉林郭智杰姜文志刘涛《指挥控制与仿真》2016,(6):22-25

针对要地防空指挥决策体系结构开展研究。首先,对战术单位级指挥决策功能进行分析,并给出防空指挥决策功能结构;引入多Agent系统概念定义TCA、FCA、OA三类作战智能体,建立基于多Agent的指挥决策模型并设计给出FCA的详细结构,结合集中式和分布式指挥决策体系的优点,提出有限集中指挥下的火力单元协同决策体系结构;最后,采用NetLogo平台设计实现指挥决策体系拓扑结构,验证了所建立体系结构的可行性。相似文献

18.

基于深度强化学习的作战实体智能感知与决策研究

刘网定张国宁郑世明《火力与指挥控制》2023,(5):164-169

为解决战场上作战实体的自主感知与决策问题,构建了一种基于深度强化学习的智能感知与决策框架,主要包括态势数据预处理、态势感知、行动优化和知识库4个模块,并通过单智能体无人机突防实验验证其应用效果,为解决作战实体的自主感知与决策问题提供了一种可行的技术途径。相似文献

19.

无人机蜂群通信感知一体化关键技术

贾维敏杨龑赵建伟金伟何芳《国防科技》2023,(3):88-95

无人机蜂群机动性强、易于调度、部署灵活,是未来战场态势互联互通、快速精确打击的重要手段。多无人机“通信感知一体化”将无人机通信和感知两个功能互融在一起,在无线信道传输信息的同时,主动认知并分析信道的特性,感知周围环境的物理特征,使得通信与感知功能相互得到增强。与此同时,深度强化学习将深度学习的感知能力和特征提取能力与传统强化学习的决策能力进行有机结合,解决了智能体决策博弈类的现实问题。将通信感知一体化和深度强化学习应用于多无人机态势感知、信息传递、任务规划、资源调度等,能够为多无人机蜂群系统的发展和实践应用奠定基础。相似文献

20.

基于深度强化学习潜艇攻防对抗训练指挥决策研究

郭洪宇初阳刘志周玉芳《指挥控制与仿真》2022,44(1):103-111

潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队、反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验.为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种近端策略优化(Proximal Policy Optimization,PPO)算法改进机... 相似文献