基于改进型MADDPG的多智能体对抗策略算法 |
| |
引用本文: | 刘鹏,赵建新,张宏映,等.基于改进型MADDPG的多智能体对抗策略算法[J].火力与指挥控制,2023,48(3):132-138.DOI:10.3969/j.issn.1002-0640.2023.03.020 |
| |
作者姓名: | 刘鹏 赵建新 张宏映 高腾飞 闫涛 |
| |
作者单位: | 1.北方自动控制技术研究所,太原 030006 |
| |
摘 要: | 探索深度强化学习在对抗作战策略上的应用,针对多智能体深度确定性策略梯度算法的局部可观测、训练较难收敛和稳定性较差的问题,分别引入长短时记忆神经网络、基于损失的优先级经验和策略梯度权重3种方法解决算法中对应问题,结合对抗作战决策场景与改进后的算法,设计3种决策实验场景。将算法与MADDPG、DDPG算法在多智能体模拟对抗实验环境中进行对比,结果表明算法在对抗决策的稳定性和效率上均有提升。
|
关 键 词: | 深度强化学习 对抗决策 长短时记忆网络 经验优先抽取 策略梯度 |
收稿时间: | 2022-10-13 |
修稿时间: | 2022-12-26 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《火力与指挥控制》浏览原始摘要信息 |
|
点击此处可从《火力与指挥控制》下载全文 |
|