P3C-MADDPG算法的多无人机协同追捕对抗策略研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

P3C-MADDPG算法的多无人机协同追捕对抗策略研究

作者姓名：	高甲博肖玮何智杰

作者单位：	1. 中国人民解放军陆军勤务学院军事物流系;2. 中国人民解放军95019部队;3. 中国人民解放军31680部队

基金项目：	重庆市教委科学技术研究项目基金(KJZD-K202312903)；

摘要：	针对策略未知逃逸无人机环境中多无人机协同追捕对抗任务，提出P3C-MADDPG算法的多无人机协同追捕对抗策略。首先，为解决多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法训练速度慢和Q值高估问题，在MADDPG算法中分别采用基于树形结构储存的优先经验回放机制(Prioritized Experience Replay, PER)和设计的3线程并行Critic网络模型，提出P3C-MADDPG算法。然后基于构建的无人机运动学模型，设计追逃无人机的状态空间、稀疏奖励与引导式奖励相结合的奖励函数、加速度不同的追逃动作空间等训练要素。最后基于上述训练要素，通过P3C-MADDPG算法生成策略未知逃逸无人机环境中多无人机协同追捕对抗策略。仿真实验表明，P3C-MADDPG算法在训练速度上平均提升了11.7%,Q值平均降低6.06%,生成的多无人机协同追捕对抗策略能有效避开障碍物，能实现对策略未知逃逸无人机的智能追捕。
关键词：	P3C-MADDPG 协同追捕对抗策略优先经验回放 Q值多无人机