基于改进强化学习的多无人机协同对抗算法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于改进强化学习的多无人机协同对抗算法研究

作者姓名：	张磊李姜侯进永高远王烨

作者单位：	1. 中国科学院长春光学精密机械与物理研究所;2. 中国科学院大学;3. 32802部队

基金项目：	国家自然科学基金项目(61977059)；

摘要：	多无人机的作战协同研究内容主要包含飞行协同、侦察协同及干扰协同，随着无人机数量及协同决策内容的增加，多智能体强化学习模型的状态空间及动作空间维度呈指数增长，多智能体强化学习算法在训练中不易收敛，协同决策水平难以得到显著提升。采用并对多智能体深度确定性策略梯度(MADDPG)算法原理进行模型构建，在此基础上提出了一种选择性经验存储策略的多智能体深度确定性策略梯度(SES-MADDPG)算法。该算法通过设置回收存储标准以及选择性因子，对进入经验池的经验进行选择性存储，以缓解奖励稀疏的问题。仿真实验表明，在保证算法时间复杂度的前提下，SES-MADDPG算法比其他强化学习算法有了更好的收敛效果，相较于MADDPG算法，任务完成率提高了25.427%。
关键词：	无人机集群强化学习协同控制群智能攻防对抗