排序方式: 共有70条查询结果,搜索用时 250 毫秒
11.
12.
针对策略未知逃逸无人机环境中多无人机协同追捕对抗任务,提出P3C-MADDPG算法的多无人机协同追捕对抗策略。首先,为解决多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法训练速度慢和Q值高估问题,在MADDPG算法中分别采用基于树形结构储存的优先经验回放机制(Prioritized Experience Replay, PER)和设计的3线程并行Critic网络模型,提出P3C-MADDPG算法。然后基于构建的无人机运动学模型,设计追逃无人机的状态空间、稀疏奖励与引导式奖励相结合的奖励函数、加速度不同的追逃动作空间等训练要素。最后基于上述训练要素,通过P3C-MADDPG算法生成策略未知逃逸无人机环境中多无人机协同追捕对抗策略。仿真实验表明,P3C-MADDPG算法在训练速度上平均提升了11.7%,Q值平均降低6.06%,生成的多无人机协同追捕对抗策略能有效避开障碍物,能实现对策略未知逃逸无人机的智能追捕。 相似文献
13.
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对Deep Mind的Py SC2平台Defeat Roaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。 相似文献
14.
一种空间飞行器轨控发动机干扰力矩的测试方法 总被引:1,自引:0,他引:1
轨控发动机对空间飞行器姿态的干扰力矩是影响姿态估计精度的重要因素,为了解决轨控发动机干扰力矩在地面难以准确测量的问题,提出了一种在空中进行的轨控发动机干扰力矩测试方法.此方法通过在空间飞行器飞行过程中轨控发动机轮流开机,利用惯测组合陀螺记录弹体姿态角速度的变化情况,从而计算出轨控发动机的干扰力矩.数值仿真结果验证了该试验方法的有效性. 相似文献
15.
16.
17.
18.
19.
20.