一种针对坦克速度控制的深度强化学习算法 |
| |
引用本文: | 崔新悦,阳周明,赵彦东,杨霄,范玲瑜.一种针对坦克速度控制的深度强化学习算法[J].火力与指挥控制,2022(4):120-125. |
| |
作者姓名: | 崔新悦 阳周明 赵彦东 杨霄 范玲瑜 |
| |
作者单位: | 北方自动控制技术研究所 |
| |
摘 要: | 坦克的无人化将成为作战装备的未来研究方向之一,针对坦克无人驾驶如何提高智能体训练速度是当前深度强化学习领域的一大瓶颈,提出一种最近经验回放的探索策略来对传统的软行动者-评论家算法(soft actor-critic,SAC)进行改进,在训练阶段,赋予最近经验更大权重值,增大其采样概率,从而提高了训练的稳定性和收敛速度。在此基础上,基于应用环境以及作战任务设计奖励函数,提高算法的战场适用性。构建具体作战场景,对改进的算法与传统算法进行对比,结果表明,提出的算法在坦克速度控制上表现出更好的性能。
|
关 键 词: | 深度强化学习 软行动者-评论家算法 坦克速度控制 采样策略 |
|
|