首页 | 本学科首页   官方微博 | 高级检索  
   检索      

基于异环境重要性采样的增强DDRQN网络
引用本文:樊龙涛,张森,普杰信,刘源源.基于异环境重要性采样的增强DDRQN网络[J].火力与指挥控制,2020,45(1):47-52.
作者姓名:樊龙涛  张森  普杰信  刘源源
作者单位:河南科技大学信息工程学院,河南 洛阳 471023,河南科技大学信息工程学院,河南 洛阳 471023,河南科技大学信息工程学院,河南 洛阳 471023,河南科技大学信息工程学院,河南 洛阳 471023
摘    要:针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对Deep Mind的Py SC2平台Defeat Roaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。

关 键 词:多智能体  强化学习  局部可观测  经验回放机制  重要性采样

Enforced DDRQN Network Based on Off-environment Importance Sampling
FAN Long-tao,ZHANG Sen,PU Jie-xin,LIU Yuan-yuan.Enforced DDRQN Network Based on Off-environment Importance Sampling[J].Fire Control & Command Control,2020,45(1):47-52.
Authors:FAN Long-tao  ZHANG Sen  PU Jie-xin  LIU Yuan-yuan
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号