基于异环境重要性采样的增强DDRQN网络 Enforced DDRQN Network Based on Off-environment Importance Sampling期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于异环境重要性采样的增强DDRQN网络

引用本文：	樊龙涛,张森,普杰信,刘源源.基于异环境重要性采样的增强DDRQN网络[J].火力与指挥控制,2020,45(1):47-52.

作者姓名：	樊龙涛张森普杰信刘源源

作者单位：	河南科技大学信息工程学院,河南洛阳 471023,河南科技大学信息工程学院,河南洛阳 471023,河南科技大学信息工程学院,河南洛阳 471023,河南科技大学信息工程学院,河南洛阳 471023

摘要：	针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对Deep Mind的Py SC2平台Defeat Roaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。
关键词：	多智能体强化学习局部可观测经验回放机制重要性采样
Enforced DDRQN Network Based on Off-environment Importance Sampling

FAN Long-tao,ZHANG Sen,PU Jie-xin,LIU Yuan-yuan.Enforced DDRQN Network Based on Off-environment Importance Sampling[J].Fire Control & Command Control,2020,45(1):47-52.

Authors:	FAN Long-tao ZHANG Sen PU Jie-xin LIU Yuan-yuan

Abstract:

Keywords:
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏