首页 | 本学科首页   官方微博 | 高级检索  
   检索      

基于深度逆向强化学习的行动序列规划问题研究
引用本文:陈希亮,曹雷,沈驰.基于深度逆向强化学习的行动序列规划问题研究[J].国防科技,2019,40(4).
作者姓名:陈希亮  曹雷  沈驰
作者单位:陆军工程大学指挥控制工程学院,江苏南京,210007;中国电子科技集团公司第二十八研究所,江苏南京,210007
摘    要:针对深度强化学习在解决序贯决策任务中严重依赖回报函数,而回报函数又存在着反馈稀疏和反馈延迟等问题,论文提出了基于深度逆向强化学习方法的行动序列生成与优化方法,通过专家示例轨迹数据重构回报函数,实现高质量示例轨迹数据中隐性专家经验的获取和利用,挖掘数据背后的规律。然后将重构的回报函数与环境固有的回报函数进行奖赏塑型,生成的新的回报函数能够更加及时、准确地对智能实体的行为给予反馈,大幅加速了强化学习的收敛速度。

关 键 词:深度强化学习  作战行动序列  智能化战争
本文献已被 万方数据 等数据库收录!
点击此处可从《国防科技》浏览原始摘要信息
点击此处可从《国防科技》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号