首页 | 本学科首页   官方微博 | 高级检索  
   检索      

强化学习在多阶段装备组合规划问题中的应用
引用本文:张骁雄,丁松,李明浩,丁鲲,王龙,义余江.强化学习在多阶段装备组合规划问题中的应用[J].国防科技大学学报,2021,43(5):127-136.
作者姓名:张骁雄  丁松  李明浩  丁鲲  王龙  义余江
作者单位:国防科技大学第六十三研究所,江苏南京 210007;浙江财经大学经济学院,浙江杭州 310018;国防科技大学系统工程学院,湖南长沙 410073;西南电子电信技术研究所,四川成都 610041
基金项目:国家自然科学基金资助项目(71901215,71901191);国防科技大学校科研计划资助项目(ZK20-46)
摘    要:针对多阶段武器装备组合规划中的选择难、规划难问题,提出基于多目标优化算法以及强化学习技术的混合优化方法。在各个阶段以装备组合效能最大和成本最小为准则,构建单阶段多目标优化模型,并设计基于非支配排序遗传算法的求解算法以生成各阶段的Pareto解,在此基础上建立多阶段的组合优化模型。通过强化学习的Q-Learning方法,在各阶段的Pareto解中采用探索或者利用两种模式,生成各阶段的装备组合,并指导下一阶段的装备选型,从而生成整个周期内的规划方案。通过对比实验分析,验证了所提模型和算法的有效性,能够为多阶段武器装备组合规划提供辅助决策。

关 键 词:武器装备  组合规划  非支配排序遗传算法  强化学习  Q-Learning
收稿时间:2020/1/18 0:00:00

Application of reinforcement learning in multi-period weapon portfolio planning problems
ZHANG Xiaoxiong,DING Song,LI Minghao,DING Kun,WANG Long,YI Yujiang.Application of reinforcement learning in multi-period weapon portfolio planning problems[J].Journal of National University of Defense Technology,2021,43(5):127-136.
Authors:ZHANG Xiaoxiong  DING Song  LI Minghao  DING Kun  WANG Long  YI Yujiang
Institution:The Sixty-third Research Institute, National University of Defense Technology, Nanjing 210007, China;School of Economics, Zhejiang University of Finance & Economics, Hangzhou 310018, China;College of Systems Engineering, National University of Defense Technology, Changsha 410073, China; Southwest Electronics and Telecommunication Technology Research Institute, Chengdu 610041, China
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《国防科技大学学报》浏览原始摘要信息
点击此处可从《国防科技大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号