导弹突防后弹道机动调整策略强化学习期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

导弹突防后弹道机动调整策略强化学习

作者姓名：	樊博璇陈桂明韩磊李冰

作者单位：	1.火箭军工程大学作战保障学院,陕西西安 710025;火箭军装备部驻西安地区第一军事代表室,陕西西安 710025;2.火箭军工程大学作战保障学院,陕西西安 710025;3.火箭军装备部驻西安地区第一军事代表室,陕西西安 710025

基金项目：	国家自然科学基金资助项目(71601180)

摘要：	针对弹道导弹中段突防后飞行弹道与标准弹道产生较大偏离的弹道机动调整问题,建立了机动调整时机策略最优化模型.设计了机动调整逆序Q学习算法,采用Tile coding逼近器编码状态特征空间,并对其进行线性逼近.构建了Q学习算法与蒙特卡罗方法相结合的逆序更新策略机制,以对导弹机动调整最优时机进行训练.仿真测试分析结果表明,在给定场景参数下,通过10 000 代强化学习算法训练得到的策略能够可靠地使用最少机动次数控制导弹突防后飞行弹道的调整决策,验证了方法的有效性.
关键词：	弹道导弹中段突防强化学习 Q学习控制决策
收稿时间：	2022-01-15
本文献已被万方数据等数据库收录！
	点击此处可从《国防科技大学学报》浏览原始摘要信息
	点击此处可从《国防科技大学学报》下载免费的PDF全文