基于元课程强化学习的多智能体协同博弈技术期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于元课程强化学习的多智能体协同博弈技术

引用本文：	丁季时雨,孙科武,董博,杨皙睿,范长超,马喆.基于元课程强化学习的多智能体协同博弈技术[J].现代防御技术,2022(5):36-42.

作者姓名：	丁季时雨孙科武董博杨皙睿范长超马喆

作者单位：	中国航天科工集团有限公司第二研究院未来实验室

基金项目：	国家自然科学基金（62103386）；

摘要：	多智能体协同博弈具有实时及动作连续性、非完全信息博弈、庞大的搜索空间、多复杂任务和时间空间推理等特点，是当前人工智能领域极具挑战的难题之一。针对大规模多智能体强化学习训练时间长、难以收敛等问题，提出了一种基于Actor-Critic的多智能体强化学习协同博弈框架，利用元课程强化学习方法对小规模场景进行基础课程元模型提取，并且基于课程学习向大规模场景进行模型迁移，在元模型基础上继续进行训练，扩展元模型策略网络，最终得到较优协同博弈策略。在《星际争霸Ⅱ》平台上进行仿真实验，结果表明：基于元课程强化学习的多智能体协同博弈技术可有效地加速其训练过程，相较于传统训练方法可以在较短时间内达到较高的胜率，训练速度提升约40%，该方法可有效支撑多智能体协同博弈策略的高效生成，为低资源下的强化学习高效训练奠定理论基础。
关键词：	多智能体强化学习协同博弈元课程学习高效训练

设为首页 | 免责声明 | 关于勤云 | 加入收藏