融合先验知识的异构多智能体强化学习算法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融合先验知识的异构多智能体强化学习算法研究

作者姓名：	周佳炜孙宇祥薛宇凡项祺吴莹周献中

作者单位：	南京大学

摘要：	近年来，基于深度强化学习的机器学习技术突破性进展为智能博弈对抗提供了新的技术发展方向。针对智能对抗中异构多智能体强化学习算法训练收敛速度慢，训练效果差异大等问题，提出了一种先验知识驱动的多智能体强化学习博弈对抗算法PK-MADDPG,构建了双重Critic框架下的MADDPG模型。该模型使用了经验优先回放技术来优化先验知识提取，在博弈对抗训练中取得显著的效果。论文成果应用于MaCA异构多智能体博弈对抗全国竞赛，将PK-MADDPG算法与经典规则算法的博弈对抗结果进行比较，验证了所提算法的有效性。
关键词：	强化学习智能博弈智能兵棋 MADDPG 多智能体协同