共查询到20条相似文献,搜索用时 15 毫秒
1.
针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,采用逆向学习方法计算得到回报函数,从而能够通过强化学习方法得到智能优化策略,生成舰载机甲板调度方案。经仿真实验验证,本文所提方法能够较好地学习专家演示,结果符合调度方案优化需求,为形成辅助决策提供了基础。 相似文献
2.
针对无人机路径规划中传统算法面对未知情况时适应程度低、在线求解效率低、计算量大等问题,基于深度强化学习DDPG算法,提出了一种无人机路径规划方法.采用策略网络和评价网络的双网络结构,拟合无人机路径规 划决策函数和状态动作函数,根据状态空间、动作空间和网络结构设计了 DDPG算法模型.通过仿真验证了所提出的路径规划方法的... 相似文献
3.
4.
根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。 相似文献
5.
6.
智能博弈对抗领域已成为当前研究的热门领域之一。侧重在兵棋推演系统的体系构建和模块设计,分析了兵棋推演系统的建模要素,包括兵棋要素、兵棋规则及智能接口设计,构建了智能兵棋推演系统的整体架构。通过A3C强化学习智能算法对系统设计进行可行性验证。其中,改进了强化学习训练过程的奖励设置,明确智能兵棋环境的状态输入、算法驱动过程及动作输出过程,通过自主实现的智能兵棋推演系统,验证了所提的系统理论与工作。该工作为基于强化学习的智能博弈系统的设计与实现提供了可行路径,并为以后基于强化学习的智能博弈对抗研究提供了基础平台。 相似文献
7.
8.
无人机蜂群机动性强、易于调度、部署灵活,是未来战场态势互联互通、快速精确打击的重要手段。多无人机“通信感知一体化”将无人机通信和感知两个功能互融在一起,在无线信道传输信息的同时,主动认知并分析信道的特性,感知周围环境的物理特征,使得通信与感知功能相互得到增强。与此同时,深度强化学习将深度学习的感知能力和特征提取能力与传统强化学习的决策能力进行有机结合,解决了智能体决策博弈类的现实问题。将通信感知一体化和深度强化学习应用于多无人机态势感知、信息传递、任务规划、资源调度等,能够为多无人机蜂群系统的发展和实践应用奠定基础。 相似文献
9.
移动自组织网络是一种无基础设施、由移动通信节点组成的无线网络,具有高动态特性。传统的路由协议并不能适应节点移动性带来的频繁拓扑变化,简单的洪泛路由也会因开销过大降低网络的性能。针对如何在移动自组织网络中自适应地进行路由选择,提出强化学习框架下的分步路由选择算法。该算法以最小链路总往返时延为目标,基于强化学习进行路由搜寻,在筛选出符合目标需求节点集合的基础上,结合置信度选择路由。在链路变得不可靠时,数据包被广播给筛选出的邻居节点集以提升路由可靠性并降低开销。对提出的算法在分组到达率和路由开销等主要性能指标进行数值仿真分析。仿真结果表明,提出的分步路由算法相比于基于强化学习的智能鲁棒路由,在降低开销的同时,保持着相当的吞吐率。 相似文献
10.
陆战Agent是陆军作战复杂系统ABMS核心的基础要素,学习是陆战Agent适应复杂动态陆战环境的重要能力,如何构建符合陆军作战特点的陆战Agent学习机理模型,是陆军作战复杂系统ABMS必须要解决的关键问题之一。通过陆战Agent基于效果学习本质特征和强化学习算法的分析,结合陆战Agent通信和指挥控制的特点,提出了基于知识共享的陆战Agent PS强化学习机理模型。与一般强化学习模型相比,该模型既能解决感知混淆和学习一致性的问题,又能节省存储空间,提高运行效率,还可实现不同形式的知识共享,增强陆战Agent系统的整体学习和完成作战任务的能力。 相似文献
11.
12.
移动自组织网络是一种无基础设施、由移动通信节点组成的无线网络,具有高度的动态特性。传统的路由协议并不能适应节点移动性带来的频繁拓扑变化,简单的洪泛路由也会因开销过大降低网络的性能。针对如何在移动自组织网络中自适应地进行路由选择,提出了一种基于强化学习的分步路由选择算法。该算法以最小链路总往返时延为目标,基于强化学习进行路由搜寻,在筛选出符合目标需求节点集合的基础上,结合置信度选择路由。在链路变得不可靠时,数据包被广播给筛选出的邻居节点集来提升路由可靠性并降低开销。对提出的算法在分组到达率和路由开销等主要性能指标进行数值仿真分析,仿真结果表明,提出的分步路由算法相比于基于强化学习的智能鲁棒路由,在降低开销的同时,保持着相当的吞吐率。 相似文献
13.
深度学习正逐渐成为新一代人工智能最核心的技术之一。对2022年深度学习热门领域的主要发展动向进行了综合评述。首先,介绍小数据小样本深度学习研究领域的最新进展;其次,探讨量子计算与深度学习的融合路径;然后,概述强化学习对通用智能的推动作用;最后,盘点深度学习在多模态学习方向的进展。综述表明,面向小数据、小样本的深度学习技术正在引领深度学习向自监督方向不断迈进,深度学习与其他先进计算范式(例如量子计算等)深入融合趋势愈发明显,强化学习在一定程度上具备解决复杂问题的通用智能,多模态深度学习技术已迎来关键性突破。 相似文献
14.
15.
16.
17.
智能训练是利用机器学习算法对神经网络智能体模型进行训练优化的过程,智能体模型通过不断试错的训练方式实现智能提升。大规模训练数据是智能训练的必要条件,通常难以从现实世界中直接获取,如何通过仿真的方式生成大量有效的训练数据,是智能训练的重要研究方向。对此提出一种基于仿真实验的智能并行训练方法,利用仿真实验管理可快速生成批量仿真实验想定,并支持节点自动部署和运行,通过合理的训练架构设计和有效训练流程设计实现智能并行训练。通过实际案例展示了智能训练的仿真实验管理过程,并结合训练效果证明了给出的方法提高了智能训练效率和智能体泛化性。 相似文献
18.
任务分配问题是智能体集群研究的基础关键问题之一,UUV集群在任务分配问题方面受到水下探测和通信能力的限制,UUV个体只能获得周围局部信息,常规的全局算法无法得到很好的应用。提出了一种基于深度强化学习和分布式UUV集群组织架构的任务分配算法,算法首先实现每个UUV个体的局部任务分配,其次相邻的个体之间进行信息一致协调,从而实现UUV集群的最优化任务分配。仿真实验结果表明,所提算法相较遗传算法收敛更快,相较合同网算法通信量小,任务分配效率高,且分布式架构不依赖“指挥中心”,UUV集群系统的鲁棒性更高,任务分配可靠性更高。 相似文献
19.
20.
针对多智能体深度强化学习在解决联合海空作战战术博弈决策模型难以训练优化问题,结合多智能体深度强化学习在智能化指挥决策问题中的应用性优势,以及课程学习在复杂问题研究中的改进优势,构建基于马尔可夫决策过程的联合海空战术决策过程模型,提出基于复杂度指数函数的任务复杂性度量方法,建立基于值分解网络算法的求解模型。针对一个典型联合海空作战战术决策场景,构建从易到难的课程学习任务和模型求解框架,设计针对任务的决策模型训练方法,在兵棋推演仿真系统上,对模型训练方法的可行性进行了验证。 相似文献