首页 > 《科学与技术》 > 2021年34期 > 基于改进DDPG的智能策略生成方法

基于改进DDPG的智能策略生成方法

在线阅读下载PDF 导出详情

摘要摘要：体系作战具有作战过程复杂、态势变化快、决策空间大、对抗强度高的特点，采用人工智能算法可以辅助指挥员。面向体系对抗为场景，提出一种改进DDPG（深度确定性策略梯度）的深度强化学习算法。该算法通过状态依赖探索技术（state-dependent exploration，SDE），为智能体动作添加一个与状态相关的探索函数，提高算法的收敛性和策略生成的准确性。对比实验表明，该方法优于原始DDPG算法，可以提升体系对抗作战自主决策能力，有效可行。

DOI 54yq3qkxj0/5926476

作者崔新悦，阳周明，王娜

机构地区北方自动控制技术研究所 030000

出处《科学与技术》 2021年34期

关键词智能策略 DDPG 广义状态依赖探索技术

分类 [建筑科学][建筑技术科学]

出版日期 2022年05月16日（中国期刊网平台首次上网日期，不代表论文的发表时间）