基于改进DDPG的智能策略生成方法

在线阅读 下载PDF 导出详情
摘要 摘要:体系作战具有作战过程复杂、态势变化快、决策空间大、对抗强度高的特点,采用人工智能算法可以辅助指挥员。面向体系对抗为场景,提出一种改进DDPG(深度确定性策略梯度)的深度强化学习算法。该算法通过状态依赖探索技术(state-dependent exploration,SDE),为智能体动作添加一个与状态相关的探索函数,提高算法的收敛性和策略生成的准确性。对比实验表明,该方法优于原始DDPG算法,可以提升体系对抗作战自主决策能力,有效可行。
出处 《科学与技术》 2021年34期
出版日期 2022年05月16日(中国期刊网平台首次上网日期,不代表论文的发表时间)
  • 相关文献