强化学习DDPG:Deep Deterministic Policy Gradient解读

这篇具有很好参考价值的文章主要介绍了强化学习DDPG:Deep Deterministic Policy Gradient解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. DDPG

DDPG方法相比于传统的PG算法,主要有三点改进:

A. off-policy策略

传统PG算法一般是采用on-policy方法,其将整体强化学习过程分为多个epoch,在每个epoch完成一次policy模型和value模型更新,同时在每轮epoch都需要根据决策模型重新采样得到该轮的训练样本。

但当同环境交互代价比较高时,这种on-policy的方式效率并不好。因此DDPG提出了一种off-policy的方法,其可以利用历史的样本,假设对于历史样本,DDPG的off-policy策略会重新根据当前target policy重新估计价值。

强化学习DDPG:Deep Deterministic Policy Gradient解读

因此DDPG的对于价值预估模型目标为,表示从所有历史样本上随机抽取的Batch

强化学习DDPG:Deep Deterministic Policy Gradient解读

而传统on-policy策略的目标为,下式中可以是MC采样后累积收益,表示当前epoch轮的采样结果。

B. 更复杂的确定性连续动作策略场景建模

传统PG算法是通过一个动作分布来建模运作,这种动作分布一般是离散的,或者将动作建模高斯分布,通过一个神经网络拟合分布均值和标准差两个参数。

DDPG采用一个动作生成网络可以输出确定性且连续的动作值。

C. Target Networks

DDPG的off-policy策略会重新根据当前target policy重新估计价值,因此此处的估计值是通过另一个网络Target Networks进行计算的,主要是为了避免直接采用目标优化网络进行预估时,变化太大而影响效果。

传统的DQN会更隔一段时间,整体同步目标优化网络的参数给Target Network。而DDPG采用的是一种更为平滑的方式,帮助Target Network及时适配目标优化网络的参数。

强化学习DDPG:Deep Deterministic Policy Gradient解读

D. Exploration

DDPG是确定性动作决策,所以为了保证探索,DDPG在采样动作后添加了一个高斯噪声,同时添加了截断来避免不合适的动作值。

强化学习DDPG:Deep Deterministic Policy Gradient解读

DDPG的算法整体流程

强化学习DDPG:Deep Deterministic Policy Gradient解读

 2. Twin Delayed DDPG

Twin Delayed DDPG又被称为TD3算法,其主要在DDPG的基础上做了两点升级:

A. target policy smoothing

前文提到DDPG的off-policy策略会重新根据当前target policy重新估计价值,这里的target policy生成的动作没有加上噪声探索,因为这里只是用于估计价值,而不是要探索。

而TD3算法却对这里的target policy动作加上了噪声,其主要原因是为了正则化,这个正则化操作平滑了训练中可能会出现某些不正确的动作尖峰。

强化学习DDPG:Deep Deterministic Policy Gradient解读

B. clipped double-Q learning

DDPG是基于Q-learning的,其由于是取最大可能性的某个确定动作,因此可能会带来Maxinum偏差(简单理解为由于预估分布的存在,所以最大值一般都会偏移期望值),这个问题可能通过double Q-learning进行解决。

TD3在DDPG的基础上,应用了double Q-learning思路,引入了两个target价值预估模型,分别生成价值预估,并选择其中最小作为最终的预估值。

强化学习DDPG:Deep Deterministic Policy Gradient解读

同时也存在两个目标价值模型:

但是target决策模型只有一组,其也只根据某个一个目标价值模型优化:

TD3的算法整体流程

强化学习DDPG:Deep Deterministic Policy Gradient解读

3. Soft Actor-Critic

由于DDPG只能产出确定性动作,因此Soft Actor Critic (SAC) 实现产出概率性动作决策 stochastic policy,SAC算法相比于TD3主要有两点不同:

A. entropy regularization

entropy regularization熵正则是SAC最核心的内容,因为SAC实现产出概率性动作决策,概率性动作决策主要问题是生成动作概率可能过于分散,因此SAC通过熵正则来避免这种情况。

强化学习DDPG:Deep Deterministic Policy Gradient解读

同时policy模型更新目标也添加了熵正则,但是其把两个目标模型都应用了,这个同TD3是不同。

B. Exploration

SAC由于其动作决策函数是概率的,所以天然有exploration特性,因此对于动作决策模型其并没有target network。另外通过在训练中控制也可以控制动作决策模型的exploration特性。

强化学习DDPG:Deep Deterministic Policy Gradient解读

 文章来源地址https://www.toymoban.com/news/detail-487120.html

到了这里,关于强化学习DDPG:Deep Deterministic Policy Gradient解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 强化学习 Proximal Policy Optimization (PPO)

    参考: 李宏毅老师课件 PPO: Default reinforcement learning algorithm at OpenAI PPO = Policy Gradient 从 On-policy 到 Off-policy, 再加一些constraint Actor: 动作执行者(智能体) Env: 环境 Reward Function: 奖励函数 Policy (pi) : a network with parameter (theta) . Input: 当前的 Env. Output: actor 要采取的下一个 action 的分

    2024年02月11日
    浏览(47)
  • DQN,DDPG,PPO 等强化学习算法在人工智能中的未来发展方向:从大规模到小规模部署

    作者:禅与计算机程序设计艺术 随着近年来人工智能领域的蓬勃发展,强化学习(Reinforcement Learning, RL)被越来越多的人认可并应用于人工智能领域。如今,RL已经可以处理许多复杂的问题,如自动驾驶、机器人控制等。在过去的一段时间里,我一直想和各位分享一下RL在人工

    2024年02月09日
    浏览(48)
  • ChatGPT 使用 强化学习:Proximal Policy Optimization算法(详细图解)

    ChatGPT 使用 强化学习:Proximal Policy Optimization算法 强化学习中的PPO(Proximal Policy Optimization)算法是一种高效的策略优化方法,它对于许多任务来说具有很好的性能。PPO的核心思想是限制策略更新的幅度,以实现更稳定的训练过程。接下来,我将分步骤向您介绍PPO算法。 首先,

    2023年04月10日
    浏览(31)
  • Datawhale 强化学习笔记(三)基于策略梯度(policy-based)的算法

    第九章 策略梯度 之前介绍的 DQN 算法属于基于价值(value-based)的算法,基于策略梯度的算法直接对策略本身进行优化。 将策略描述成一个带有参数 θ theta θ 的连续函数,该函数将某个状态作为输入,输出的不再是某个确定性(deterministic)的离散动作,而是对应的 动作概率分布

    2024年01月21日
    浏览(43)
  • Policy Gradient策略梯度算法详解

    Policy Gradient策略梯度(PG),是一种基于策略的强化学习算法,不少帖子会讲到从基于值的算法(Q-learning/DQN/Saras)到基于策略的算法难以理解,我的理解是两者是完全两套思路,在学习一种的时候先不要考虑另一种,更容易接受算法基本思想,了解了算法原理推导过程之后再

    2024年02月07日
    浏览(41)
  • 策略梯度算法(Policy gradient,PG)

    强化学习 有三个组成部分:演员,环境和奖励函数, 演员是我们的智能体,环境就是对手,奖励就是没走出一步环境给我们的reward,环境和奖励是我们无法控制的,但是我们可以调整演员的策略,演员的策略决定了演员的动作,即给定一个输入,它会输出演员现在应该要执

    2023年04月08日
    浏览(84)
  • 【机器学习】强化学习(六)-DQN(Deep Q-Learning)训练月球着陆器示例

    概述 Deep Q-Learning(深度 Q 学习)是一种强化学习算法,用于解决决策问题,其中代理(agent)通过学习在不同环境中采取行动来最大化累积奖励。Lunar Lander 是一个经典的强化学习问题,其中代理的任务是控制一个着陆舱在月球表面着陆,最小化着陆过程中的燃料消耗。 以下

    2024年01月25日
    浏览(62)
  • 深度强化学习的变道策略:Harmonious Lane Changing via Deep Reinforcement Learning

    偏理论,假设情况不易发生 多智能体强化学习的换道策略,不同的智能体在每一轮学习后交换策略,达到零和博弈。 和谐驾驶仅依赖于单个车辆有限的感知结果来平衡整体和个体效率,奖励机制结合个人效率和整体效率的和谐。 自动驾驶不能过分要求速度性能, 考虑单个车

    2024年01月17日
    浏览(41)
  • 强化学习highway_env代码解读

    作为强化学习的新手,写这个系列的博客主要是为了记录学习过程,同时也与大家分享自己的所见所想。前段时间发布了人生第一篇博客,是关于highway_env的自定义环境。但博客主要是关于如何创建一个自己的环境的py文件,是基于十字路口环境创建的。在经过一段时间的摸索

    2024年02月07日
    浏览(40)
  • A Closer Look at Invalid Action Masking in Policy Gradient Algorithms 论文阅读

    原文链接:http://arxiv.org/abs/2006.14171 这篇文章证明了无效动作掩蔽可以看作是在计算动作概率分布时应用状态相关的可微函数来产生行为策略。接下来,设计了实验来比较无效动作掩饰和无效动作惩罚的性能。 无效动作惩罚:这是一种常见的方法,对无效动作给予负奖励,以

    2024年03月14日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包