【强化学习】QAC、A2C、A3C学习笔记

这篇具有很好参考价值的文章主要介绍了【强化学习】QAC、A2C、A3C学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

强化学习算法:QAC vs A2C vs A3C

引言

经典的REINFORCE算法为我们提供了一种直接优化策略的方式,它通过梯度上升方法来寻找最优策略。然而,REINFORCE算法也有其局限性,采样效率低高方差收敛性差难以处理高维离散空间

为了克服这些限制,研究者们引入了Actor-Critic框架,它结合了价值函数和策略梯度方法的优点(适配连续动作空间和随机策略),旨在提升学习效率和稳定性。

QAC(Quality Actor-Critic)

实现原理

QAC算法通过结合Actor-Critic架构的优势,实现了策略和价值函数的有效融合。在此框架中,Actor基于策略梯度法选择动作,而Critic组件评估这些动作的价值,以指导Actor的策略更新。

【强化学习】QAC、A2C、A3C学习笔记,强化学习,ActorCritic,QAC,A2C,A3C
由图可知,在Actor-Critic算法中,TD Error用于更新Critic的价值函数,也用来指导Actor的策略梯度更新。简单来说,如果TD Error较大,意味着当前策略对于该状态-动作对的价值预测不准确,需要更大的调整。

优势与局限

QAC的主要优势在于其将策略探索与价值评估相结合,旨在提升决策质量与学习速度。然而,由于依赖样本来更新策略,它可能会面临高方差问题,尤其是在样本数量较少或者环境噪声较大的情况下。 这要求在实际应用中进行适当的调整和优化,以实现最佳性能。

A2C(Advantage Actor-Critic)

实现原理

A2C通过引入advantage函数 A π ( s t , a t ) A^\pi(s_t,a_t) Aπ(st,at),来指导策略更新。这个函数评估执行某个动作相比平均水平好多少,旨在减少方差并提高策略的学习效率。

优势与局限

A2C的同步框架减少了策略更新中的噪声,提升了学习稳定性。作为on-policy算法,它直接在策略路径上进行更新,保证了策略的一致性。

好像基本上能搜的资料都没有说这个方法的局限。
从经验上看,这个方法的样本利用率不高(会比DQN还要难收敛一点),而且对超参数敏感(这算是强化学习的通病了)。

A3C(Asynchronous Advantage Actor-Critic)

实现原理

A3C通过多个并行的Actor-Critic实例进行学习,这些实例独立探索并异步更新主策略。每个实例有自己的环境副本,降低了策略更新中的相关性
【强化学习】QAC、A2C、A3C学习笔记,强化学习,ActorCritic,QAC,A2C,A3C

优势与局限

A3C的异步更新可以在多个环境副本上并行处理,加快学习速度,同时保持了策略的多样性。

但是这就要看你的计算资源够不够了🤣

小结(比较)

  • QAC:一种基本的Actor-Critic方法,通过Q值来指导策略的更新。
  • A2C:利用advantage function代替Q值,减少了方差并可能加速了学习过程。它通常在一个单一的环境中运行,这意味着它在更新策略时会等待每一步都完成。
  • A3C:在A2C的基础上添加异步执行,允许多个agents并行探索和学习,这样不同的agent可以探索不同的策略空间,增加样本的多样性并加速学习过程。

A2C和A3C的核心区别在于A3C的异步更新机制,它允许并行处理多个环境实例,从而提高了算法的效率和鲁棒性。而QAC则为这些更先进的算法提供了基础框架。在实际应用中,选择哪种算法取决于计算资源、环境的复杂度以及所需的学习效率。

A2C提供了同步更新的稳定性,而A3C通过异步更新增加了学习效率。
两者都采用了advantage函数改善策略梯度,但A3C在多核心或多处理器系统上更具优势。

最后的问答

  • 相比REINFORCE算法,为什么A2C可以提升速度?

A2C增加了Critic组件用于估计状态价值,这样Actor可以利用Critic提供的价值信息来更新策略,使得学习过程更加高效。

  • A2C、A3C是on-policy的吗?

A2C算法是on-policy的,因为它根据当前策略生成的样本来更新这个策略,这意味着它评估和改进的是同一个策略。

A3C算法虽然采用了异步的更新机制,但它本质上仍然是on-policy的。尽管这些更新是异步发生的,但每个actor的策略更新都是基于其自身的经验,而这些经验是根据各自的当前策略产生的。

PS:后面有个最大熵的Soft Acotr Critic,这个就是off-policy。

参考资料

joyrl-book 第 10 章 Actor-Critic 算法文章来源地址https://www.toymoban.com/news/detail-822223.html

到了这里,关于【强化学习】QAC、A2C、A3C学习笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • js按顺序定义一万个变量 a1 a2 a3 ......, 并赋值, 然后打印a1 a2的值

    在这个示例中,我们使用了一个对象 variables 来存储变量。通过 for 循环,我们定义了一万个变量,并将对应的值赋给了 variables 对象的属性。最后,我们可以通过 variables.a1 和 variables.a2 来访问并打印出这两个变量的值。 使用对象或数组来管理大量连续的变量,可以更加有效

    2024年02月13日
    浏览(57)
  • 设从键盘输入一整数的序列:a1,a2,a3,...,an,用栈结构存储输入的整数,当ai不等于-1时,将ai进栈;当ai=-1时,输出栈顶整数并出栈【数据结构】【栈】

    设计一个函数实现以下功能的函数,并测试。 设从键盘输入一整数的序列:a1,a2,a3,...,an,用栈结构存储输入的整数,当ai不等于-1时,将ai进栈;当ai=-1时,输出栈顶整数并出栈。注意要应对异常情况(入栈满等)给出相应的信息。 输出结果:       主要算法: 完整代码:

    2024年02月05日
    浏览(44)
  • I2C与I3C

    Improved Inter Integrated Circuit ,是 MIPI(Mobile Industry Processor Interface)移动产业处理器接口联盟推出的改进型 i2c (Inter-Integrated Circuit Bus)总线接口。 I3C Introduction I3C : Improved Inter Integrated Circuit ,是 MIPI(Mobile Industry Processor Interface)移动产业处理器接口联盟推出的改进型 i2c 总线接

    2024年02月08日
    浏览(41)
  • SDRAM学习笔记(MT48LC16M16A2,w9812g6kh)

    SDRAM : 即同步动态随机存储器(Synchronous Dynamic Random Access Memory), 同步是指其时钟频率与对应控制器(CPU/FPGA)的系统时钟频率相同,并且内部命令 的发送与数据传输都是以该时钟为基准;动态是指存储阵列需要不断的刷新来保证数据不丢失;随机指数据的读取和写入可以随

    2024年02月08日
    浏览(36)
  • I2C与I3C的对比

    I2C 1.半双工 2.串行数据线(SDA)和串行时钟线(SCL) 3.数据线漏极开路,即I2C接口接上拉电阻 4.I2C总线运行速度:**标准模式100kbit/s,快速模式400kbit/s,快速模式plus 1Mbit/s,**高速模式3.4Mbit/s,超高速模式5Mbit/s。 5.物理连接 6.此外,中断脚、使能脚需要额外占用GPIO连接到SOC上 I3C

    2024年02月09日
    浏览(40)
  • 强化学习-DQN改进及一些强化学习路由优化论文笔记

    通用超参数 Duel Structure VS→该state在当前policy下的value QSA→该state进行这个action在当前policy下的value advantage = VS - QSA 裁剪区域的确定? 34 194按行输出min,33 193min为90*90 background knowledge [bisect Module] python自带的二分查找的包 基本使用 bisect with list 在一个increasing array插入一个元素

    2024年04月13日
    浏览(50)
  • 人工智能课程笔记(7)强化学习(基本概念 Q学习 深度强化学习 附有大量例题)

    强化学习和深度学习都是机器学习的分支,但是两者在方法和应用场景上有所不同。 强化学习 : 强化学习概述 :强化学习是一种通过智能体与环境进行交互来学习最优行动策略的算法。在强化学习中,智能体与环境不断交互,观察环境的状态并采取不同的行动,从而获得奖

    2024年01月17日
    浏览(52)
  • 强化学习价值函数方法笔记

    在强化学习中,价值函数(Value Function)是一个核心概念,它用于衡量在不同状态或状态-动作对下,一个智能体(agent)可以获得的预期累积奖励。价值函数对于智能体做出决策和学习行为策略非常重要。 价值函数可以分为两种类型: 状态价值函数(State Value Function):记作

    2024年02月15日
    浏览(38)
  • 安全强化学习笔记

    TRPO 如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎 安全/约束强化学习路线图(Safe RL Roadmap)编辑于 2023-05-06 知乎 南山张学有 Safe RL 的一点点总结编辑于 2021-04-25 1.CPO 2.RCPO 3.CPPO-PID 4.SafeLayer+DDPG 5.Safety-Gym 【安全强化学习· 一】Safe Reinforcement Learning(一)2020

    2024年02月02日
    浏览(31)
  • 华三杯H3C 网络知识学习笔记(1)

    通俗易懂的IP地址、子网掩码、默认网关、DNS服务器 https://blog.csdn.net/belongtocode/article/details/106453395 一文搞懂网络知识,IP、子网掩码、网关、DNS、端口号 https://zhuanlan.zhihu.com/p/65226634 https://www.cnblogs.com/flashsun/p/14266148.html https://www.cnblogs.com/JuneWang/p/3917697.html 新华三集团 新华三

    2024年02月07日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包