强化学习论文阅读(二)SAC算法

这篇具有很好参考价值的文章主要介绍了强化学习论文阅读(二)SAC算法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

SAC:Soft Actor-Critic Algorithms and Applications

原文传递:SAC算法原文

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

作者指出深度强化学习样本效率低下的原因是:策略学习,TRPO、PPO、A3C每次策略更新都需要收集样本。学习有效的策略需要的步骤和样本数量伴随着任务的复杂性呈现增加的趋势。Off-Policy为了重复使用过去产生的经验值,但是在传统的策略公式当中不能直接使用,Off-Policy的高维、非线性函数近似和神经网络的结合使得稳定性和收敛性存在挑战。

在传统的强化学习当中,最优策略和奖励函数的比例无关,在最大熵强化学习中,比例需要选择合适的温度进行补偿,所以作者设计的基于梯度的自动调整温度的方法,调整访问状态的预期熵匹配目标值。

SAC的组成

SAC主要包含三个部分:

1:actor-critic 架构:包含价值网络和单独的策略;

2:Off-policy formulation:重复使用以前的数据以提高效率;

3:熵的最大化: 稳定探索记忆稳定训练。

Actor-Critic算法一般从策略迭代开始,在策略评估和计算价值函数之间交替进行,从而获得更好的策略。Actor-critic王铎单一使用都不能达到收敛,所以一般使用联合网络进行学习,这种情况下,策略也被称为是Actor,价值函数也称作Critic,许多Actor_Critic算法都建立在标准的策略地图共识上,考虑策略的熵,单没有将熵最大化,而只是正则器。On-policy 训练倾向于提高稳定性,但是样本复杂度较差。

DDPG使用Q函数估计来实现非策略的学习,并且使用确定性动作最大化Q函数。所以常常被视为确定性的Actor-Critic算法,也可以视为近似的Q学习算法,但是DDPG很难扩展到高维任务。

作者将非策略的Actor-critic与随机的Actor相结合,以熵最大化目标为目的最大化Actor的熵。最大熵强化学习优化策略,使得策略的期望收益和期望的熵最大化。

最大熵强化学习

最大熵目标通过增加熵来概括标准目标,从而访问每个状态熵的最大化。

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

其中,α是温度参数,决定了熵项相对于奖励的相对重要性,从而控制了最优策略的随机性。与传统的强化学习的标准的最大预期汇报目标不同,传统目标在α趋向于0的极限当中恢复。将传统的最大熵RL扩展到无限范围的问题,引入折扣因子γ来确保预期奖励的总和是有限的。

最大熵的优势:

  1. 策略倾向于更加广泛的探索,并且放弃明显 没有前途的途径;

  1. 策略捕获多种接近最优的行为模式;

  1. 在多种具有同样吸引力的动作当中,策略对动作的概率估计是相同的。

Soft Actor-Critic

soft policy iteration 是学习最优最大熵策略的一般算法,在对打赏框架内交替进行策略评估和改进。在迭代评估的步骤当中,希望根据最大熵目标计算策略π的值。

对于固定的策略,soft Q-value计算迭代从状态S到动作A到奖励R的映射,反复的修正贝尔曼算子,

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档
sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

V(st)是状态价值函数。

在策略改进的步骤当中,作者根据这个公式进行更新

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

分区函数Zπ 分布归一化。

软Q函数和政策使用函数近似,并且不运行评估和改进来收敛,而是用随机梯度下降法交替优化两个网络。考虑参数化的soft Q和稳妥的策略。soft Q被建模为富有表现力的神经网络,策略被建模为具有神经网络给出的平均值和协方差的高斯。soft Q函数的参数被训练为最小化贝尔曼残差随后使用随机梯度进行优化。

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

使用神经网络变换重新改变策略的参数化,引入

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

ε是输入的噪声,通过抽样其固定的分布,作者得到如下公式:

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

其中πφ被定义为fφ,策略剔骨被更新为:

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

自动调整最大熵值

作者目的是找到具有最大预期收益的随机侧列,满足最小预期熵的约束,从形式上看,主要解决约束性的优化问题。即为:

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

H为最小预期熵,但是对于完全MDP来说,优化的策略是确定的,约束是严格的,不需要对熵加上上限。

作者认为时间t的策略是影响未来的目标,所以想要通过采用一种近似的动态编程的方法,对时间向后求解来讲目标进行重写,在租后一个时间步上,将约束下最大化改为对偶问题。遵守

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

因为目标是线性的,所以作者使用强对偶性。

为了简化符号,作者最终利用soft Q 进行递归定义,

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

同时解决对偶变量a*t 在解决了Q*和π*之后。

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

SAC算法的核心就是soft Q函数和sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档,在理论上,精确求解可以递归最优熵约束的最大预期收益目标,在实践当中,需要借助函数老近似值和随机梯度的下降。

算法伪代码

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

算法比较

作者与DDPG、PPO、SQL、TD3等算法进行了比较,下午展示了训练期间的不同收益值,实心曲线代表平均值,阴影区域是最大和最小收益,作者展示了SAC在学习速度和最终表现都由于其他方法。

sac算法,强化学习,论文阅读,论文阅读,算法,Powered by 金山文档

现实应用:

作者将SAC算法转移到了现有的四足机器人上,在现实世界中,一个运动策略的效用关键在于它对不同地形和障碍物的概括能力。只在平坦的地形上训练了策略,如图2(第一行)所示,随后在不同的地形和障碍物上测试了它。

由于SAC在训练时学习了稳健的政策,由于熵最大化,该政策可以很容易地泛化到这些扰动,而不需要任何额外的学习。机器人能够在斜坡上行走,冲过由木块组成的障碍物,并毫无困难地走下楼梯,尽管没有在这些环境中接受训练。

总结

实验表明SAC符合或超过了最先进的无模型深度RL方法的性能,包括非政策性TD3算法和政策性PPO算法,不需要任何环境特定的超参数调整。我们在现实世界中的实验表明,对于在现实世界中直接学习的机器人任务,如运动和灵巧的操纵,软演员批评法是稳健的,而且样本效率很高。文章来源地址https://www.toymoban.com/news/detail-737317.html

到了这里,关于强化学习论文阅读(二)SAC算法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】基于鲁棒强化学习的无人机能量采集可重构智能表面

    只做学习记录,侵删原文链接 @article{peng2023energy, title={Energy Harvesting Reconfigurable Intelligent Surface for UAV Based on Robust Deep Reinforcement Learning}, author={Peng, Haoran and Wang, Li-Chun}, journal={IEEE Transactions on Wireless Communications}, year={2023}, publisher={IEEE} } 研究目标 RIS每一个反射单元都由无源器件

    2024年02月05日
    浏览(29)
  • 分层强化学习 综述论文阅读 Hierarchical Reinforcement Learning: A Comprehensive Survey

    分层强化学习可以通过将困难的长期决策任务分解为更简单的子任务,提升强化学习算法的性能。 分层强化学习方法主要涉及:使用HRL学习分层策略、子任务发现、迁移学习和多智能体学习四个主要挑战。 强化学习算法的一个痛点:如果任务的长度很长,状态空间和动作空

    2024年02月04日
    浏览(31)
  • 图像处理之《寻找和隐藏:通过深度强化学习的对抗隐写术》论文阅读

    一、文章摘要 图像隐写术的目的是将一个完整大小的图像(称为秘密)隐藏到另一个图像(称为封面)中。以往的图像隐写算法只能在一个封面中隐藏一个秘密。在这篇论文中, 我们提出了一个自适应局部图像隐写(AdaSteg)系统,允许缩放和位置自适应图像隐写 。该系统通过在局部

    2024年03月14日
    浏览(36)
  • 强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning 这是一篇发表在NeurIPS2022的论文,文章提出了一种分组算法,旨在提高算法零样本泛化能力 1 论文背景 CTDE :集中训练分散执行,在训练阶段将所有智能体的Q值加到一起去训练,训练完了之后在执行阶段大家各自执行自己

    2024年01月25日
    浏览(41)
  • 对比学习论文阅读:CoCLR算法笔记

    标题:Self-supervised Co-training for Video Representation Learning 会议:NIPS2020 论文地址:https://dl.acm.org/doi/abs/10.5555/3495724.3496201 官方代码:https://www.robots.ox.ac.uk/~vgg/research/CoCLR/ 作者单位:牛津大学 本文的研究目标是纯视觉的自监督视频表征学习。我们做出了以下贡献:①我们研究了在

    2024年02月03日
    浏览(47)
  • Discuz论坛网站标题栏Powered by Discuz!版权信息如何去除或是修改?

    当我们搭建好DZ论坛网站后,为了美化网站,想把标题栏的Powered by Discuz!去除或是修改,应该如何操作呢?今天飞飞和你分享,在操作前务必把网站源码和数据库都备份到本地或是网盘。   Discuz的版权信息存在两处地方,一个是标题栏,一个是底部。一般为了美化修改个标

    2024年02月08日
    浏览(54)
  • 【联邦学习论文阅读】常用算法理解(SCAFFOLD、FedPD、FedBN)-目前仅SCAFFOLD

    SCAFFOLD(ICML-2020):SCAFFOLD: Stochastic Controlled Averaging for Federated Learning FedPD:https://arxiv.org/abs/2005.11418 FedBN(ICLR 2021):FEDBN: FEDERATED LEARNING ON NON-IID FEATURES VIA LOCAL BATCH NORMALIZATION 1… 梯度 实际上是对用户数据进行函数变换,在训练数据时携带信息,可能有泄露梯度隐私的风险。

    2023年04月20日
    浏览(32)
  • 论文阅读:PointCLIP: Point Cloud Understanding by CLIP

     CVPR2022 链接:https://arxiv.org/pdf/2112.02413.pdf         最近,通过对比视觉语言预训练(CLIP)的零镜头学习和少镜头学习在2D视觉识别方面表现出了鼓舞人心的表现,即学习在开放词汇设置下将图像与相应的文本匹配。然而,在二维大规模图像文本对的预训练下,CLIP识别能否推

    2024年02月04日
    浏览(32)
  • 【论文阅读 03】机器学习算法在颈动脉斑块影像学分类中的研究进展

    读完之后就是,总结 机器学习(SVM、小波)和深度学习(CNN)在 颈动脉斑块影像学中的 分类效果。只讨论了超声、磁共振两种成像   Chin J Clin Neurosci 临床神经科学杂志 复旦大学 颈动脉斑块( carotid plaques) 是一种由于颈动脉血 管壁受损导致血液有形成分聚集而成的团块状结

    2024年02月16日
    浏览(30)
  • (C#) IIS 响应标头过滤敏感信息(如:Server/X-Powered-By等) 运维知识

    再一次净网行动中,客户要求安全改造发现了接口请求的header标头中出现如图中的敏感信息。   其意义在于告知浏网站是用什么语言或者框架编写的。解决办法就是修改该响应头为一个错误的值,将攻击者导向一个错误的方向。 这里只说windows 的iis环境,不考虑其他服务器的

    2024年02月11日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包