[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)

这篇具有很好参考价值的文章主要介绍了[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Proximal Policy Optimization (PPO)

一、Motivation

        避免较多的策略更新。

  • 根据经验,训练期间较小的策略更新更有可能收敛到最优解决方案。
  • 在策略更新中,太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略),并且有很长时间甚至没有可能恢复。

[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)

        所以在PPO中,我们保守地更新策略。为此,我们需要使用当前policy和前policy之间的比率计算来衡量当前政策与前政策相比发生了多少变化。我们把比率控制在[1-e,1+e],意味着我们移除当前policy与前policy太远的激励(因此称为近端政策术语)。文章来源地址https://www.toymoban.com/news/detail-428566.html

二、推导

2.1 策略目标函数(The Policy Objective Function):

到了这里,关于[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Proximal Policy Optimization(近端策略优化)(PPO)原理详解

    本节开始笔者针对自己的研究领域进行RL方面的介绍和笔记总结,欢迎同行学者一起学习和讨论。本文笔者来介绍RL中比较出名的算法PPO算法,读者需要预先了解Reinforcement-Learning中 几个基础定义 才可以阅读,否则不容易理解其中的内容。不过笔者尽可能把它写的详细让读者弄

    2024年02月13日
    浏览(38)
  • ChatGPT 使用 强化学习:Proximal Policy Optimization算法(详细图解)

    ChatGPT 使用 强化学习:Proximal Policy Optimization算法 强化学习中的PPO(Proximal Policy Optimization)算法是一种高效的策略优化方法,它对于许多任务来说具有很好的性能。PPO的核心思想是限制策略更新的幅度,以实现更稳定的训练过程。接下来,我将分步骤向您介绍PPO算法。 首先,

    2023年04月10日
    浏览(24)
  • 大语言模型-RLHF(七)-PPO实践(Proximal Policy Optimization)原理&实现&代码逐行注释

    从open AI 的论文可以看到,大语言模型的优化,分下面三个步骤,SFT,RM,PPO,我们跟随大神的步伐,来学习一下这三个步骤和代码实现,本章介绍PPO实践。 生活中,我们经常会遇到,希望chatgpt在指定内容范围内回答问题。目前的解决方案大致可以分为两大类,一类是知识库

    2024年02月12日
    浏览(29)
  • 论文阅读--EFFICIENT OFFLINE POLICY OPTIMIZATION WITH A LEARNED MODEL

    作者:Zichen Liu, Siyi Li, Wee Sun Lee, Shuicheng YAN, Zhongwen Xu 论文链接:Efficient Offline Policy Optimization with a Learned Model | OpenReview 发表时间:  ICLR   2023年1月21日  代码链接:https://github.com/sail-sg/rosmo MuZero的离线版本算法(MuZero Unplugged)为基于日志数据的离线策略学习提供了一种很

    2024年02月03日
    浏览(36)
  • 【论文笔记 | 异步联邦】Asynchronous Federated Optimization

    Asynchronous Federated Optimization,OPT2020: 12th Annual Workshop on Optimization for Machine Learning,不属于ccfa 任务激活不频繁(比较难以达成条件):对于弱边缘设备,学习任务只在设备空闲、充电、连接非计量网络时执行 通信不频繁:边缘设备和远程服务器之间的连接可能经常不可用、缓

    2024年04月27日
    浏览(30)
  • 【论文笔记】ZOO: Zeroth Order Optimization

    论文(标题写不下了): 《ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute Models》 深度神经网络(DNN)是当今时代最突出的技术之一,在许多机器学习任务中实现了最先进的性能,包括但不限于图像分类、文本挖掘、语音处理。 但人们越来越关

    2024年01月23日
    浏览(25)
  • 强化学习PPO从理论到代码详解(1)--- 策略梯度Policy gradient

    Proximal Policy Optimization(PPO) 近端策略优化,可以说是目前最稳定,最强的强化学习算法之一了,也是openAI默认的强化学习算法,有多叼不用我说了吧。 笔者在强化学习的道路上看来很多书,看了很多代码,和很多大佬的博客,只是很多都是侧重一个方面,所以我在吸取百家之

    2024年02月07日
    浏览(32)
  • 【论文笔记】End-to-End Diffusion Latent Optimization Improves Classifier Guidance

    Classifier guidance为图像生成带来了控制,但是需要训练新的噪声感知模型(noise-aware models)来获得准确的梯度,或使用最终生成的一步去噪近似,这会导致梯度错位(misaligned gradients)和次优控制(sub-optimal control)。 梯度错位(misaligned gradients):通过噪声感知模型指导生成模型时,两个

    2024年02月02日
    浏览(40)
  • Datawhale 强化学习笔记(三)基于策略梯度(policy-based)的算法

    第九章 策略梯度 之前介绍的 DQN 算法属于基于价值(value-based)的算法,基于策略梯度的算法直接对策略本身进行优化。 将策略描述成一个带有参数 θ theta θ 的连续函数,该函数将某个状态作为输入,输出的不再是某个确定性(deterministic)的离散动作,而是对应的 动作概率分布

    2024年01月21日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包