[论文笔记] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

8月前作者：心心喵分类：Toy博客阅读(36) 违法举报

这篇具有很好参考价值的文章主要介绍了[论文笔记] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Proximal Policy Optimization (PPO)

一、Motivation

避免较多的策略更新。

根据经验，训练期间较小的策略更新更有可能收敛到最优解决方案。
在策略更新中，太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略)，并且有很长时间甚至没有可能恢复。

[论文笔记] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

所以在PPO中，我们保守地更新策略。为此，我们需要使用当前policy和前policy之间的比率计算来衡量当前政策与前政策相比发生了多少变化。我们把比率控制在[1-e,1+e]，意味着我们移除当前policy与前policy太远的激励(因此称为近端政策术语)。文章来源地址https://www.toymoban.com/news/detail-438457.html

二、推导

2.1 策略目标函数(The Policy Objective Function)：

到了这里，关于[论文笔记] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Proximal Policy Optimization(近端策略优化)(PPO)原理详解

本节开始笔者针对自己的研究领域进行RL方面的介绍和笔记总结，欢迎同行学者一起学习和讨论。本文笔者来介绍RL中比较出名的算法PPO算法，读者需要预先了解Reinforcement-Learning中几个基础定义才可以阅读，否则不容易理解其中的内容。不过笔者尽可能把它写的详细让读者弄

2024年02月13日
浏览(38)
大语言模型-RLHF(七)-PPO实践（Proximal Policy Optimization）原理&实现&代码逐行注释

从open AI 的论文可以看到，大语言模型的优化，分下面三个步骤，SFT，RM，PPO，我们跟随大神的步伐，来学习一下这三个步骤和代码实现，本章介绍PPO实践。生活中，我们经常会遇到，希望chatgpt在指定内容范围内回答问题。目前的解决方案大致可以分为两大类，一类是知识库

2024年02月12日
浏览(29)
ChatGPT 使用强化学习：Proximal Policy Optimization算法（详细图解）

ChatGPT 使用强化学习：Proximal Policy Optimization算法强化学习中的PPO（Proximal Policy Optimization）算法是一种高效的策略优化方法，它对于许多任务来说具有很好的性能。PPO的核心思想是限制策略更新的幅度，以实现更稳定的训练过程。接下来，我将分步骤向您介绍PPO算法。首先，

2023年04月10日
浏览(24)
【人工智能大模型】一文彻底讲透——什么是 PPO（Proximal Policy Optimization，近端策略优化）？

论文：

2024年02月16日
浏览(35)
强化学习PPO从理论到代码详解(1)--- 策略梯度Policy gradient

Proximal Policy Optimization(PPO) 近端策略优化，可以说是目前最稳定，最强的强化学习算法之一了，也是openAI默认的强化学习算法，有多叼不用我说了吧。笔者在强化学习的道路上看来很多书，看了很多代码，和很多大佬的博客，只是很多都是侧重一个方面，所以我在吸取百家之

2024年02月07日
浏览(32)
[论文笔记] chatgpt系列 2.1 DeepSpeed-chat 简介

DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub 🐕 DeepSpeed-Chat:简单，快速和负担得起的RLHF训练的类chatgpt模型 🐕 一个快速、经济、可扩展和开放的系统框架，用于实现端到端的强化学习人类反馈(RLHF)训练体验，以在所有尺度上生成高质量的类chat

2024年02月09日
浏览(205)
强化学习系列之Policy Gradient算法

1.1 基础组成部分强化学习里面包含三个部件：Actor，environment，reward function Actor : 表示角色，是能够被玩家控制的。 Policy of Actor：在人工智能中，Policy π pi π 可以表示为一个神经网络，参数为 θ theta

2024年02月06日
浏览(25)
文心一言 VS chatgpt （1）-- 算法导论1.1

文心一言：现实生活中需要排序的一个例子：在一个商店里，顾客需要购买一些商品。他们需要按照价格从低到高排序，以便更容易地找到他们想要的商品。现实生活中需要计算凸壳的一个例子：在一个建筑工地上，工人需要计算一个凸壳的面积。他们需要知道凸壳的高度

2024年02月09日
浏览(34)
Datawhale 强化学习笔记(三）基于策略梯度(policy-based)的算法

第九章策略梯度之前介绍的 DQN 算法属于基于价值(value-based)的算法，基于策略梯度的算法直接对策略本身进行优化。将策略描述成一个带有参数 θ theta θ 的连续函数，该函数将某个状态作为输入，输出的不再是某个确定性(deterministic)的离散动作，而是对应的动作概率分布

2024年01月21日
浏览(30)
论文阅读-MOSS-RLHF：PPO

https://github.com/OpenLMLab/MOSS-RLHF Secrets of RLHF in Large Language Models Part I: PPO Ablustrund/moss-rlhf-reward-model-7B-zh · Hugging Face 小虎AI珏爷：从人的反馈中强化学习（RLHF）-简单理解小虎AI珏爷：ChatGPT背后的技术之理解人类反馈强化学习（RLHF）小虎AI珏爷：OpenAI默认算法-PPO：近端策略优化

2024年02月02日
浏览(28)