| 一文读懂ChatGPT中的强化学习

这篇具有很好参考价值的文章主要介绍了| 一文读懂ChatGPT中的强化学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文:原创 | 一文读懂ChatGPT中的强化学习

ChatGPT基于OpenAI的GPT-3.5创造,是InstructGPT的衍生产品,它引入了一种新的方法,将人类反馈纳入训练过程中,使模型的输出与用户的意图更好地结合。在OpenAI的2022年论文《通过人类反馈训练语言模型以遵循指令》中对来自人类反馈的强化学习(RLHF)进行了深入描述。

创建者将监督学习和强化学习相结合来微调ChatGPT,强化学习组件是ChatGPT的独到之处。研究人员使用了“根据人类反馈强化学习(Reinforcement Learning from Human Feedback ,RLHF)”的特殊技术,在训练环路中使用人类反馈来尽量减少有害的、不真实的和/或有偏差的输出。

该方法包括以下三个步骤:

第一步:带监督的微调,预训练语言模型对由标注人员管理的相对较少的演示数据进行微调,以学习监督策略(SFT模型),根据选定的提示列表生成输出,这表示基线模型;

第二步:“模仿人类偏好” :要求标注人员对相对较多的SFT模型输出进行投票,创建一个由对比数据组成的新数据集。在该数据集上训练一个新的奖励模型(RM);

第三步:近端策略优化(PPO):对奖励模型进一步微调以改进SFT模型。这一步的结果就是所谓的策略模型。

步骤1只进行一次,而步骤2和步骤3可以连续迭代:在当前的最佳策略模型上收集更多的比较数据,训练出一个新的奖励模型,然后在此基础上再训练出一个新的策略。

带监督的微调(SFT)模型

首先是收集演示数据,以训练一个带监督的策略模型,称之为SFT模型。

数据收集:选择一份提示列表,要求一组人工标注人员写下预期的输出响应。ChatGPT使用了两种不同的提示来源:一些是直接从标注人员或开发人员那里获取到的的,一些是从OpenAI的API请求中取样的(即来自GPT-3客户)。整个过程速度缓慢并且代价昂贵,输出结果是一个相对较小的、高质量的管理数据集(大概大约有12-15k个数据点),将利用该数据集微调预先训练的语言模型。

模型选取:开发人员选择了在GPT-3.5系列中选择一个预训练模型,而不是对原来的GPT-3模型进行微调。可使用最新的基线模型——text-davinci-003,这也是一个GPT-3模型,对主要的编程代码进行微调。

由于这一步的数据量有限,在此过程之后获得的SFT模型很可能输出用户不太关注的文本,而且往往会出现错位的问题。这里的问题是,监督学习这一步存在很高的可扩展性成本。

为了克服上述问题,利用人工标记创建一个更大的数据集,这个速度缓慢而代价昂贵的过程,采用一个新的策略,为人工标记的SFT模型输出创建一个奖励模型——在下面的内容中进行更详细的解释。

奖励模型

在步骤1 中训练 SFT 模型后,该模型会对用户提示生成更一致的响应。接下来是训练奖励模型,其中模型输入是一系列提示和响应,输出是一个缩放值,称为奖励。需要奖励模型以利用强化学习,在强化学习中模型学习产生输出以最大化其奖励。

直接从数据中学习出一个目标函数(奖励模型)。这个函数的目的是给SFT模型的输出给出一个分值,这一分值与人类对输出的可取程度成比例。在实践中,这将反映出选定的标记人员群体的具体偏好和他们同意遵循的准则。最后,这一过程将从数据中提取出一个模仿人类偏好的自动回答系统。其工作原理如下:

  • 选择一个提示列表,SFT模型为每个提示生成多个SFT 模型输出(在4个到9个之间);

  • 标注人员将输出从好到坏进行排序,结果是生成一个新的标记数据集,其中的排名是标记。这个数据集的大小大约是SFT模型数据集的10倍;

  • 利用这些新数据训练一个奖励模型(RM)。该模型将某些SFT模型输出作为输入,并根据人类偏好对它们进行排序。

对于标注者来说,对输出进行排序比从头开始生成它们要容易得多,因此这个过程的缩放效率会更高。在实践中,从30-40k个提示符(prompts)中生成一个数据集,要求将这些输出从最好到最差进行排名,创建输出排名组合。在排名阶段,将不同标注的输出呈现给不同的提示符。

利用近端策略优化(PPO)算法微调SFT模型

接下来,利用强化学习微调SFT策略,让它优化奖励模型。模型会收到随机提示并返回响应。响应是使用模型在步骤2 中学习的“策略”生成的。策略表示机器已经学会使用以实现其目标的策略;在这种情况下,最大化其奖励。基于在步骤 2 中开发的奖励模型,然后为提示和响应对确定缩放器奖励值。然后奖励反馈到模型中以改进策略。所使用的算法为近端策略优化(PPO)算法,而微调后的模型称为PPO模型。

2017年,舒尔曼等人。引入了近端策略优化 (PPO),该方法用于在生成每个响应时更新模型的策略。PPO 包含来自 SFT 模型的每个代币 Kullback–Leibler (KL) 惩罚。KL 散度衡量两个分布函数的相似性并对极端距离进行惩罚。在这种情况下,使用 KL 惩罚会减少响应与步骤 1 中训练的 SFT 模型输出之间的距离,以避免过度优化奖励模型和与人类意图数据集的偏差太大。PPO算法的具体实现已经在前文4.4 节中进行了描述,这种方法的要点:

  • PPO是一种用于训练强化学习中智能体的算法,为策略算法,正如DQN(深度q网络)等算法一样,它直接从当前策略中学习和更新策略,而非从过去的经验中学习算法。PPO根据智能体所采取的行动和它所获得的奖励,不断地调整当前的政策;

  • PPO使用置信区间优化方法对策略进行训练,它将策略的变化限制在与先前策略的一定距离内,以确保稳定性。这与其他策略梯度方法相反,其他策略梯度方法有时会对策略进行大量更新,从而使学习不稳定;

  • PPO使用价值函数来估计给定状态或动作的预期回报。利用价值函数计算优势函数,它表示期望回报和当前回报之间的差值,使用优势函数通过比较当前策略所采取的动作与先前策略的本应采取的动作来更新策略,PPO能够根据动作的估计值对策略进行更明智的更新。

在该步骤中,由SFT模型初始化PPO模型,由奖励模型初始化价值函数。该环境是一个强盗环境(bandit environment),它显示一个随机的提示符,并期望对该提示符作出响应。给出提示和反响应之后,会生成奖励(由奖励模型决定)。在每个标注的SFT模型中添加各个标记的KL惩罚,以优化奖励模型。

结论

ChatGPT引入了强化学习近端策略优化(PPO)算法微调SFT模型,将人类反馈纳入模型训练过程中,从而大幅度提高了模型训练的准确度。文章来源地址https://www.toymoban.com/news/detail-787461.html

到了这里,关于| 一文读懂ChatGPT中的强化学习的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGPT 中的人类反馈强化学习 (RLHF) 实战

    团队博客: CSDN AI小组 相关阅读 ChatGPT 简介 大语言模型浅探一 关于 ChatGPT 必看的 10 篇论文 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型 在当今数字化的时代,ChatGPT 的火热程度不断升级。ChatGPT 可以处理复杂的语言任务,从而解放人力资源,提高工作效率,减少成本。ChatGPT

    2023年04月25日
    浏览(64)
  • 【AIGC】猴子拍照版权是谁的:一文读懂AIGC和版权问题

    目录 一、没有明确的定义 1.AI画作算作品吗? 2.AI 绘画的版权归谁? 二、关注平台的版权声明 三、猴子拍照 1、是否应当给予AI作品版权? 2、AI创作的版权赋予谁? 写文章,做图片,AI无所不能,虽然有时也冒点傻气,但是确实越来越像人类了。 而且画的图,除了有几分无

    2024年02月05日
    浏览(31)
  • 一文读懂:全网都在说的AIGC到底是什么?

    AIGC( AI Generated Content)是利用人工智能来生成你所需要的内容,GC的意思是创作内容。与之相对应的概念中,比较熟知的还有PGC,是专业人员用来创作内容;UGC是用户自己创造内容,顾名思义AIGC是利用人工智能来创造内容。 AIGC是一种全新的人工智能技术,完整名称为Artifi

    2024年02月11日
    浏览(36)
  • 如何快速水出人生中的第一篇SCI系列:深度学习目标检测算法常用评估指标——一文读懂!

    详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先! 截止到发稿,B站YOLOv8最新改进系列的源码包已更新了22种! 排列组合2-4种后,约有6000-7000种! 部分改进教程视频在这:详细的改进

    2024年02月07日
    浏览(34)
  • 一文读懂「AIGC,AI Generated Content」AI生成内容

    首先,让我们理解一下这两个概念。 AIGC ,或者称之为人工智能生成内容,是指使用AI算法和模型来自动生成全新的、原创的内容。这种内容可以包括文本、图像、音频、视频等各种形式,甚至可以包括一些独特的形式,比如新颖的创意和设计。AIGC的应用领域非常广泛,包括

    2024年01月20日
    浏览(39)
  • 通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

    目录 前言 1.通用人工智能 1.1 生物学分析 1.2具身智能 1.2.1当前的人工智能的局限 1.2.2 具身智能实现的基础 1.2.3 强化学习(决策大模型) 2.结论 往期文章 参考文献       目前的人工智能实质上只是强人工智能,或者说单个领域的通用人工智能。比方说Chatgpt它属于自然语言

    2024年02月07日
    浏览(60)
  • 一文读懂ChatGPT

    ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完

    2024年02月06日
    浏览(37)
  • 一文读懂ChatGPT(全文由ChatGPT撰写)

    最近ChatGPT爆火,相信大家或多或少都听说过ChatGPT。到底ChatGPT是什么?有什么优缺点呢? 今天就由ChatGPT自己来给大家答疑解惑~  全文文案来自ChatGPT!   01 ChatGPT是什么 ChatGPT是一种基于人工智能技术的自然语言处理系统,它由OpenAI开发。GPT是Generative Pre-trained Transformer的缩写

    2024年02月08日
    浏览(25)
  • 读懂ChatGPT、AIGC和元宇宙

    参考来源: 斯克称ChatGPT将颠覆世界; 微软为ChatGPT投资数百亿美元, 并计划将其整合到Offce办公软件和Bing搜索引擎之中; 在一些高校和学术机构中,兴起了关于用ChatGPT写论文是否合规的大讨论; 甚至, 一些咨询公司也开始担心自己的饭碗会被抢走…… 2023年,应用ChatGPT的

    2024年02月01日
    浏览(25)
  • 一文读懂Springboot如何使用ChatGPT

    封装了丰富的OpenAI 接口可直接使用 申请外国虚拟信用卡【Depay】 充值USTD虚拟货币【欧易】 USTD充值到Depay Depay 的USTD 转 USD虚拟货币 将USD货币存入虚拟信用卡 通过虚拟信用卡充值到ChatGPT 优先ChatGPT试用用户 畅享丝滑的响应速度 优先体验新功能 原文 非常感谢你从头到尾阅读

    2024年02月02日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包