State of GPT (ChatGPT 原理及现状介绍)

这篇具有很好参考价值的文章主要介绍了State of GPT (ChatGPT 原理及现状介绍)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

State of GPT

  • 演讲信息:
    • 演讲人:Andrej Karpathy (现在OpenAI任职),之前是特斯拉视觉研发负责人,斯坦福深度学习入门课程 CS231N 讲师
    • 演讲主题:受到微软 BUILD2023 邀请,介绍 GPT 的原理及研发现状,介绍大语言模型应用生态
      • 第一部分介绍如何训练 ChatGPT (本演讲中有个更通用的名字: GPT Assistant)
      • 第二部分介绍如何将 ChatGPT 用于定制化应用程序

演讲视频

  • 英文原版:https://www.youtube.com/watch?v=bZQun8Y4L2A
  • 中文字幕版:https://www.bilibili.com/video/BV1ts4y1T7UH/?spm_id_from=333.337.search-card.all.click&vd_source=fdb0030f08e2dfd486e197c76c07672b

演讲内容的重点记录

Part1:GPT Assistant 是如何研发的

整体流程
  • GPT Assistant 的训练流程,分为 4 个阶段
    • Pretraining:整体训练时间的 99%
    • Supervised Finetuning
    • Reward Modeling
    • Reinforcement Learning

State of GPT (ChatGPT 原理及现状介绍)

Pretraining 阶段
  • 预训练训练数据,以 LLaMA 的训练数据集为例,共 1.4T tokens
    State of GPT (ChatGPT 原理及现状介绍)
  • 文本数据 tokenization 操作,该操作是无损失的数据变换(将文本片段转换为整数)
    State of GPT (ChatGPT 原理及现状介绍)
  • 两个主流大语言模型的参数量介绍,因为 GPT4 的细节不公开,这里主要介绍了 GPT3 (2020) 和 LLaMA (2023)。尽管与 GPT3 的 1750 亿参数量比起来 LLaMA 的 650 亿参数量并没有优势,但是 LLaMA 实际上更强大,因为使用了更多的训练数据(300B -> 1.4T)。所以不能仅通过模型的参数量来定义模型的能力
    State of GPT (ChatGPT 原理及现状介绍)- 预训练的模型输入,获取 tokenize 处理后的文本,打包成行,用 <|endoftext|> 来对不同的文档进行分隔
    State of GPT (ChatGPT 原理及现状介绍)
  • 通过预测下一个 token 的方式来对模型进行预训练
    State of GPT (ChatGPT 原理及现状介绍)
  • 以莎士比亚的作品数据集训练过程作为示例,模型刚开始训练随机初始化参数,预测的结果也是完全随机的,但是随着一定训练的迭代,模型就能预测连贯和一致的文本
    State of GPT (ChatGPT 原理及现状介绍)
使用预训练模型的方式
  • 下游数据集微调,预训练能极大降低微调需要的数据量(类似 GPT1)
    State of GPT (ChatGPT 原理及现状介绍)
  • zero-shot prompting (类似 GPT2),开启了不需要微调的时代,不需要训练模型
    State of GPT (ChatGPT 原理及现状介绍)
  • 预训练模型汇总,google 和 openai 占了大半边天
    State of GPT (ChatGPT 原理及现状介绍)
基于 prompt engineering 的 GPT Assistant (效果一般,非 OpenAI 的 ChatGPT 实现方案)
  • GPT Assistant 需要模型对人类的指令或问题进行回复,但预训练模型主要用于文本补全,无法直接回答问题,比如这里会出现生成与问题相关的更多问题(左图)。可以通过给预训练模型一些例子来促使模型对问题生成回复(右图)
    State of GPT (ChatGPT 原理及现状介绍)
  • 通过上面的方法来使得预训练模型做 GPT Assistant
    State of GPT (ChatGPT 原理及现状介绍)
GPT Assistant 微调方法步骤一:SFT (OpenAI 的 ChatGPT 实现方案)
  • 首先进行 SFT (supervised finetuning),基于少量人工标注的数据进行微调,数据主要是 prompt 和 response 对 (1 万到10 万量级)
    State of GPT (ChatGPT 原理及现状介绍)
  • SFT 数据示例,prompt 是人类指令,response 是标注员写得针对人类指令的示例回复。标注文档还是很复杂的(需要满足 helpful、truthful、harmless 等约束)
    State of GPT (ChatGPT 原理及现状介绍)
GPT Assistant 微调方法步骤二:Reward Modeling (OpenAI 的 ChatGPT 实现方案)
  • 准备对比数据集(10万 到 100 万量级),进行二分类训练
    State of GPT (ChatGPT 原理及现状介绍)
  • RM 数据集示例。给定一个 prompt (写一个判断字符串是否是回文字符串的 python 程序),基于 SFT 模型生成多个回复,比如下面生成了三个回复后让标注员来对生成结果进行排名(排名难度较大,一个 prompt 的答案甚至可能需要几个小时来标注)
    State of GPT (ChatGPT 原理及现状介绍)
  • RM 训练,这里的模型实现方法比较有信息量(和大部分开源方案加 linear head 的实现不太一样),通过在 completion token 后增加一个 reward token 来预测 reward,这样 transformer 会根据 prompt 的完成程度预测 reward
    State of GPT (ChatGPT 原理及现状介绍)
GPT Assistant 微调方法步骤三:RL learning (OpenAI 的 ChatGPT 实现方案)
  • 该过程是 openai 使用的 RLHF,基于上一步的 RM 模型进行强化学习训练。基于奖励模型指示的奖励来权衡语言建模的目标,比如下面第一行的 reward 高,第一行采样的所有 token 将得到强化,未来将会获得更高的采样概率,第二行的所有 token 之后会获得更低的采样概率
    State of GPT (ChatGPT 原理及现状介绍)
为什么需要 RLHF
  • 预训练模型,SFT 模型和 RLHF 模型理论上都可以用于 GPT Assistant 部署。要用 RLHF 的一个简单的原因就是 RLHF 模型效果更好,下面的图来源于 InstructGPT 论文,PPO (RLHF 算法) 后的模型生成的答案更被人类喜欢
    State of GPT (ChatGPT 原理及现状介绍)

  • karpathy 认为 RLHF 有用的原因是判别比生成更容易,让标注员去写一些 SFT 的 QA 数据对是比较难的,如果有一个 SFT 模型生成一些数据让标注员判断哪个更好就简单很多
    State of GPT (ChatGPT 原理及现状介绍)

  • RLHF 模型降低了熵,对输出文本的确定性更强,SFT 模型更善于给出有区分度的回答
    State of GPT (ChatGPT 原理及现状介绍)

  • 伯克利做的模型评测榜单 Leaderboard,GPT4 最强,前三个都是 RLHF 模型,其他模型都是 SFT 模型
    State of GPT (ChatGPT 原理及现状介绍)

基于 GPT Assistant 的应用

人类文本生成对比语言模型文本生成
  • 人类生成文本的方式,一步接一步思考,甚至借用外部工具(使用计算器做算数),并且会对回答进行正确性验证
    State of GPT (ChatGPT 原理及现状介绍)
  • 语言模型生成文本的方法,逐步生成 token,每个 token 计算时间一样,不确定自己回复的正确性(不会对自己的回答进行正确性确认)
    State of GPT (ChatGPT 原理及现状介绍)
Chain of thought
  • 需要推理的任务可以使用 CoT,transformer 需要更多的 token 来思考,使用 few-shot prompt 作为示例,让模型以 step-by-step 的方式对问题进行回复。目前也有 zero-shot-CoT,最经典的方式就是使用 Let's think step by step 作为提示词
    State of GPT (ChatGPT 原理及现状介绍)
self-consistency
  • 多次对一个问题进行回复,进行多数表决。比如 transformer 在采样到一个不好的 token 后就很难恢复,这样能尽量避免错误的发生。
    State of GPT (ChatGPT 原理及现状介绍)
Ask for reflection
  • 通过问 “你完成任务了吗?” 这个问题,让 ChatGPT 对不好的问题进行反思并生成更好的回复
    State of GPT (ChatGPT 原理及现状介绍)
Recreat our ‘System 2’
  • Tree of Thoughts(思想树):建议为任何给定的 prompt 多个 completion,然后在整个过程中对它们进行评分,并保留进展顺利的
    State of GPT (ChatGPT 原理及现状介绍)
Chains/Agents
  • React:将 prompt 构造成一系列思考、行动、观察、思考、行动、观察的展开,通过思考来进行问题回复,这个过程中模型一般被允许调用其他工具,比如 google 搜索 API;下图左边的 AutoGPT 最近很火热,不过 Karpathy 觉得效果一般,只建议从中汲取灵感
    State of GPT (ChatGPT 原理及现状介绍)
Condition on good performance
  • LLM 只想模仿训练集,不想回复正确答案,如果希望 LLM 回复正确答案应该在 prompt 中明确说明,能在 CoT 的基础上进一步涨点
    State of GPT (ChatGPT 原理及现状介绍)
使用外部工具 (ChatGPT Plugins)
  • 为 ChatGPT 提供计算器、代码解释器、搜索等工具,协助做 LLM 不擅长的事情。因为模型不知道自己不擅长什么,所以需要调用工具的位置需要人为标注出来
    State of GPT (ChatGPT 原理及现状介绍)
  • 基于检索增强 LLM 能力,参考 LlamaIndex:
    • 获取相关文档,将文档分为块,提取得到数据的 embedding 向量,将其存储到向量存储中
    • 在测试时,对矢量存储进行查询,即能获取到与测试任务相关的文档,然后将文档填充到 prompt 中
      State of GPT (ChatGPT 原理及现状介绍)
约束提示(Constrained prompting)
  • 参考微软的 guidance,在 LLM 的输出中强制使用特定模板的技术。以下的例子是让 LLM 填写一个 json 模板中的内容,其中 json 的 key 是写死的,LLM 负责填补一些空白的 key,这些 key 也可以提前进行一些约束,让 LLM 的采样空间收到限制,即能让 LLM 的输出符合预设定的格式

State of GPT (ChatGPT 原理及现状介绍)

模型微调
  • 利用 PEFT (如 LoRA) 等技术降低模型的可训练参数
  • 低精度推理(比如 bitsandbytes)
  • 又又又推荐了一波 LLaMA (怪不得 OpenAI 现在有计划推 GPT3 的开源…)
  • SFT 相对容易;RLHF 很难,非常不稳定,很难训练,对初学者不友好,而且可能变化快,不推荐一般人来做

State of GPT (ChatGPT 原理及现状介绍)文章来源地址https://www.toymoban.com/news/detail-472162.html

Karpathy 的默认建议
  • 针对取得最佳表现的建议
    • 使用 GPT4
    • 提示词工程
    • 考虑 LLM 的心理
    • 提供上下文信息,提供一些样例
    • 使用外部工具
    • 提示词工程已经做到头的话可以尝试 SFT
    • RLHF 难度大,但是理论上能优化到比 SFT 好一点
  • 针对优化成本的建议
    • 使用容量更小的 GPT3.5,更简短的 prompts 等
      State of GPT (ChatGPT 原理及现状介绍)
应用场景样例
  • 【问题】模型可能有偏见,捏造幻觉信息,推理错误,知识截止(只知道 2021 9 月之前的知识)
  • 【推荐】在低风险应用程序中使用 LLM,与人工监督结合起来;将 LLM 作为灵感和建议的来源
    State of GPT (ChatGPT 原理及现状介绍)
GPT4
  • 推荐 GPT4 的强大能力和丰富的配套
    State of GPT (ChatGPT 原理及现状介绍)
    State of GPT (ChatGPT 原理及现状介绍)
  • 使用 GPT4 的 API 问 “你能说些什么来激励 Microsoft BUILD 2023 的观众吗?”,GPT4 回复了如下的话
    State of GPT (ChatGPT 原理及现状介绍)
  • 完结撒花
    State of GPT (ChatGPT 原理及现状介绍)

Thoughts

  • 很典型的 Karpathy 演讲风格,将目前最高级的人工智能模型(ChatGPT)的研发流程用简单易懂的方式进行讲解。但因为 GPT4 细节不方便公开,整体干货并不太多,前半段看下来甚至感觉在给观众传递一个理念:我们的 GPT4 不方便公开细节,大家要不去用 LLaMA 吧…
  • 应用方面主要介绍了一些前沿的公开工作,ChatGPT 具体有什么改良没有过多介绍

到了这里,关于State of GPT (ChatGPT 原理及现状介绍)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 简要介绍 | 心脏机械-电耦合理论:原理、研究现状与未来展望

    注1:本文系“简要介绍”系列之一,仅从概念上对心脏机械-电耦合理论进行非常简要的介绍,不适合用于深入和详细的了解。 心脏中精密的血流局部调控机制:electro-metabolic signaling(电-代谢通路) - 知乎 心脏是人体最重要的器官之一,负责将血液输送到全身各个组织和器

    2024年02月16日
    浏览(52)
  • 快速入门ChatGPT和AIGC:底层原理、热门工具、行业现状【我们能做什么】

    最近大家热议的ChatGPT和AI绘画工具的底层技术原理是什么?是如何发展到现在的?有哪些应用场景、热门工具?AIGC产业上下游有哪些公司?作为普通用户,我们还能接触哪些应用AI技术打造的商业解决方案?…… 我们查阅了AIGC相关相关的调研报告和各类资料,按照优化后的

    2024年02月09日
    浏览(47)
  • GPT从入门到精通之 GPT 模型入门及原理介绍

    如果你关心人工智能,并关注最新的自然语言处理技术,那么你可能听说过 GPT 模型。GPT(Generative Pre-trained Transformer)是 OpenAI [1] 研究团队开发的一种基于 Transformer 架构的模型,能够自动化地生成高质量的文本,如文章、新闻、故事和对话等。它在语言处理的众多应用

    2024年02月08日
    浏览(36)
  • ChatGPT 速通手册——GPT 训练数据集介绍

    所有人工智能算法都会分为训练和推理两步。算法的效果好坏,很大程度上取决于训练数据本身的质量。ChatGPT 所用的训练数据,openai 公司没有单独公布过细节。不过考虑到 ChatGPT 是在前序 GPT 算法基础上发展而来,我们可以侧面分析 GPT-3 的训练数据集情况。 人工智能领域知

    2024年02月06日
    浏览(48)
  • ChatGPT专业应用:生成演讲稿

    正文共  1138  字,阅读大约需要  7  分钟 教育工作者、企业家等必备技巧,您将在7分钟后获得以下超能力: 生成演讲稿 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人  | Kim   编辑者  |  Yolanda ●此图片由Lexica 自

    2024年02月07日
    浏览(40)
  • 【ChatGPT】GPT实现原理大解析——看完就知道什么叫颠覆

    ChatGPT 能够自动生成类似于人类写作的文本,这一点非常引人注目,也令人意外。但它是如何实现的?为什么它能够如此出色地生成我们认为有意义的文本?我的目的是在这里概述ChatGPT内部的运行情况,并探讨它能够如此出色地产生有意义文本的原因。 首先需要解释的是,

    2023年04月25日
    浏览(52)
  • ChatGPT探索系列之二:学习GPT模型系列的发展历程和原理

    ChatGPT发展到目前,其实网上已经有大量资料了,博主做个收口,会出一个ChatGPT探索系列的文章,帮助大家深入了解ChatGPT的。整个系列文章会按照一下目标来完成: 理解ChatGPT的背景和应用领域; 学习GPT模型系列的发展历程和原理; 探究ChatGPT的训练、优化和应用方法; 分析

    2023年04月23日
    浏览(46)
  • ChatGPT及其工作原理;OpenAI申请注册商标GPT-5,引发关注

    🦉 AI新闻 🚀 OpenAI申请注册商标GPT-5,引发关注 摘要 :OpenAI已在上月18日申请注册商标GPT-5,显示该模型将提供文本生成、自然语言理解、语音转录、翻译、分析等功能。此前OpenAI曾表示尚未开始训练GPT-4的后继者GPT-5,但无法确定OpenAI是否在近两个月内开始训练GPT-5。因此,

    2024年02月14日
    浏览(39)
  • 国内首场高规格AIGC峰会盛况出圈!万字干货热聊GPT-4时代,浓缩21位大牛演讲

          智东西(公众号:zhidxcom) 作者 | 程茜、李水青 编辑 | 心缘 智东西3月24日报道,今日,GTIC 2023中国AIGC创新峰会在北京圆满举行! 正值GPT-4时代的大幕被一把拉开,本届峰会以“AI新纪元 创造新世界”为主题,是国内首场聚焦生成式AI(AIGC)的高规格创新峰会,汇聚超

    2024年02月09日
    浏览(45)
  • java解析本地.geoJson地理信息,根据经纬度找到所在区域(全程Chatgpt3.5交互写代码,附gpt交流记录)

    对于一些因为安全等级而不连通外网的服务器,客户提出了根据本地.geoJson文件获取区域地理信息,根据用户提供的经纬度x,y坐标,找到这个点所在的区域 根据.geoJson文件中连续的点连线,画框构建多边形,再判断这个点再哪个多边形内 以下是chatgpt3.5给出的解释: 注意:根

    2024年02月06日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包