GPT3.5, InstructGPT和ChatGPT的关系

这篇具有很好参考价值的文章主要介绍了GPT3.5, InstructGPT和ChatGPT的关系。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

GPT-3.5

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

  • code-davinci-002 是一个基础模型,非常适合纯代码完成任务
  • text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型
  • text-davinci-003 是对 text-davinci-002 的改进
  • gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化

InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型 模型名字
SFT
监督微调人类示范 davinci-instruct-beta1
davinci-instruct-beta1
FeedME
对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7
text-davinci-001text-davinci-002text-curie-001text-babbage-001
PPO
使用人类比较训练的奖励模型进行强化学习
text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPT

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

GPT3.5, InstructGPT和ChatGPT的关系

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文 发表时间 在论文中的模型名字 在API中模型的名字 参数数量
[2005.14165] Language Models are Few-Shot Learners 22 Jul 2020 GPT-3 175B davinci 175B
GPT-3 6.7B curie 6.7B
GPT-3 1B babbage 1B
[2107.03374] Evaluating Large Language Models Trained on Code 14 Jul 2021 Codex 12B code-cushman-0013 12B
[2201.10005] Text and Code Embeddings by Contrastive Pre-Training 14 Jan 2022 GPT-3 unsupervised cpt-text 175B text-similarity-davinci-001 175B
GPT-3 unsupervised cpt-text 6B text-similarity-curie-001 6B
GPT-3 unsupervised cpt-text 1.2B No close matching model on API 1.2B
[2009.01325] Learning to summarize from human feedback 15 Feb 2022 GPT-3 6.7B pretrain No close matching model on API 6.7B
GPT-3 2.7B pretrain No close matching model on API 2.7B
GPT-3 1.3B pretrain No close matching model on API 1.3B
[2203.02155] Training language models to follow instructions with human feedback 4 Mar 2022 InstructGPT-3 175B SFT davinci-instruct-beta 175B
InstructGPT-3 175B No close matching model on API 175B
InstructGPT-3 6B No close matching model on API 6B
InstructGPT-3 1.3B No close matching model on API 1.3B

其它

强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

GPT3.5, InstructGPT和ChatGPT的关系

InstructGPT

GPT3.5, InstructGPT和ChatGPT的关系文章来源地址https://www.toymoban.com/news/detail-427475.html

到了这里,关于GPT3.5, InstructGPT和ChatGPT的关系的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【科普文章】ChatGPT3.5:什么是GPT3.5,它与GPT4的区别

    最近看了些相关文章,稍微总结一下 当今,自然语言处理技术已经成为了人工智能领域的重要分支之一。在这方面,聊天机器人是非常重要的应用之一。聊天机器人可以被广泛应用于智能客服、智能家居、社交媒体、智能助理等领域。而ChatGPT3.5则是自然语言处理领域当下较

    2024年02月11日
    浏览(59)
  • PHP实现chatGPT流式输出代码,OpenAI对接,支持GPT3.5/GPT4

     源码下载地址:https://gitee.com/haoyachengge/chatgpt-speed.git 本文是sse实现方式,非常的简单。当然也可以用websocket方式实现,我也会继续更新

    2024年02月14日
    浏览(42)
  • 【ChatGPT】GPT-3.5+ChatGPT:图解概述

      总结 常见问题 –ChatGPT的受欢迎程度 –ChatGPT的成本 –ChatGPT的成就 –在本地运行ChatGPT –API 时间线 GPT-3概述(2020年5月) GPT-3.5或InstructGPT概述(2022年1月) ChatGPT概述(2022年11月) ChatGPT的推荐替代方案 OpenAI ChatGPT与DeepMind Sparrow的比较 ChatGPT的成功 OpenAI(由埃隆·马斯克创

    2024年02月08日
    浏览(51)
  • GPT3.5、GPT4及Midjourney中转接口ChatGPT系统KEY使用方法

    很多使用ChatGPT系统、还有SparkAi、NineAi等系统都存在个比较烦的问题,Openai API 3.5KEY 4.0KEY,Midjourney接口KEY都没有一个稳定的购买或者使用渠道。直连KEY买来还得得建立反代主机,Midjourney接口通过MJ-PROXY-PLUS系统折腾了几天也能使用了,最终还得在官方开卡充值比较麻烦,折腾

    2024年04月25日
    浏览(37)
  • OpenAI ChatGpt Gpt-3.5-turbo

    返回结果 首先安装 OpenAI、GPT Index 和 Gradio 库 复制以下代码,取名chatgptsample.py

    2024年02月03日
    浏览(76)
  • GPT-3.5(ChatGPT)训练和部署成本估算

    因为ChatGPT(GPT-3.5)未正式公布参数量,暂时按照1750亿参数计算。 后续其他模型公布参数量后,可按参数量线性比例估算相关数值。 以下数值仅为理论估算,可能和实际数值相差很大,敬请谅解。 一、GPT-3.5磁盘占用估算 不同模型之间,磁盘、参数量可以按线性关系粗略估

    2023年04月20日
    浏览(45)
  • 【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)

    ChatGPT真的“无敌”了吗???? 我们邀请ChatGPT参加一项关于算法和数据结构的本科计算机科学考试。我们把它的答案手抄到一张考卷上,然后在盲测的情况下,随机选200名参与的学生。我们发现ChatGPT以20.5(满分40分)的成绩勉强通过了考试。这一令人印象深刻的表现表明,

    2023年04月11日
    浏览(52)
  • 校验ChatGPT 4真实性的三个经典问题:提供免费测试网站快速区分 GPT3.5 与 GPT4

    现在已经有很多 ChatGPT 的套壳网站,以下分享验明 GPT-4 真身的三个经典问题,帮助你快速区分套壳网站背后到底用的是 GPT-3.5 还是 GPT-4。 大家可以在这个网站测试:https://ai.hxkj.vip,免登录可以问三条,登录之后无限制。咱们使用免登录的额度测试就已经够用了 GPT-3.5 回复:

    2024年01月22日
    浏览(63)
  • AI很渴:chatGPT交流一次=喝掉一瓶水,GPT3训练=填满核反应堆

    流行的大型语言模型(LLM),如OpenAI的ChatGPT和Google的Bard,耗能巨大,需要庞大的服务器农场提供足够的数据来训练这些强大的程序。对这些数据中心进行冷却也使得AI聊天机器人对水的需求量极大。新的研究表明,仅GPT-3的训练就消耗了18.5万加仑(70万升)的水。根据一项新

    2024年02月12日
    浏览(45)
  • ChatGPT:基于GPT-3.5架构的强大语言模型

    这段时间,周围朋友们讨论最多的除了春招的激烈之外,就是ChatGPT了,大家被ChatGPT的智能和超强的学习能力所震惊,甚至担心未来会被人工智能所取代。 这样的担心不无道理,我们程序员作为技术人员,需要对新技术保持敏锐的嗅觉,以免被时代抛弃。但就我最近对ChatGP

    2024年02月07日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包