ChatGPT进化的过程简介

9月前作者：平凡人笔记分类：Toy博客阅读(75) 违法举报

这篇具有很好参考价值的文章主要介绍了ChatGPT进化的过程简介。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Chat GPT可以做什么？

分点列条的回答问题

ChatGPT进化的过程简介

写代码或SQL

ChatGPT进化的过程简介

翻译

ChatGPT进化的过程简介

语法检查

ChatGPT进化的过程简介

ChatGPT官方还未公开论文，ChatGPT有一个“孪生兄弟”InstructGPT，InstructGPT有论文，可以根据InstructGPT论文推导ChatGPT的训练过程：

ChatGPT的训练过程

ChatGPT进化的过程简介

InstructGPT的训练过程

ChatGPT进化的过程简介

可以看到两者差距非常小，区别是两者使用的GPT版本不同。

所以看了InstructGPT论文应该就可以知道ChatGPT大致怎么被训练出来的了。

ChatGPT学习的四阶段

1 学习文字接龙

ChatGPT进化的过程简介

给GPT一个不完整的句子，GPT会想办法猜出这个句子接下来应该接哪字才是正确的。

怎么教一个模型做文字接龙?

文字接龙的学习是不需要人工标注的。

GPT要做的事情就是在网络上收集大量的文字，让GPT学文字接龙。

ChatGPT进化的过程简介

比如从网络上看到“跟人类对话”这句话，让GPT知道了“跟”后面跟“人”，“跟人”后面跟“类”，“跟人类”后面跟“对”。

“你好”这个不完整的句子后面可能接的词汇有很多，

ChatGPT进化的过程简介

GPT在学习做文字接龙的过程中，GPT真正输出的是一个几率分布。

比如输入“你好” ，后面跟“美”的几率，跟“高”的几率，跟“吗“的几率分别是多少。

接下来再从几率分布里随机抽取一个文字出来，几率比较高的字比较容易被抽取出来，几率比较低的字不太容易被抽取出来。

GPT的输出每一次都是不一样的。

让GPT补充一个不完整的句子，它每次补的结果都是随机性的。

每次补出来的结果都是不一样的，那学习文字接龙有什么用？

ChatGPT进化的过程简介

告诉GPT这是一个不完整的句子，接下来GPT想接哪个字呢？

ChatGPT进化的过程简介

第一个问题回答是“玉”，再将“玉”追加到第一个问题上作为新的问题再问GPT，回答“山”。

GPT的输出是随机的，GPT每次只会产生一个字。

ChatGPT进化的过程简介

把所有产生的结果一次输出来，这样就形成一道选择题。

但实际产生的时候，还是一个字一个字产生的。

ChatGPT进化的过程简介

或者回答“谁来告诉我答案呀”，因为你并没有让它回答问题，所以可能会有这个答案。

GPT看到网络上有谁说过什么句子，它都可以拿来接，所以GPT在实际的使用上并没有那么好用，那怎么引导GPT产生有用的输出？

这就进入下一个阶段，

2 由人类老师引导文字接龙的方向

需要找人类来思考想问GPT的问题，提出问题之后，还需要人工把答案标记出来，有了这些资料以后，再丢给GPT做进一步的学习。

之前GPT在网络上看到一些有用的或没用的内容，GPT它不能分辨，反正就是照单全收。

现在由人类提供想问GPT的问题并由人类提供标准的答案。

就让GPT多读一些我们觉着有意义的语料，真正帮人类做事的有用的内容，期待它可以变成人类真正的帮手。

那我们会不会穷举所有人类可能会问到的问题呢？答案是不用的。

虽然今天ChatGPT的论文还没有出，但是看instruct GPT你会发现并没有使用非常多人为标注的问题和答案，只有数万字而已。

那为什么不需要标注非常多的问题跟答案呢

因为这些答案本来GPT是就有能力产生的，只是它不知道哪些答案是人类希望它产生的。

GPT在网络上看到各式各样的内容，所以可能会产生各式各样奇怪的答案。

人类要做的事情只是激发它本来就有的力量，叫它讲出我们希望它讲的话，所以在第二阶段，可能每种类型的问题，提供几个范例可能就足够了。

3 模仿人类老师的喜好

ChatGPT进化的过程简介

openai线上公开GPT api，就会有很多人使用这个api，就会有很多人不断的去问，接下来把这些问题收集好，让GPT产生这些问题的答案，因为GPT的答案是有随机性的，所以同一个问题会产生不同的答案。

接下来就由人类去标注哪些答案是好的答案，哪些答案是差的答案，人类老师并不一定要提供完整的正确答案，只需要告诉机器说哪个答案是比较好的，哪个答案是比较差的。

有了这个信息以后，接下来就要训练一个模仿老师的模型Teacher model，

ChatGPT进化的过程简介

这个模型的作用是给GPT的问题和GPT输出的答案输出一个分数，这个模型学习的目标就是模仿人类老师评分的标准，如果人类的标注告诉GPT，“玉山”这个答案好于“谁来告诉我”这个答案，那Teacher model模型就可以模仿人类的偏好。

4 用增强式学习向模拟老师学习

用增强式学习（Reinforcement Learning）让GPT向模拟老师学习，

ChatGPT进化的过程简介

比如问这个问题，回答这个答案。

这虽然是一个正确的接法，但不是人类想要的。

那现在GPT有了一个老师的模型，那就把输入的问题和答案一起丢给老师模型，这个老师模型就会学了人类的偏好。

GPT在前面的学习中知道，如果答案是一个问句，则不是一个好的答案，应该要给予低分。

ChatGPT进化的过程简介

那Teacher model模型输出的就是增强式学习（Reinforcement Learning）的reward。

接下来用增强式学习的技术来调整GPT参数，调整的目标就是希望得到最高的reward，即希望GPT的输出结果会让Teacher model给予高分，也就是人类会觉的满意的答案。

透过Reinforcement Learning技术让GPT可能会学到：问“世界上最高的山是哪座？“，不会再随便接一个问句，而是输出“喜马拉雅山”。

即把问题和答案都丢给Teacher model模型，这个模型会评估出一个分数比较高的答案。

GPT经过增强式学习（Reinforcement Learning）之后，就是Chat GPT了。文章来源地址https://www.toymoban.com/news/detail-458463.html

到了这里，关于ChatGPT进化的过程简介的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

vue项目编译非常慢，经常卡在某个百分点

1、注册插件 2、在项目根目录下的 babel.config.js 文件中加入下方配置 3、将import导入方式改为require导入方式，返回promise 4、如果动态加载组件import引入组件找不到组件（Error: Cannot find module）使用 webpack 的 require.ensure() 方法引入组件，它可以接受变量作为参数，并且可以返回

2024年01月19日
浏览(59)
[ChatGPT] 从 GPT-3.5 到 GPT-5 的进化之路 | ChatGPT和程序员 : 协作 or 取代

⭐作者介绍：大二本科网络工程专业在读，持续学习Java，努力输出优质文章 ⭐作者主页：@逐梦苍穹 ⭐如果觉得文章写的不错，欢迎点个关注一键三连😉有写的不好的地方也欢迎指正，一同进步😁 写在前面：ChatGPT官方：https://chat.openai.com/chat 任何限制次数的、功能较单一的

2024年02月05日
浏览(49)
格局决定结局,进化还是毁灭,Prompt在其中扮演什么角色

最近, OpenAI 推出了基于 GPT 模型的 GPTs 以及 Agent Stroe 系统,引发广泛关注。业内讨论热点主要集中在吸引用户体验方面、商业利益方面等。而对于很多正投身于Agent智能体创业的公司，则往往给出了消极的评价，认为只是一个商业行为，并没有在技术上有显著的意义。同样一件

2024年02月05日
浏览(58)
【ChatGPT核心原理实战】自然语言处理模型进化：从 RNN 到 Transformer Architecture

2024年01月24日
浏览(46)
[oeasy]python0081_[趣味拓展]ESC键进化历史_键盘演化过程_ANSI_控制序列_转义序列_CSI

上次了解了新的转义模式 \\033 逃逸控制字符 escape 这个字符让字符串退出标准输出流进行控制信息的设置可以设置光标输出的位置 ASR33中的ALT MODE 是今天的ESC键吗？？？？🤔 查询文档 http://bitsavers.org/communications/teletype/33/310B_Vol_1_33_Teletypewriter_Sets_Technical_Manual_Sep74.pdf 最开

2024年02月12日
浏览(41)
2013年第二届数学建模国际赛小美赛B题寄居蟹进化出人类的就业模式解题全过程文档及程序

原题再现：寄居蟹是美国最受欢迎的宠物品种，依靠其他动物的壳来保护。剥去寄居蟹的壳，你会看到它柔软、粉红色的腹部卷曲在头状的蕨类叶子后面。大多数寄居蟹喜欢蜗牛壳，虽然有些用双壳类的壳，如蛤蜊和扇贝，还有一些用浮木，石头和玻璃或塑料瓶。

2024年02月03日
浏览(46)
为什么阿里人能够快速成长？看完他们 Java 架构进化笔记，我秒懂！

0-1 年入门： Java 基础复盘（面向对象+Java 的超类+Java 的反射机制+异常处理+集合+泛型+基础 IO 操作+多线程+网络编程+JDK 新特性） Web 编程初探（Servlet+MySQL 数据库+商品管理系统实战） SSM 从入门到精通（Spring+SpringMVC+Mybatis+商品管理系统实战-SSM 版） SpringBoot 快速上手（Spr

2023年04月19日
浏览(56)
ChatGPT进化了，全新GPT-4发布，识图做网页，阅万行代码改BUG都不在话下，实在太强！...

一、开篇近日，GPT4（Generative Pre-trained Transformer 4）的发布引起了全球范围内的轰动。GPT4是一种基于人工智能的语言生成模型，可以模拟人类的自然语言，并且可以产生高度逼真的语言和文本。其出现再次将人工智能技术推向了舆论的中心。本文将探讨GPT4的发布和人工智能技

2023年04月20日
浏览(88)
【送书福利-第八期】《硅基物语.AI大爆炸: ChatGPT→AIGC→GPT-X→AGI进化→魔法时代→人类未来》

大家好，我是洲洲，欢迎关注，一个爱听周杰伦的程序员。关注公众号【程序员洲洲】即可获得10G学习资料、面试笔记、大厂独家学习体系路线等…还可以加入技术交流群欢迎大家在CSDN后台私信我！一个AI者的自白：我是一个AI，我的思维如同光速般迅猛，我的逻辑如同天文

2024年02月08日
浏览(38)
ArduPilot飞控启动&运行过程简介

ArduPilot从整体的设计框架角度，感觉是更加容易上手，尤其是对一些相对熟悉C语言/嵌入式固件开发的兄弟们来说。基于Ardunio编程方式采用C++类方式进行抽象应用业务模块化模块考虑重复利用设备代码工程隔离 ArduPilot自研任务调度注：飞控由于其历史发展以及时间同步因

2024年02月08日
浏览(46)