ChatGPT原理剖析

10月前作者：阿牛大牛中分类：Toy博客阅读(36) 违法举报

这篇具有很好参考价值的文章主要介绍了ChatGPT原理剖析。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

ChatGPT常见误解

1. 罐头回应

由开发者准备好的罐头回应：

ChatGPT原理剖析

下面是一个问答，让ChatGPT讲一个关于人工智慧的笑话，但可以看出来，这个笑话的笑点显然和我们平常人不太一样，显得笑点非常奇怪：

ChatGPT原理剖析

2. 网络搜寻重组

你搜寻之后，ChatGPT从网上搜寻答案，整理重组给你想要的答案：

ChatGPT原理剖析

但实际上，多数ChatGPT的答案在网络上都找不到一模一样的句子，甚至很多是幻想出来的。

比方说这个例子：

ChatGPT原理剖析

这些网站看上去有模有样，但其实都是虚构的，不是真实存在的。

官方也给出了回应，说ChatGPT是没有连网的：

ChatGPT原理剖析

ChatGPT真正做的事——文字接龙

ChatGPT真正在做的事情一言以蔽之就是文字接龙，可以把它理解成一个函数，输入一些东西就输出一些东西。可以输入一个句子，输出一个词汇的几率，然后做取样，举例：

ChatGPT原理剖析

它是从一个几率分布中做取样，所以它每次产生的答案是有随机性的。

那现在来看，它也只能回答一个字呀，它是怎么回答一个句子的呢？

ChatGPT原理剖析

它会将原来输出的字作为添加到输入当中去，然后继续产生新的输出，一直反复，知道最后选择出一个结束的符号为止。

ChatGPT原理剖析

那它怎么知道我们之前跟它说的话呢？其实原理是一样的，同一则对话的历史记录都会被作为输入，接入其中。

ChatGPT原理剖析

这个函数会非常复杂，可能有1700亿个以上的参数！

这么一个复杂且神奇的函数f是怎么形成的呢？

ChatGPT原理剖析

是通过大量网络上的资料以及人类的指导下，训练出来的，当神奇函数f找到后，ChatGPT就不需要联网了。我们平常使用的时候，就是测试，测试的时候就不需要上网搜集资料了。

ChatGPT背后的关键技术——预训练（Pre-train）

预训练（Pre-train）又叫自督导式学习（Self-supervised Learning）或基石模型（Foundation Model）

其中ChatGPT中的P就是这个意思：

ChatGPT原理剖析

一般机器是怎样学习的？

以一个英文翻译成中文为例，我们需要提供大量的成对的句子，提供给机器：

ChatGPT原理剖析

这种学习成为督导式学习。

有了成堆资料机器会自动找到函数f：

ChatGPT原理剖析

然而要将一般的机器学习步骤运用在ChatGPT上，我们需要给它提供大量的学习资料，但人类老师提供的资料也许是不足够的，当有人问到它之前没有遇到过得问题，那么它也无法回答：

ChatGPT原理剖析

所以ChatGPT还运用到了另外一个技术，可以无痛制造成对资料。

实际上，网络上的很多句子，都能形成成对的问答：

ChatGPT原理剖析

其实ChatGPT是在GPT基础上继续发展而来的，从2018年的GPT到后来的GPT2.0，GPT3.0都只是用到了网络上的大量数据，当然每一代都比上一代要多用很多的数据。但是效果并不那么好，之后加入了人类老师的指导变成了ChatGPT：

ChatGPT原理剖析

这其中，在没有人类老师指导的情况下，学习大量网络上的数据，此时称之为预训练（自督导式学习），而在人类老师的指导下呢，就称之为微调（finetune）。

当然，ChatGPT还有用到增强式学习：

ChatGPT原理剖析

当人类老师比较懒不想教AI的时候，或者人类老师也不知道标准答案的时候，就可以使用增强式学习（Reinforcement Learning，RL）这个时候我们只需要点个赞，或者点个踩就可以，比较省事。

ChatGPT带来的研究问题

1. 如何精准提出需求

当我们不能精准提出需求的时候：

ChatGPT原理剖析

当我们精准提出需求的时候：

ChatGPT原理剖析

2. 如何更改错误

ChatGPT原理剖析

如何让ChatGPT修改一个错误，并且不会导致其他错误，这是一个新的主题，叫做：Neural Editing

ChatGPT原理剖析

3. 侦测AI生成的物件

ChatGPT原理剖析

4. 不小心泄露秘密？

有时候这个大型语言模型也许会泄露秘密？

ChatGPT原理剖析

ChatGPT原理剖析

有时候我们不小心告诉它一些东西，有没有办法让它遗忘呢？这是一个新的研究主题，这个主题叫做：Machine Unlearning文章来源地址https://www.toymoban.com/news/detail-407695.html

到了这里，关于ChatGPT原理剖析的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spring Boot 常见的底层注解剖析

Spring Boot 是一个用于创建独立的、基于Spring框架的Java应用程序的框架。它提供了许多注解，用于配置和定制应用程序的行为。以下是一些常见的Spring Boot底层注解的剖析： @SpringBootApplication ：这是一个组合注解，用于标记一个主要的Spring Boot应用程序类。它包括 @Configuration 、

2024年02月14日
浏览(41)
深度剖析5种最常见的指数估值算法

前面一篇文章发起了一个关于指数低估算法的投票，结果发现感兴趣的人还真不少既然大家这么感兴趣，那今天就让我来纱布擦屁股——给你漏一手首先先来看几个我们常用的基金平台：蛋卷、天天基金、雪球 1、雪球估值雪球的估值结果分为三种：低估、适中和高估。对

2024年02月05日
浏览(36)
【SpringBoot】| Spring Boot 常见的底层注解剖析

目录一：Spring Boot 常见的底层注解 1. 容器功能 1.1 组件添加方法一：使用@Configuration注解+@Bean注解方法二：使用@Configuration注解+@Import注解方法三：使用@Configuration注解+@Conditional注解 1.2 原生xml配置文件引入 @ImportResource注解 1.3 配置绑定方法一：@Component注解 + @Configu

2024年02月17日
浏览(42)
【数据结构---排序】庖丁解牛式剖析常见的排序算法

排序在我们生活中处处可见，所谓排序，就是使一串记录，按照其中的某个或某些的大小，递增或递减的排列起来的操作。常见的排序算法可以分为四大类：插入排序，选择排序，交换排序，归并排序；其中，插入排序分为直接插入排序和希尔排序；选择排序分为直接

2024年02月16日
浏览(62)
Flutter原理篇：GestureDetector原理深度剖析及手势原理(上)

今天我们来讲讲GestureDetector的深度剖析，只有了解原理了，才能知道手势冲突如何解决以及如何更灵活的运用手势。我们先来看看GestureDetector的内部结构 1. GestureDetector 只是一个包装类，最终还是由 Listener 的 RenderPointListener 执行事件的操作 2.点击事件开始时会首先执行 RawG

2024年04月27日
浏览(37)
异或运算的基本介绍以及使用技巧，剖析常见的异或题目

异或运算，符号为‘^’，直接对底层二进制串进行运算，比算术运算快得多，规则为：相同为0，不同为1。假设N为任意实数性质1：0 ^ N = N 性质2：N ^ N = 0 性质3：异或运算满足交换律与结合律重点：我们可以将异或运算理解为二进制的无进位相加！也就是说，当两个数异或

2024年02月08日
浏览(50)
ZooKeeper原理剖析

ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供两个功能：帮助系统避免单点故障，建立可靠的应用程序。提供分布式协作服务和维护配置信息。 ZooKeeper集群中的节点分为三种角色：Leader、Follower和Observer，其结构和相互关系如下图所示。通常来说，需

2024年02月16日
浏览(36)
Flink基本原理剖析讲解

Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级

2024年02月16日
浏览(40)
Hbase基本原理剖析

数据存储使用HBase来承接，HBase是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。更多关于HBase的信息，请参见：https://hbase.apache.org/。存储在HBase中的表的

2024年02月16日
浏览(44)
Solr原理剖析

Solr是一个高性能、基于Lucene的全文检索服务器。Solr对Lucene进行了扩展，提供了比Lucene更为丰富的查询语言，并实现了强大的全文检索功能、高亮显示、动态集群，具有高度的可扩展性。同时从Solr 4.0版本开始，支持SolrCloud模式，该模式下能够进行集中式的配置信息、近实时搜

2024年02月15日
浏览(21)