五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

这篇具有很好参考价值的文章主要介绍了五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0. 导读

由于 GPT 模型的相关内容非常丰富,所以我计划对它进行更加深入的学习和研究,并把它应用到自己的工作、生活和学习中,用来提高工作效能,改善生活质量,提升学习效果。

按照第一性原理,在开始实战演练之前,我认为有必要先了解一下 GPT 模型背后的原理,这样才能避免盲目地崇拜它,也能避免无知地轻视它,而以更加理性的态度来应用它。

之前看到过一篇介绍 ChatGPT 原理的文章:ChatGPT 在做什么… 以及它为何发挥作用?全文超过 3 万字,包含 100 多张图片,并于 2023 年 3 月 9 日出版成书。

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

去查了一下原文的作者,发现是一个非常厉害的牛人,他就是数学软件 Mathematica 的创始人——史蒂芬·沃尔夫勒姆(Stephen Wolfram),他还是著名的复杂科学家,研究神经网络超过 40 年,并且发明了 Wolfram 语言。

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

下面结合沃尔夫勒姆的文章、谷歌团队的论文、ChatGPT 的回答、以及万维钢的 AI 前沿课等内容,抛开一些技术的细节,结合自己的理解,尽量用比较通俗的语言,来解读 GPT 模型背后的原理。

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

1. 为什么 GPT 模型能生成有意义的文本?

GPT 模型本质上是基于大量的语言数据,对文本进行「合理的延续」,它的核心是「大语言模型」(LLM)。

简单来说,GPT 模型的原理有点类似于玩「单词接龙」的游戏。

比如,把CSDN「写湿」的文章作为「学习材料」,用来训练 GPT 模型,当给它输入「我」字时,它可能会接着生成一个「是」字;紧接着,它会把「我」和「是」组合成「我是」,按照单词出现的概率,接着可能会生成下一个「写」字,再把「我是」和「写」组合成「我是写」,不断重复这个过程,就能生成一段有意义的文本,例如「我是写湿」。

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

我们把上面这个过程称为「自回归生成」,它属于一种无监督的自然语言处理(NLP)模型。有点类似于智能输入法,它可以根据用户的输入,在已输入词语的基础上,自动预测接下来可能需要输入的词语,以帮助用户提升打字的速度

但是,如果 GPT 模型总是挑选概率最高的词,通常就会得到非常「普通」的回答(有时甚至是千篇一律的答案)。

然而,当 GPT 模型随机挑选概率相对较低的词时,就有可能得到「更有趣」的回答(有时甚至会让人感觉很有创意)。

所以,GPT 模型的回答并不是每次都一样,这让人感觉它更加智能。

但事实上,它目前并没有自主的意识,早期版本的 GPT 模型,甚至就如同「鹦鹉学舌」,甚至不理解自己到底说了什么。

GPT 模型的底层原理,其实是在谷歌团队提出的 Transformer 模型的基础上,建立一个庞大的神经网络,其突出特点是大数据、大模型和大计算

其实说白了,就是「大力出奇迹,暴力计算」。

在经过大量数据的预训练和大量的计算之后,GPT 模型表现出了惊艳的语言理解和生成能力,可以有选择性地记住前文的重点,形成思维链推理能力。

因此,GPT 模型能够「理解」人类的意图,进行多轮有效的沟通,实现智能问答交流,还能模仿知名作家的写作风格,甚至能够完成诗歌的创作,做到内容完整、重点清晰、有概括、有逻辑、有条理。

2. 为什么 GPT 模型不会做简单的数学题?

尽管 GPT 模型有很强的语言能力,但它对数学问题却还不大擅长。

比如,我随便输入一些数字,让 ChatGPT 做一道简单的算术题:

123123 ∗ 2080 + 321321 ∗ 8020 = ? 123123*2080+321321*8020 =? 1231232080+3213218020=

结果 ChatGPT 一本正经地给出一个错误的答案: 2832402360 2832402360 2832402360,但中间有几位是错误的,正确答案应该是 2833090260 2833090260 2833090260

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

为什么 GPT 有强大的推理能力,却连这么简单的计算题都算错了呢?

其根本原因在于,GPT 是一个大语言模型,它的思维很像是人类的大脑,而人类的大脑是不太擅长计算这种数学题的,假如让你来计算,估计也要用笔算,或借助计算器等工具

所以,GPT 其实更像是人类的大脑,而不是像一般的计算机程序。

据估计,人类的大脑大约有 1000 亿个神经元,而 GPT-4 的模型参数远超 1000 亿个,正是因为数量庞大,才产生了「涌现」的效果,也就是当数量大到一定程度,会突然出现一些原本并不具备的能力。就像蚂蚁的数量足够多之后,突然具备了某种组织能力。

3. 为什么有人担心 GPT 模型可能会危害人类?

虽然 GPT 模型目前还不善于解决一些数学问题,但其实只要给它增加适当的插件,当遇到它不擅长的领域时,就运用多元思维模型,调用其他模型来解决。

比如,与 Wolfram 相结合,就能轻松解决一些数学问题,这就好比给人类配上计算器,算术能力就能得到明显增强。

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

因为 GPT 模型本身属于一种无监督的算法,所以它就像一个黑匣子,常常会出现让人难以预料的结果,却不知道具体的原因,因此不免让人担忧:它会不会做出一些危害人类的事情来呢?

从历史经验来看,科技是一把双刃剑,用好了可以造福人类,用不好可能给人类造成灭顶之灾

1905 年,爱因斯坦提出的质能方程,揭示了质量与能量之间的关系——即使是微小的质量变化,也会产生巨大的能量。

原子弹的基本原理,就是利用了质能方程。爱因斯坦曾向美国发出警告,指出德国正在进行原子研究,一旦德国研制成功,将会对世界构成严重的威胁。

1945 年,美国研制成功之后,在日本投下了 2 颗原子弹,造成超过 20 万人死亡,爆炸后释放了大量的核辐射,对人类产生长期的负面影响,导致癌症等健康问题,对生态环境造成巨大的损失,对人类安全造成严重的威胁。

因此,有很多人一直在呼吁:禁止核武器的使用和研发,以避免发生大的灾难。

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

2023 年 3 月底,美国未来生命研究所发布了一封公开信,呼吁人类暂停研究比 GPT-4 更强大的人工智能系统,为期至少 6 个月,以免 GPT 变得过于强大,给人类带来未知的危险。

这个未来生命研究所的发起人,就是著名的人工智能研究者迈克斯·泰格马克,也就是《生命 3.0》这本书的作者。

至于 GPT 未来到底会给人类造成什么样的影响,是收益更多,还是危害更大,目前恐怕还没人确切地知道。

我个人觉得,目前 GPT 还没有强大到威胁人类生存的地步,但是运用「六顶思考帽」思维模型,站在不同的角度去思考问题,提前想到潜在的风险,做好相应的预防措施,这对我们来说不是坏事。

我们还应该学会运用批判性思维,尽管 GPT 模型可以帮助我们提炼知识、总结经验和指导方法,但我们仍然需要自己来做出判断和决策,避免出现明显的逻辑错误,并对最终的结果负责。

4. 小结

最后,讲一个与 GPT 模型相关的故事。

据说在 2021 年,美国有一个叫约书亚的人,他的爱人杰西卡因病去世,因此他感到伤心欲绝。在一次偶然的机会,他把自己和爱人的所有聊天记录都上传到 GPT-3 模型中。

此后,他有空就和 GPT-3 聊天,结果神奇的事情发生了,他感觉到电脑屏幕对面就是杰西卡本人,因为聊天的很多细节都太像她了。

在聊天的过程中,约书亚经常泪流满面,哭累了就睡,睡醒了就继续聊。结果竟然治愈了约书亚,他不再像之前一样深陷其中、不能自拔了,最后他说:AI 复活了我的妻子,但我决定跟她说再见了。

这个故事给了我很大的启发,我觉得应该保持记录的习惯,多写一些复盘总结,并妥善保存好一些记录、照片、语音等,说不定将来就可以借助 GPT 模型,与过去的自己聊天

当你记录的数据越多,GPT 模型就越准确,跟它聊天的感觉就越真实,将来也许可以成为情感的一种寄托,帮你舒缓情绪,治愈心灵,实现用数据赋能成长。

据说,国外有人把自己的日记导入到 GPT 模型中,训练了一个「童年的自己」,并向她提问、跟她对话,帮助自己理清内心的思绪,切实解决了自己遇到的问题。

GPT 模型的原理其实比较简单,但只有当数据到达一定的量级,量变才会引起质变。就像心理学家提出的 10000 小时定律,要想在某个领域达到专业水平,至少需要 10000 小时的刻意练习

最后我相信,如果 GPT 模型运用得当,它将能帮助我们更好地发挥自身的潜能和创造力。文章来源地址https://www.toymoban.com/news/detail-469011.html

到了这里,关于五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 程序员为什么不喜欢关电脑?揭秘背后的原因与“英雄”本色

    在许多人眼中,程序员似乎总是与电脑形影不离,甚至深夜时分,他们的电脑屏幕也依旧亮着。那么,为什么程序员们似乎从不喜欢关电脑呢?今天,就让我们一起走进程序员的世界,揭秘这背后的原因,看看他们真正的“英雄”本色! 在程序员的日常工作中,保持流畅且不

    2024年02月19日
    浏览(61)
  • 一道题告诉你为什么GPT4被封神!横向测评大模型的推理能力:ChatGPT、Claude、Gemini、文心一言、讯飞星火、通义千问、天工、智谱清言、Kimi Chat!

    大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关

    2024年04月13日
    浏览(202)
  • 为什么要去了解javascript的底层?

    JavaScript的基本数据类型包括:数字、字符串、布尔值、null、undefined。其中,数字类型可以是整数或浮点数,字符串类型用单引号或双引号表示,布尔值只有true和false两个取值,null表示一个空值,undefined表示一个未定义的值。 在JavaScript底层实现中,每种数据类型都有相应的

    2024年02月01日
    浏览(49)
  • 一文了解以太坊为什么合并及未来升级规划

    一、什么是以太坊升级 以太坊升级最初被称为「ETH 2.0」或「宁静(Serenity)」,是一次规划已久的以太坊网络重大升级,将使以太坊网络具有更好的可扩展性、安全性和可持续性。 二、为什么要进行升级 众所周知,以太坊正面临着网络拥堵、运行节点门槛高、能源损耗大等

    2023年04月08日
    浏览(45)
  • 为什么HTTP/3要引入UDP?(快速了解QUIC)

    笔者前段时间参加银行技术面时被问到了这个问题,特来整理资料以供记录分享 HTTP/3是HTTP协议的最新版本,它的诞生是为了解决HTTP/1和HTTP/2在性能和效率上的问题。在HTTP/3之前,HTTP协议使用的是TCP作为传输层协议。然而,随着互联网的发展,TCP的性能瓶颈逐渐显现出来。为

    2024年01月17日
    浏览(53)
  • 为什么多数情况下GPT-3.5比LLaMA 2更便宜?

    本文旨在为用户选择合适的开源或闭源语言模型提供指导,以便在不同任务需求下获得更高的性价比。 通过测试比较 LLaMA-2 和 GPT-3.5 的成本和时延,本文作者分别计算了二者的 1000 词元成本,证明在大多数情况下,选择 GPT-3.5 的成本更低、速度更快。基于上述评估维度,作者

    2024年02月05日
    浏览(49)
  • 每天五分钟计算机视觉:为什么说1*1的卷积核是全连接神经网络?

    上一节课程中我们对1*1的卷积核进行了介绍,他可以降低或者升高输入的通道数,或者增加复杂度。除此之外,1*1的卷积核的效果类似于全连接神经网络,但是并不能完全等价,本节课程我们来详细的看一下,1*1的卷积核和全连接神经网络之间的关系是什么? 如上图所示,假

    2024年02月03日
    浏览(55)
  • 人工智能这么厉害,比如GPT-4,为什么没有看到程序员失业?

    目录  一、一次理性的反思 看看网友基于GPT-4生成代码的测试案例: 二、人工智能与程序员相辅相成 三、无独有偶的低代码 1、提升开发价值 2、利于团队升级 四、最后 OpenAI发布了GPT-4,这个远超以往的任何人工智能的模型,在 逻辑、推理、数学、常识 等方面超越了90%的人

    2023年04月08日
    浏览(66)
  • WebSocket 是什么原理?为什么可以实现持久连接?

    WebSocket 是一种用于实现持久连接的通信协议,它的原理和工作方式相对复杂,但我们可以尝试以尽可能简单和清晰的方式来解释它。 WebSocket 的原理 在理解 WebSocket 的工作原理之前,我们首先要了解 HTTP 协议的短连接性质。在传统的 HTTP 通信中,客户端发送一个请求到服务器

    2024年02月05日
    浏览(71)
  • 了解抖音小程序的评级。为什么我的抖音小程序申请不了某个功能?

    小程序评级体系是衡量小程序整体质量的参照,也是小程序获取对应权益的指南,旨在推动、鼓励开发者提升小程序服务能力和水平,提高行业竞争力,进而获得更加高效的流量入口、取得更好的留存效果、实现更高的变现效率。 评级结果 = 内容丰富度 + 功能完备性 + 使用体

    2024年02月14日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包