ChatGPT是如何回答问题的?它与搜索引擎的区别在哪里?

这篇具有很好参考价值的文章主要介绍了ChatGPT是如何回答问题的?它与搜索引擎的区别在哪里?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        在阅读本篇文章,我推荐大家先观看下面链接的视频,而本文章的内容基本上视频都有提及,只不过在此做一下进一步的知识整理和总结,方便大家对相关知识的回顾。同时也建议大家关注一下视频Up,他的视频极具深度,能够带给大家新的启发和思考。 

【渐构】万字科普GPT4为何会颠覆现有工作流;为何你要关注微软Copilot、文心一言等大模型_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1MY4y1R7EN/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=fe81b6bdf8b81519f6d7d59ca0843546

        当今,随着人工智能技术的不断发展,自然语言处理技术也变得越来越先进。在这样的背景下,ChatGPT是一个备受关注的话题。ChatGPT是一个基于GPT-3.5架构的大型语言模型,由OpenAI开发。它具有强大的自然语言处理和对话生成能力,可以对用户提出的问题和语句进行理解和回答,同时还能生成高质量的文本。ChatGPT在各种领域的应用潜力巨大,如教育、娱乐、医疗、金融等。它可以与人类进行自然而流畅的对话,并根据用户的需求提供个性化的服务和信息。而对于这样一个足以影响整个世界的技术却没有对国内开发,通用媒体又缺少相应的知识,Up主YJango特意做了一期视频,向普通大众全面科普了ChatGPT的原理,并提供了一个独特的视角,让大家意识到它为何如此重要,让那些没有机会了解这件事的人也能应对即将到来的变革!所以还希望大家能够观看视频,一键三连!       

抛出问题

1.ChatGPT是如何回答问题的?

2.它是怎么被制造的,为什么它不是搜索引擎?

3.它有哪些惊人能力,为什么它不只是聊天机器人

4.它将给社会带来什么样的冲击(视频中有介绍)

5.我们该如何维持未来的竞争力(视频中有介绍)

1.GPT的底层原理

1.1实质功能

四个字概括:单字节龙

什么是单字节龙:给它任意长的上文,它会用【自己的模型】生成任意长的下一个字。

那它又是如何回答长文的呢?

其实道理很简单,它是通过生成了下一个字后于之前的字继续组成上文,继续根据自己的模型生成下一个字,不断重复,就可以生成任意长的下文。 该过程也称为『自回归生成』。

影响GPT生成的回答主要有两个因素:『上文』和『模型』模型相当于ChatGPT的大脑,即:把不同的上文送给不同的模型,由于思考方式不同,因此得到的结果也不同。

为了让ChatGPT生成我们想要的结果,而不是随便胡乱生成,因此就需要对ChatGPT的模型进行训练。

1.2训练方式

简单概括:遵照所给的『学习材料』来做『单字节龙』,并不断的调整模型。

举个例子:

一个没有训练的GPT和一个以《床前明月光》作为』学习材料『训练过的GPT,给到相同的上文:床前。

没有训练的GPT就会随便生成:床前一双鞋...床前一个人....

训练过的GPT则会根据训练后的模型生成:床前明月光

>抛出问题如果』学习材料『特别多,而给出的上文满足多个材料,该如何生成?答案是抽样

举个例子:

同时有『白日依山尽『和』白日何短短『,那给出上文:白日,下一个字究竟『依』还是『何』,将会进行抽样。

其实说到这里,ChatGPT就已经有能力回答问题了。因为提问和回答都是文字,那么就可以将提问和回答组成一个『回答范例』来给到GPT进行学习,这样GPT的回答会更加的标准规范。

>抛出问题:提问-回答的组合成千上问,因人而异,难道要要将所有的组合都作为『学习材料』交给ChatGPT来学习吗?

其实并不需要,因为训练的目的并不是记忆,而是学习。以『单字接龙』的方式来训练『模型』,并仅仅是让模型记住某一个『提问-回答组合』,而是去学习『提问和回答的通用规律』,这样,当模型遇到没有记忆过的提问组合也能够利用所学的规律生成用户想要的回答,这种举一反三的目的也叫做:泛化

『误区』很多人(包括我)在一开始会认为,ChatGPT会像搜索引擎一样,实在庞大的数据库中通过超高的运算速度,找到最接近的内容,然后进行一系列的比对和拼接操作得到最终的内容。ChatGPT并不具备那种搜索能力,因为在训练过程中,『学习材料』(也就是我们说的数据库)并没有保存在ChatGPT的模型中,学习材料的作用只是为了调整模型,以得到一个更优质的通用模型,为的就是能处理『未被数据库记忆的情况』,所有结果都是通过『所学的模型』根据上文进行单字节龙,逐字生成。因此,ChatGPT也被称为生成模型

1.3长板

        生成模式于搜索引擎非常不同,搜索引擎无法给出『未被记忆的数据』(数据库中没有的数据),但生成语言模型可以,还能创造不存在的文本,这就是生成模型的长板。

1.4短板

        生成模型同样有着搜索引擎没有的短板-『混淆记忆』和『无中生有』。

主要由两个原因导致:

        首先,搜索引擎不会混淆记忆,但是它有可能。为了应对未被记忆的的情况,它会学习语言单位(如单词、短语、句子等)之间的规律,用学到的规律生成答案,这也意味着,如果出现了『实际不符但却碰巧符合同一规律的内容』,模型就非常有可能混淆它,ChatGPT就有可能对不存在的内容进行『合乎规律的混合捏造』。

举个例子:

问:为什么M78星云科技那么发达,奥特曼为什么不侵略地球?

ChatGPT:M78星云科技是奥特星人所掌握的高科技,他们是保护和平的战士,以保护宇宙中的各种生命形式为使命。他们不会侵略地球,而是会派遣奥特曼来保护地球不受外来的威胁。

这也是为什么很多用户在问它一些事实性问题时会发现它在胡说八道的原因之一。

        另一个原因就是,ChatGPT无法对『所记住的信息进行』增删改查,无论是ChatGPT所记忆的信息还是所学到的规律都是以同一个模型的形式表达的,因此我们无法像操作数据库一样对这些内容进行增删改查。

这会导致两个问题:

  1. 第一:由于我们很难理解它所构建的规律,又无法查看它记住了什么,学到了什么,只能通过多次的提问和猜测来评估它的所及所学,其决策缺乏可解释性,这难免在使用时会带来一定的安全风险。
  2. 第二:由于只能通过再次调整模型(即再次训练)来增加、删除和修改它的所及所需学,这难免在更新时会降低效率。

就比如它回答的奥特曼的问题,只有通过『奥特曼是虚构的....』等学习材料来调整模型,但是这样的调整如何、是否会导致一些其他的问题,又只能通过多次提问来评估,容易顾此失彼,效率低下。

        还有个特点是:ChatGPT高度依赖数据,也就是所说的学习材料,想要让ChatGPT能够应对无数未遇见情况,就必须提供足够多的、种类足够丰富、质量足够高的学习材料,否则它将无法学到通用规律,给出的回答以偏概全。此外,ChatGPT存在的胡编和混淆也需要通过学习资料来修正,由此可见学习材料的重要性。

1.5总结:

  1. ChatGPT的实质功能是单字接龙
  2. 长文由单字接龙的自回归所生成
  3. 通过提前训练才能让它生成人们想要的问答
  4. 训练方式是让它按照问答范例来做单字接龙
  5. 这样训练是为了让它学会「能举一反三的规律」
  6. 缺点是可能混淆记忆,无法直接查看和更新所学,且高度依赖学习材料

以上都只是GPT的原理。而ChatGPT则是在GPT的基础上被扩展至超大规模,再加以人类的引导的产物。

2.ChatGPT的实现

三大学习阶段

        机器理解人类语言的一大难点在于:同一个意思,可以有不同的表达方式,可以用一个词或者是一段描述。而同一个表达,在不同的语境中又有着不同的含义。

        对于这个问题,需要通过三个学习阶段来实现。

第一阶段:开卷有益-无监督学习

        该阶段,需要让机器学习各种『语义关系』和『语法规律』,以便来明白『哪些表达实际上是同一个意思』。对此ChatGPT的办法是:让模型看到尽可能多、尽可能丰富的『语言范例』(也就是学习材料),使其能有更多机会构建出能举一反三的语言规律,来应对无数『从未见过的语言』。

        GPT中的G代表Generative-生成,T代表Transform-模型结构,P-Pre-training-预先学习,而这里的P就是指的第一阶段的无监督学习阶段。

OpenAI

学习材料

参数

GPT-1

5GB

1.17亿

GPT-2

40GB

15亿

GPT-3

45TB

1750亿

第二阶段:模板规范-有监督学习

        在学习了容量如此大的学习材料后,ChatGPT的回答将不受约束,因为它学的太多了,它就像一个脑容量超级大的鹦鹉,听过了海量的电视界面,会不受控制的乱说,丑话、脏话全部有可能蹦出来,难以与人类交流,那么该如何解决这个问题呢?使用『对话模板』去矫正它在『开卷有益』时所学到的不规范习惯。具体做法是:不再用随便的互联网文本,而是把人工专门写好的『优质对话范例』给开卷有益后的ChatGPT-3,让它再去做单字节龙,从而学习『如何组织符合人类规范的回答』。

        例如:ChatGPT无法联网,当用户问到最新新文时,就不应该让它接着去胡编乱造,而是直接回答『不知道该信息』。

当用户提问本身就存在错误时,也不应该让它胡编乱造,而是指出错误。

当提问『xxxx是不是』的时候,让它不单单只回答是或者不是,还要加以原因进行解释。因此还要提供提问-回答-原因的模型进行训练。

还有相关非法、有害等相关内容,也应该做出相应的防范。

        但是完全使用模板化去训练GPT,这会导致ChatGPT的回答过于模板化,从而成为一个高度模板化的复刻机器,从而失去了创新性。所谓:科文有标准答案,但是人文领域的问题是没有标准答案。我们也希望ChatGPT可以跳出模板,提供仍符合人类对话模式和价值取向的创新性回答。

>抛出问题:那么如何在维持人类对话模式和价值取向的前提下,提高ChatGPT的创新性呢?

第三阶段:创意引导-强化学习

        该阶段,不在要求它按照我们提供的对话范例做单字接龙,而是直接向它提问,再让它自由回答,如果回答的秒,就给予奖励,如果回答的不佳,就降低奖励。利用人类评分去调整ChatGPT的模型。在这一阶段不会使用现有的模板去限制它,又可以引导它创造出符合人类认可的回答。

        ChatGPT就是在ChatGPT3.5的基础上先后经历了开卷有益-无监督学习、模板规范-监督学习、创意引导-强化学习三个阶段的训练后得到的生成语言模型。可以说ChatGPT把机器学习的几大训练模式都用到了

总结:

ChatGPT的三个训练阶段:

        『开卷有益』阶段:让ChatGPT对海量互联网文本」做单字接龙,以扩充模型的词汇量、语言知识、世界的信息与知识。使ChatGPT从『哑巴鹦鹉』变成『脑容量超级大的懂王鹦鹉。

        『模板规范』阶段:让ChatGPT对「优质对话范例]做单字接龙,以规范回答的对话模式和对话内容。使ChatGPT变成"懂规矩的博学鹦鹉『

        『创意引导』阶段:让ChatGPT根据[人类对它生成答案的好坏评分]来调节模型,以引导它生成人类认可的创意回答。使ChatGPT变成『既懂规矩又会试探的博学鹦鹉』。

        此外:当单字节龙模型的规模达到一定程度后,就会涌现出『理解指令』『理解例子』『思维链』的能力

>附文

涌现现象

        (这段科普来自微博博主木遥):这是过去两年来人们最大的发现之一。只要神经网络的复杂性和训练样本的多样性超过一定规模,就会有抽象的推理结构在神经网络里突然自发涌现出来。这个过程像所有的复杂性系统一样是非线性的。去年十月份 Google 的一篇论文 Emergent Abilities of Large Language Models 对这个现象做了很好的综述。简单地说:量变导致质变。

(另一方面,由于涌现是非线性的,这也使得要预测它的发展极为困难。如果今天的模型暂时还不能解决某一类任务,你无法估计模型要再扩张多少才能涌现出新的能力去解决这些任务。可能永远不行,可能下一个阈值会超出硬件的能力极限,可能你需要的全新的网络架构。所有这些问题都无法用简单的外推来回答。这种非线性也是人工智能波浪形发展的根源:你会在好几年里觉得一事无成(比如前几年大量声音说大模型已死),接着忽然迎来一个剧烈爆发的增长,然后可能又进入下一个等待期。

        但重点在于,今天的大语言模型已经在很多方向上确定无疑地迈过了某个重要的阈值。这使得整个关于模型能力的认知都需要迅速重估。最典型的就是 in-context learning:今天你可以给 AI 看几个例子,然后它就在这些例子的基础上举一反三,针对没见过的样本做出正确的推理,并且这个过程中【不需要】重新训练模型权重。——人们暂时还不知道能冲破多少此前一直卡着的瓶颈,但这个飞跃本身已经打开了一片新天地。

        人类自己的进化史上语言的诞生被认为是个重要的节点,这意味着大脑的复杂程度决定性地超越了此前的近亲,然后语言又反过来给大脑的发育带来巨大的压力,迫使它走上了一条所有其他动物都没走过的演化道路。

今天很可能是 AI 演化史上的类似时刻。文章来源地址https://www.toymoban.com/news/detail-415236.html

到了这里,关于ChatGPT是如何回答问题的?它与搜索引擎的区别在哪里?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • “搜索大战”正式打响,微软发布ChatGPT版搜索引擎和浏览器

    微软公司宣布推出由ChatGPT支持的最新版本Bing(必应)搜索引擎和Edge浏览器,今天上线,免费使用!  自去年开始,Stable Diffusion、ChatGPT 等 AI 工具的横空出世,貌似在告诉人们“AI 正在准备重塑整个世界”。 如今,由 ChatGPT 在各行各业掀起的这一波 AI 浪潮依然没有退去的迹

    2024年02月21日
    浏览(34)
  • ChatGPT 不是黑魔法,“替代搜索引擎”言之尚早

    ChatGPT 火了。 整个 LLM 和搜索领域都已经在过去几个月内发生了翻天覆地的变化。ChatGPT 不再是一个玩具,它开始被微软、谷歌集成在搜索以及各个 SaaS 服务中,且取得了令人惊叹的效果。 我尝试着 使用 ChatGPT 回答过去一个月搜索过的 30 个问题,ChatGPT 提供的结果大概有 60

    2023年04月23日
    浏览(31)
  • ChatGPT会取代搜索引擎吗?BingChat、GoogleBard与ChatGPT区别

    目前暂时不会,ChatGPT为代表的聊天机器人很可能会直接集成到搜索中,而不是取代它。微软已经通过Bing Chat和Bing做到了这一点,它将“聊天”选项卡直接放入Bing搜索的菜单中。Google、百度也分别开始尝试通过其AI生成技术将Google Bard、文心一言智能集成到搜索中。   不过因

    2024年02月13日
    浏览(40)
  • 什么是搜索引擎?2023 年搜索引擎如何运作?

    在当今的数字时代,搜索引擎已经成为人们获取信息的主要途径之一。然而,你是否知道搜索引擎是如何工作的,以及它们为什么如此重要? 搜索引擎是一种计算机程序,通过互联网或企业内部网络检索信息。用户输入或短语后,搜索引擎会扫描网络上的网页、文件、

    2024年02月16日
    浏览(40)
  • ChatGPT热炒之前 搜索引擎SEO算法已经悄然改变

    2022年4月起,某度算法有了新的调整,这对于靠SEO获得流量的公司简直可以说是灭顶之灾。原本SEO从业者还指望跟之前一样,等算法调整稳定后,网站的自然排名还会再回来,但等到了10月份,仍然没有回暖的迹象,大家这才不得不面对现实,总结这次算法调整后的特点。 特

    2023年04月23日
    浏览(42)
  • ChatGPT情商很高,但并不适合当搜索引擎

    微软和谷歌正急于使用大型语言模型技术来强化搜索引擎。但有充分的理由认为,相比于提供事实性信息,这项技术更适合作为人们情感上的伴侣。 美媒评论称,目前基于大型语言模型的人工智能工具,例如ChatGPT,更擅长共情而不是提供准确的事实信息。这是因为设计者优

    2024年02月01日
    浏览(72)
  • 为什么说ChatGPT还不是搜索引擎的对手

    1950年,英国科学家图灵在一篇论文中预言,人类有可能创造出具有真正智能的机器。 著名的「图灵测试」就此诞生:如果一台机器能够与人类展开对话,而不被辨别出其机器身份,那么称这台机器具有智能。 也是从那时开始,人类世界开始了对人工智能长达半个多世纪的探

    2024年02月11日
    浏览(43)
  • 关于谷歌浏览器搜索引擎被360劫持的问题,地址栏搜索变成360引擎的问题的解决方法 360搜索

    第一种:面对比较简单的劫持 浏览器-》设置-》搜索引擎 把地址栏搜索引擎改成自己需要的即可 第二种:比较变态的劫持 360通过篡改百度(也可能是其搜索引擎)网址替代字来劫持搜索引擎 现象 虽然地址栏显示的是百度搜索引擎,但是搜索东西就会跳到360搜索 解决方法 浏览

    2024年02月02日
    浏览(47)
  • chatgpt赋能python:PythonShodan:极具威力的网络搜索引擎

    Python是一种流行的编程语言,被许多开发人员用来创建各种类型的应用程序和工具。其中一个强大的工具是Shodan,它是一个网络搜索引擎,可以帮助你找到任何与互联网连接的设备或系统。 Shodan是一个搜索引擎,专门用于查找与互联网连接的设备或系统。相对于传统搜索引擎

    2024年02月10日
    浏览(28)
  • 斯坦福| ChatGPT用于生成式搜索引擎的可行性

    文|智商掉了一地 随着 ChatGPT 在文本生成领域迈出了重要一步,Bing 浏览器也接入了聊天机器人功能,因此如何保证 Bing Chat 等搜索引擎结果的精确率和真实性也成为了搜索领域的热门话题之一。 当我们使用搜索引擎时,往往希望搜索结果能够真实准确地反映我们的需求。然

    2024年02月06日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包