ChatGPT  一本正经的胡说八道 那也看看原理吧

这篇具有很好参考价值的文章主要介绍了ChatGPT  一本正经的胡说八道 那也看看原理吧。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ChatGPT  一本正经的胡说八道 那也看看原理吧

最近,ChatGPT横空出世。这款被马斯克形容为“强大到危险”的AI,不但能够与人聊天互动,还能写文章、改代码。于是,人们纷纷想让AI替自己做些什么,有人通过两分钟的提问便得到了一篇完美的论文,有人希望它能帮自己写情书、完成工作

ChatGPT  一本正经的胡说八道 那也看看原理吧

我觉得Musk担心的应该是‘信息茧房’中的‘思考劫持’

大家可以查一下传播学中的这两个概念

几个测试案例

ChatGPT  一本正经的胡说八道 那也看看原理吧

小学白念了,这是哪家不正经的小学教这个

ChatGPT  一本正经的胡说八道 那也看看原理吧

你把柳传志往哪放...

ChatGPT  一本正经的胡说八道 那也看看原理吧

这.....

总结,就这人工智障,还图灵测试...

但我们还是看一下原理,看看主要的问题出在了哪个算法上...

ChatGPT基本原理

ChatGPT  一本正经的胡说八道 那也看看原理吧

第一步 收集数据,训练有监督的策略模型

第二步 收集对比数据,训练回报模型

第三步 使用强化学习,增强回报模型优化策略

SFT:生成模型GPT的有监督精调 (supervised fine-tuning)

RM:奖励模型的训练(reward model training)

PPO:近端策略优化模型( reinforcement learning via proximal policy optimization)

相对于之前的GPT家族,在第一步和第二步多出了人工干预

ChatGPT  一本正经的胡说八道 那也看看原理吧

找了一堆外包,可以看出人的干预有多重要

补充知识

prompt

Prompting指的是在文本上附加额外的提示(Prompt)信息作为输入,将下游的预测等任务转化为语言模型(Language Model)任务,并将语言模型的预测结果转化为原本下游任务的预测结果

对于传统的Fine-tuning范式,以BERT为例,我们会使用PLM提取[CLS]位置的特征,将其作为句子的特征,并对情感分类任务训练一个分类器,使用特征进行分类

对于Prompting,它的流程分为三步

  1. 在句子上添加Prompt。一般来说,Prompt分为两种形式,分别是完形填空(用于BERT等自编码PLM)与前缀(用于GPT等自回归PLM)

例如  

I love this movie. It is a [MASK] movie. (完形填空模式)

I love this movie. The movie is (前缀模式)

2.根据Prompt的形式,在[MASK]位置或Prompt前缀的后面进行预测单词

3. 根据预先定义的Verbalizer(标签词映射)将单词转化为预测结果,若预测单词’Good’则情感倾向为正向,若预测结果为单词’Bad’则情感倾向为负向

SFT

GPT模型通过有监督的Prompt数据进行精调,其实就是做next token prediction任务。然后用精调后的模型对每个输入的[文本+prompt]进行generate,生成4~9个输出,并且进行解码操作

ChatGPT  一本正经的胡说八道 那也看看原理吧

数据举例

ChatGPT  一本正经的胡说八道 那也看看原理吧
raw_data = "我们去成都旅游,必须要去的地方是大熊猫繁殖基地。"
prompt = "大熊猫是"
labels = ["一种有黑白斑纹的动物。","中国特有种,主要栖息地是中国四川、陕西和甘肃的山区。",
"已在地球上生存了至少800万年,被誉为“活化石”和“中国国宝”即国兽,世界自然基金会的形象大使,是世界生物多样性保护的旗舰物种。",
"属于熊科、大熊猫属的哺乳动物。仅有二个亚种。雄性个体稍大于雌性。体型肥硕似熊、丰腴富态,头圆尾短,头躯长1.2-1.8米,尾长10-12厘米。"]
combine_data = [raw_data+prompt+label for label in labels]

RM

RM模型的作用是对生成的文本进行打分排序,让模型生成的结果更加符合人类的日常理解习惯,更加符合人们想要的答案

RM模型主要分为两个部分:训练数据获取、模型训练

ChatGPT  一本正经的胡说八道 那也看看原理吧

在原论文中使用GPT的架构做了一个reward model,这里需要注意的是要将模型的输出映射成维度为1的打分向量,也就是增加一个linear结构

RM模型的主要点还是在于人工参与的训练数据构建部分,将训练好的SFT模型输入Prompt进行生成任务,每个Prompt生成4~9个文本,然后人为的对这些文本进行排序

将每个Prompt生成的文本构建为排序序列的形式进行训练,得到打分模型,以此模型用来评估SFT模型生成的文本是否符合人类的思维习惯

这里尝试两种方法,这两种方法为direct score和rank score:

Direct score:一个是直接对输出的文本进行打分,通过与自定义的label score计算loss,以此来更新模型参数;

Rank score:二是使用排序的方法,对每个Prompt输出的n个句子进行排序作为输入,通过计算排序在前面的句子与排序在后面的句子的差值累加作为最终loss。

Direct score方法

这个方法就是利用Bert模型对标注数据进行编码,用linear层映射到1维,然后利用Sigmoid函数输出每个句子的得分,与人工标记的得分进行loss计算,以此来更新模型参数

ChatGPT  一本正经的胡说八道 那也看看原理吧

Rank score方法

这种方法与前一种方法的区别在于loss函数的设计

首先需要明白的是为什么在InstructGPT中不采用上面的方法,主要的原因在于给生成句子在打分时,不同标注人员的标准是不一样的,而且这个标准是很难进行统一的,这样会导致标注的数据评判标准不一样

即使每个标注人员的理解是一样的,但对于同一条文本给的分数也不一样的,因此在进行标注时需要把这个定量的问题转为一种更为简单的处理方法,采用排序来方法来进行数据标注可以在一定程度上解决这个问题

两种方法区别

ChatGPT  一本正经的胡说八道 那也看看原理吧

明显的看出标注员在使用直接打分(Direct Score)时,会由于主观意识的不同,对同一个文本出现不同的分值;而使用等级排序(Rank Level)来进行数据标注时,可以统一标注结果

Rank Loss

ChatGPT  一本正经的胡说八道 那也看看原理吧

PPO算法

邻近策略优化(Proximal Policy Optimization,PPO)算法的网络结构有两个。PPO算法解决的问题是 离散动作空间和连续动作空间 的强化学习问题,是 on-policy 的强化学习算法。

论文原文《Proximal Policy Optimization Algorithms》

涉及到强化学习的概念太多,就不在这里展开了

Reference

https://www.sohu.com/a/644391012_121124715

https://blog.csdn.net/Ntech2099/article/details/128263611

https://zhuanlan.zhihu.com/p/461825791

https://zhuanlan.zhihu.com/p/609795142文章来源地址https://www.toymoban.com/news/detail-432991.html

到了这里,关于ChatGPT  一本正经的胡说八道 那也看看原理吧的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【i阿极送书——第四期】《ChatGPT时代:ChatGPT全能应用一本通》

    作者:i阿极 作者简介:数据分析领域优质创作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍 📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪 实用

    2024年02月08日
    浏览(91)
  • 《这就是ChatGPT》—— 一本让你对人工智能有全新认识和启发的科普书

    人工智能是当今科技领域最热门的话题之一,而ChatGPT则是人工智能的最新成果,它能够自动生成一些表面上看起来像人类写出的文字的东西,让人惊叹不已。那么,它是如何做到的呢?又是为何能做到的呢?《这就是ChatGPT》这本书就会给你答案。 这本书是由世界顶级的科学

    2024年02月06日
    浏览(56)
  • 正经学编程一年的叨叨

      想了很多,居然不知道这篇文章怎么开头,那就想到什么就写什么吧。   我的专业是软件技术,对标的是本科的软件工程。当时为什么会选这个专业呢?说实话,当时高考成绩出来选学校选专业我是纯懵的,就看着自己的分数,根据学校发的和院校信息相关的书,从上

    2024年02月11日
    浏览(42)
  • 如何成为一个正经的 Microsoft 365 开发者

    托 Covid-19 的福,在过去的几年里,在全球领域,Microsoft 365 已经成为组织交流和协作的优选,每月有超过 2.7 亿的活跃用户。通过成为 Microsoft 365 开发者,您可以扩展、集成 LOB(line-of-business) 应用程序,并通过 Microsoft Graph 访问 Microsoft 365 的数据,根据组织的需求定制您的体验

    2024年02月05日
    浏览(45)
  • Offer必备算法_滑动窗口_八道力扣OJ题详解(由浅到深)

    目录 滑动窗口算法介绍 ①力扣209. 长度最小的子数组 解析及代码 ②力扣3. 无重复字符的最长子串 解析及代码 ③力扣1004. 最大连续1的个数 III 解析及代码 ④力扣1658. 将x减到0的最小操作数 解析及代码 ⑤力扣904. 水果成篮 解析及代码1(使用容器) 解析及代码2(开数组) ⑥

    2024年02月20日
    浏览(48)
  • Offer必备算法_二分查找_八道力扣OJ题详解(由易到难)

    目录 二分查找算法原理 ①力扣704. 二分查找 解析代码 ②力扣34. 在排序数组中查找元素的第一个和最后一个位置 解析代码 ③力扣69. x 的平方根  解析代码 ④力扣35. 搜索插入位置 解析代码 ⑤力扣852. 山脉数组的峰顶索引 解析代码 ⑥力扣162. 寻找峰值 解析代码 ⑦力扣153. 寻

    2024年02月19日
    浏览(40)
  • 用Python编写一个通用视频播放器:让您观看任何类型的正经视频!

    用Python编写一个通用视频播放器:让您观看任何类型的正经视频! 在这篇文章中,我将向您展示如何使用Python编写一个简单但功能强大的视频播放器。这个播放器将能够处理各种视频文件格式,并提供基本的播放、暂停、停止和进度控制功能。让我们开始吧! 首先,我们需

    2024年02月03日
    浏览(41)
  • 【系统安装】ubuntu20.04启动盘制作,正经教程,小白安装教程,百分百成功安装

    1.所需材料: 64GBU盘(其实8g和16g也可以) 2.制作U盘启动盘 使用windows制作ubuntu 20.04启动盘 1)下载制作工具:Rufus:Rufus - 轻松创建 USB 启动盘 2)插入用来做启动盘的U盘 3)打开Rufus,选择镜像文件,并开始,注意target system选择UEFI 4)写入过程大概会持续4~5分钟 3.启动盘制作

    2024年02月05日
    浏览(59)
  • 用Python做一个软件,你想看的视频可以能看 ~ 当然必须是正经的

    最近很喜欢看一部剧叫《某朝诡事录》,刚开始看前几集真的很喜欢,但是后面的都得要会员,问了周边一圈人,都没有某艺的… 所以,我就自己用Python琢磨出了一个软件,可以直接看这些视频,这就很nice 主要是最近疫情又严重点了,像我这种不打游戏的,只能开启追剧生

    2024年02月02日
    浏览(39)
  • AI 卷到正经「挖矿」业,卡内基科学研究所另辟蹊径,靠关联分析法找到新矿床

    内容一览: 矿物为技术社会提供了重要的原材料,同时也是许多地质事件和古代环境的唯一证据。几个世纪以来,寻找矿产资源以及探寻其起源和分布的基本原理,一直是地质学的主要关注点。近期,美国国家科学院院刊子刊《PNAS Nexus》发布了一篇研究成果,利用机器学习

    2024年02月16日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包