机器学习笔记:李宏毅chatgpt 大模型 & 大资料

这篇具有很好参考价值的文章主要介绍了机器学习笔记:李宏毅chatgpt 大模型 & 大资料。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 大模型

1.1 大模型的顿悟时刻

Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022

模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

这边举的一个例子是,比如让模型回答鸡兔同笼问题 

  • 一开始小模型什么都学不到,故而效果不好 
  • 随着模型参数量增大,模型慢慢地会一定地推导了,但是还是得不到正确的推导结果——此时仍然不得分
  • 只有当参数量达到某一个数值之后,不仅会推导,还得到了正确的答案
  • ——>此时才得分

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

 1.2 inverse scaling prize? U shape

Inverse scaling can become U-shaped 2022

大部分任务是随着模型的变大,效果越来越好,那么有没有某些任务/问题,是模型变大效果反而变差的呢?

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

 

答案是有的,这里列了一些:

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

  

但是,真的是模型参数量变大模型表现反而不好嘛?

 

于是这篇论文进一步扩大模型参数量,发现模型表现跌到一定程度后,还是会涨精度

——>在这些任务中,performace 和参数量的关系是U shape的

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

 

 

而这种带Ushape的任务,这篇论文认为,大多数是“带陷阱(干扰项)”的问题。当模型稍微获得一点能力的时候,就很有可能陷入这个陷阱中。但模型参数量进一步扩大,就会知道这是个“陷阱”,从而找到正确的答案

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

2 大资料

2.1 两种认知

When Do You Need Billions of Words of Pretraining Data?  2020

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

语言模型一般需要两种认知

  • 一种是对语言本身语法、文法的认知(深蓝色曲线)
    • 这一部分不需要很多的语料,有一些资料供学习就够了
  • 另一种是对语言背后世界运行规律的认知
    • 这一部分就需要大量的语料喂入了

2.2 数据处理

Scaling Language Models: Methods, Analysis & Insights from Training Gopher 2021
如何收集这些资料呢?

 机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

  • 过滤有害内容(比如黄色、暴力的内容)
  • 去除HTML tag
    • 从网站上爬资料的话,会有很多无用的HTML 语言
    • 但是也不是所有的HTML tag都去掉,会保留一些如换行符等有用的知识
  • quality filtering
    • 在论文中有详细的规则,介绍了如何去除低品质资料
  • 去除重复资料
    • 后面会有论文专门说重复资料的影响
  • test-set filter
    • 需要把用来测试的那一部分语料去掉,不然就相当于提前学了这一部分内容,导致测试结果不准

2.3 重复数据的影响

Deduplicating Training Data Makes Language Models Better 2021
机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能
  • 比如如上的语料库中,中间这一段话出现了6W多次 
  • 我们分不同的层级,去除掉语料库中重复的部分,然后喂入语言模型,让语言模型随便说一段话。
    • 将这一段话和语料库进行对比,看看模型是学习了语料库中的内容,生成了新的语句,还是仅仅死记硬背了语料库中的内容
    • 表格中的数字就是有多少比例生成的语句是和语料库中的语句极为相似
  • 可以发现如果语料库中重复的语句过多,机器很容易直接复述之前的内容

2.4 固定的计算资源下,应该更大的模型,还是更多的资料?

Training Compute-Optimal Large Language Models 2022

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

  • 每一条虚线都表示具有相同的运算资源
  • 纵轴表示预测的效果(Loss),越小表示预测的越好
  • 横轴表示模型参数量
  • 可以看到 小模型大资料 和 大模型小资料 效果都不如一个折衷的配置
    • 小模型大资料:看了很多资料,  但是不学习(学而不思)
    • 大模型小资料:思而不学

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

  •  于是论文把所有计算资源配置下的,各个U型曲线的最低点找到,然后进行外推
  • 得到一个和Gopher计算资源一样的情况下,模型参数和资料的最佳配置组合(命名为Chinchilla)

 

机器学习笔记:李宏毅chatgpt 大模型 & 大资料,机器学习,笔记,人工智能

 可以发现Chinchilla几乎完胜文章来源地址https://www.toymoban.com/news/detail-644473.html

到了这里,关于机器学习笔记:李宏毅chatgpt 大模型 & 大资料的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

     求解最小Loss的失败,不能得到最优的值,找不到Loss足够小的值。  1.Loss关于参数的梯度为0,不能继续更新参数。(local minima 或者 saddle point) 如何知道走到了哪个点?  利用泰勒展开:   Critical Point 的一阶导数为 0 。    举例子( Example ):    不需要担心 Saddle Point ,

    2023年04月09日
    浏览(50)
  • ChatGPT 使用 拓展资料:无需任何机器学习,如何利用大语言模型做情感分析?

    ChatGPT 拓展资料:无需任何机器学习,如何利用大语言模型做情感分析? 用于从文本数据中识别情感 Glove Vectors:

    2023年04月25日
    浏览(51)
  • 机器学习李宏毅学习笔记39

    大模型+大资料 大模型的顿悟时刻 随数据量增加,模型可以从量变达到质变,从某一刻开始突然学会东西。 当成为大模型时,分数会从0,0突然变成100,完成“顿悟”. 横轴表示分布中产生答案的概率(信心分数),纵轴表示答案正确的概率。可以发现小模型的信心分数跟答案

    2024年02月14日
    浏览(74)
  • 机器学习李宏毅学习笔记33

    神经网络压缩(一) 类神经网络剪枝(pruning) 简化模型,用比较少的参数,但让效能差不多,这就是network compression这件事。有些情况下需要把模型用在resource constrain(资源有限)的情况下,比如说跑在智能手表上、小型无人机上等等。只有比较少的内存和计算能力,这时就

    2024年02月11日
    浏览(87)
  • 机器学习李宏毅学习笔记37

    ChatGPT简单原理介绍 Chatgpt以句子为输入,输出这个句子后面接的词汇的概率分布,给每一个可能的符号一个概率,根据这个分布进行sample,每次sample出来的词汇可能都是不一样的,所以答案每次也都不相同。把输出的词汇加在输入给gpt的句子后面,重复上面的过程,直到最后

    2024年02月16日
    浏览(39)
  • 李宏毅《机器学习 深度学习》简要笔记(一)

    一、线性回归中的模型选择 上图所示: 五个模型,一个比一个复杂,其中所包含的function就越多,这样就有更大几率找到一个合适的参数集来更好的拟合训练集。所以,随着模型的复杂度提高,train error呈下降趋势。 上图所示: 右上角的表格中分别体现了在train和test中的损

    2024年01月25日
    浏览(43)
  • 机器学习笔记:李宏毅 stable diffusion

     ①:文字变成向量  ②:喂入噪声+文字encoder,产生中间产物  ③:decoder 还原图片  这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多  现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation 这两组表征的分布越近,效

    2024年02月13日
    浏览(53)
  • 李宏毅机器学习课程笔记(更新ing)

    basic Why deep not fat model? 当需要拟合的pattern复杂度很高时,deep model需要的参数量远低于fat model(指数组合与线性组合)。 另外当pattern复杂且有规律时(语音、图像、NLP),deep model通常表现好于fat model。 CNN 为什么AlphaGo可以用CNN?棋盘抽象成图片时需要注意什么? 首先图片有

    2024年02月10日
    浏览(41)
  • 李宏毅机器学习笔记:结构学习,HMM,CRF

    什么是Seq2Seq问题呢?简单来说,就是输入是一个序列,输出也是一个序列。输入和输出的序列可以相等,也可以不相等。在本文中,可以先假设输入输出序列相等。 这里用了一个通俗易懂的例子来解释HMM模型,POS tagging,词性标注。 PN表示专有名词Proper Noun V表示动词 D 定冠

    2024年02月11日
    浏览(42)
  • 李宏毅机器学习笔记:RNN循环神经网络

    例如情景补充的情况,根据词汇预测该词汇所属的类别。这个时候的 Taipi 则属于目的地。但是,在订票系统中, Taipi 也可能会属于出发地。到底属于目的地,还是出发地,如果不结合上下文,则很难做出判断。因此,使用传统的深度神经网络解决不了问题,必须引入RNN。 如

    2024年02月10日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包