nlp大模型课程笔记

这篇具有很好参考价值的文章主要介绍了nlp大模型课程笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

自然语言处理基础和应用

nlp大模型课程笔记,自然语言处理,笔记,人工智能nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能
👆说明之前的大模型其实有很多都是基于迁移学习的方法。
nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能

attention机制的总结,解决了信息瓶颈的问题。
nlp大模型课程笔记,自然语言处理,笔记,人工智能
处理词组时BPE的过程
nlp大模型课程笔记,自然语言处理,笔记,人工智能
👆pos表示的是token所在的位置
nlp大模型课程笔记,自然语言处理,笔记,人工智能
👆技巧是layer normalization。nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能

prompt

nlp大模型课程笔记,自然语言处理,笔记,人工智能

参数高效微调方法

nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能
大多数的模型做的都是基座模型、不一定具备对话能力。
一般会通过基座模型,然后微调成对话模型。(难度很大)
大多数自己做的模型,都是根据已经训练成功的对话模型再微调。
nlp大模型课程笔记,自然语言处理,笔记,人工智能
👆语言没有sql、因为sql的语言不通用。

数据集分类

nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能
👆总结,虽然大模型效果会好,但是到一定程度会有瓶颈。nlp大模型课程笔记,自然语言处理,笔记,人工智能
分词类型描述👆
由于显卡的存储是有限的,所以并行是非常有必要的👇
nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能
👆大模型里用的最多的是量化!!!!
nlp大模型课程笔记,自然语言处理,笔记,人工智能
8位整数表达64位浮点数,内存空间减少到只有原来的1/8。
浮点数变成整数叫量化、浮点数变成整数叫做反量化。

常见的量化方法

nlp大模型课程笔记,自然语言处理,笔记,人工智能

Vim用transformer做图像分类

nlp大模型课程笔记,自然语言处理,笔记,人工智能
这个模型完全没用cnn,把内容和位置同时加到一个向量,在第一个向量模仿bert做了一个cls。

文本微调

nlp大模型课程笔记,自然语言处理,笔记,人工智能
以上是讲授的微调技术。
nlp大模型课程笔记,自然语言处理,笔记,人工智能

在nlp领域的一些基础的预训练模型👆

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆为nlp一些常见的任务nlp大模型课程笔记,自然语言处理,笔记,人工智能

bert类预训练模型所用的一些微调的方法

nlp大模型课程笔记,自然语言处理,笔记,人工智能

GPT刚开始的微调是通过最后的全连接层+一个softmax来实现的nlp大模型课程笔记,自然语言处理,笔记,人工智能

因为模型太大了微调基本不好实现👆说了一种方法叫做in-context learning 先给几个翻译例子给模型,然后模型对于下面的例子做到的效果就比较好,很玄学。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

大模型模型越大效果越好,可使用的范围也会变大。nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆中的调查结果显示现在的1billion以上的大模型的使用率还是很低的。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

现在所用的大模型的调试有两种思路

1、通过prompt-learning进行调试
2、用delta tuning 通过 调试一小部分(0.1%或0.01%)来进行全面的微调。
nlp大模型课程笔记,自然语言处理,笔记,人工智能

没使用prompt之前,是通过👆预训练模型进行单词的预测,fine-tuning来进行分类的预测,两种方法区别较大。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

把预训练模型加词,这样就把两种方法所做的事情联系起来了。👆,通过你prompt所加的词(it‘s 、it can do,it‘s longth is small/big)的不同,就可以把他看作是不同的分类。bert(双向attention)是用来做‘生成’的 ,但用这种token生成的方式也可以做‘分类’,gpt是做‘生成’的,现在也可以这样处理让他做‘理解’。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆的例子就是用bert做情感分类(bert双向注意力机制刚开始的目的是用来做‘理解’)。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

GPT正常是做预测👆

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆bert做理解

nlp大模型课程笔记,自然语言处理,笔记,人工智能

通过一些template可以实现一些人类逻辑的理解👆

template

nlp大模型课程笔记,自然语言处理,笔记,人工智能

template还可以做一些实体类型词的指定,这样可以更直接的提取信息。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

分结构的template👆通过键值对的方式来提醒模型应该是从哪个方面去选择。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

在机器学习的时候可能会做很多特征工程,在大模型现在这种状态,可能会做更多的提示工程(prompt engineering)。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆模型生成什么样的template,还是取决于我们对于处理template的策略。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆NLU(Natural Language Understanding)

"prompt"是一种用于引导模型生成输出的输入形式,而"data point"是机器学习中的一个基本单位,包含输入和输出。在某些情况下,prompt可以被视为一种特殊类型的数据点。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

在上述这篇论文中说一个prompt大概等于50个data point。

prompt-learning: Verbalizer

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆其实是做的对于answer的答案进行分类,Mapping,通过计算给出词的概率,答案类别,可以是一个词或多个词,一个字符串,一个任意长的句子。verbalizer可以人为的去构造也可以自动的去生成。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

怎么去用好对于verbalizer的问题是一个很需要研究的问题

nlp大模型课程笔记,自然语言处理,笔记,人工智能

prompt的institution是定义把预训练和下游任务之间的gap给弥补回来,通过额外的上下文提示去告诉模型怎么去做。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

nlp大模型课程笔记,自然语言处理,笔记,人工智能

在预训练模型时加入prompt👆nlp大模型课程笔记,自然语言处理,笔记,人工智能

在预训练中进行prompt👇

nlp大模型课程笔记,自然语言处理,笔记,人工智能

PLM(Pre-trained Language Model)

👆所说的是,通过对一个120B的PLM进行六十个任务训练,训练的是一个auto-regressive的模型,每个任务在给出文本的时候给出问题,然后在问题的回答的时候给出OPTION提示,达到预训练的目的。这样在下一个给出的推理问题的时候,给出提示之后,通过之前训练的范式,也会有很好的理解语义的效果。

👆有一个特别引人深思的现象,80B之前的训练没有很好的效果,但是在80亿参数之后,突然对于这种理解类的效果特别好。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

上述任务是通过很多类型的prompt训练模型之后,用一个新的任务,理解也会很好。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆这个像1750亿级别的GPT3都没法在特定领域训练效果很好,但是如果用prompt-learning可能在较小的模型中针对性训练就可以效果很好。

Delta Tuning

只优化其中很小部分的参数,就能达到很好的效果。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

对于fine-tuning可能同时调100多个任务,内存要求极高不可能实现,但是对于Delta tuning可能只需要每个人物抽取一部分Objects,几十兆或几百兆,就能达到不错的效果。但是技术点也有很多,Delta数据怎么选,模型怎么选,怎么进行tuning优化。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

为什么Delta Tuning有效(work)呢,因为预训练模型的基础让模型的知识训练量到达了一定程度的规模👇

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆有一个说法非常理解:tuning更多的是去“激发”model学到的知识。

增量式:插入参数。

指定式(替换):哪些可训练,哪些不可训练。

重参数化式:用低秩的矩阵来代替模型完成微调。nlp大模型课程笔记,自然语言处理,笔记,人工智能

adapter-Tuning

1、增量式nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆里面在进入transformer的时候加一个adapter 层,到时候训练的时候就只更改adapter层 只用整体变量的很小一部分。0.5%~8%。nlp大模型课程笔记,自然语言处理,笔记,人工智能

由于adapter的正向传播和反馈都得经过各个层变量,所以上述方法提供了一个方法,把adapter提出来做单独的训练,这样显存和内存使用的情况都少了很多,速度也会变快,非常巧妙。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

在进transformer之前加一些prefixs,增加变量进行一定的微调训练。👆

nlp大模型课程笔记,自然语言处理,笔记,人工智能

2、指定式nlp大模型课程笔记,自然语言处理,笔记,人工智能

3、重参数化式

在前面已经讲过了,只在输入层加入一些embeddings

nlp大模型课程笔记,自然语言处理,笔记,人工智能

把120个任务压缩到一个低维的子空间里进行tuning👆nlp大模型课程笔记,自然语言处理,笔记,人工智能

把模型的矩阵参数认为是低秩的(其实不是)。

prefix-tuning、adapter、LoRA结合起来使用

nlp大模型课程笔记,自然语言处理,笔记,人工智能

Delta-tunning的联系👇

nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能

把tunning解释成:在离散状态下寻找最优控制器的过程。

nlp大模型课程笔记,自然语言处理,笔记,人工智能

其实通过图中可以发现,当模型为XXL时,各种调试方法的结果都会特别好。👆

以上的各种微调的方法,还是在进行人为的选择方法中来进行的,下面说一种可以人为选择的方法,在每个可定义优化的地方加上开关,进行Automatically search the structure。

nlp大模型课程笔记,自然语言处理,笔记,人工智能
nlp大模型课程笔记,自然语言处理,笔记,人工智能

提出了一种共享tuning的想法,把这些Delta-Tuning的调试模型都放在一个平台用来使用👆

这些Delta-tuning的方法就会使可以在一些平民化的GPU上面也可以进行训练使用,方便对于技术的下游实现应用。👇

nlp大模型课程笔记,自然语言处理,笔记,人工智能

👆这里有个细节,就是对于batch size大的情况效率会变慢,因为显存的占有空间都用在了对于训练的数据的储存,对于变量的计算速度会变慢。

Delta Tuning Summary

nlp大模型课程笔记,自然语言处理,笔记,人工智能

现有的tuning的方法,都在有一个验证的趋势,就是当模型变大之后,tuning的具体方法(prompt、delta、prefix)就有可能变得不重要。

nlp大模型课程笔记,自然语言处理,笔记,人工智能文章来源地址https://www.toymoban.com/news/detail-674549.html

相关论文👆

到了这里,关于nlp大模型课程笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 第九课:机器学习与人工智能、计算机视觉、自然语言处理 NLP及机器人

    各位小伙伴想要博客相关资料的话关注公众号:chuanyeTry即可领取相关资料! 以区分飞蛾为例: 标记数据如下。 虚线为决策边界如下。 右下角表为混淆矩阵。 本质上是用任意线段来切分决策空间,不一定是直线。 不用统计学的算法。模拟人类学习的过程,将数据进行加权求

    2024年02月03日
    浏览(91)
  • 自然语言处理 Paddle NLP - 预训练语言模型及应用

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月08日
    浏览(64)
  • 【自然语言处理(NLP)】基于ERNIE语言模型的文本语义匹配

    作者简介 :在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC)志愿者,以及编程爱好者,期待和大家一起学习,一起进步~ . 博客主页 : ぃ灵彧が的学习日志

    2024年02月10日
    浏览(47)
  • 2023年!自然语言处理(NLP)10 大预训练模型

    来源: AINLPer 公众号 (每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2022-10-23 语言模型是构建NLP应用程序的关键。现在人们普遍相信基于预训练模型来构建NLP语言模型是切实有效的方法。随着疫情阴霾的散去,相信NLP技术会继续渗透到众多行业中。在此过程中,肯定有很

    2024年02月16日
    浏览(45)
  • 【人工智能】NLP自然语言处理领域发展史 | The History of Development in Natural Language Processing (NLP) Field

    自然语言处理(Natural Language Processing,NLP)是人工智能(AI)领域的重要分支,旨在让计算机能够理解、处理和生成自然语言,如英语、汉语等。本文将介绍NLP领域的发展历史和里程碑事件。

    2024年02月07日
    浏览(50)
  • 自然语言处理 Paddle NLP - 基于预训练模型完成实体关系抽取

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月10日
    浏览(36)
  • 【人工智能124种任务大集合】-集齐了自然语言处理(NLP),计算机视觉(CV),语音识别,多模态等任务

    大家好,我是微学AI,今天给大家介绍一下人工智能124种任务大集合,任务集合主要包括4大类:自然语言处理(NLP)、计算机视觉(CV)、语音识别、多模态任务。 我这里整理了124种应用场景任务大集合,每个任务目录如下: 句子嵌入(Sentence Embedding):将句子映射到固定维

    2024年02月13日
    浏览(48)
  • 7个顶级开源数据集来训练自然语言处理(NLP)和文本模型

    推荐:使用 NSDT场景编辑器快速助你搭建可二次编辑的3D应用场景 NLP现在是一个令人兴奋的领域,特别是在像AutoNLP这样的用例中,但很难掌握。开始使用NLP的主要问题是缺乏适当的指导和该领域的过度广度。很容易迷失在各种论文和代码中,试图吸收所有内容。 要意识到的是

    2024年02月13日
    浏览(43)
  • 人工智能LLM大模型:让编程语言更加支持自然语言处理

    作者:禅与计算机程序设计艺术 作为人工智能的核心技术之一,自然语言处理 (Natural Language Processing, NLP) 已经在各个领域得到了广泛应用,如智能客服、智能翻译、文本分类等。而机器学习 (Machine Learning, ML) 模型是实现自然语言处理的主要工具之一,其中深度学习 (Deep Lear

    2024年02月15日
    浏览(43)
  • 【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解

    Bert模型的输入 context 张量需要满足以下要求: 张量形状: context 应为二维张量,形状为 [batch_size, sequence_length] ,其中 batch_size 是输入样本的批量大小, sequence_length 是输入序列的长度。 数据类型: context 的数据类型应为整数类型,如 torch.LongTensor 。 值范围: context 中的值应

    2024年02月11日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包