【DASOU视频记录】Transformer从零详细解读

这篇具有很好参考价值的文章主要介绍了【DASOU视频记录】Transformer从零详细解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

来源

b站链接

transformer的全局理解

输入中文,输出英文
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU细化容易理解的结构,就是先编码,再解码
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU进一步细化的结构,就是多个编码器和多个解码器,每个器件的结构一样,但是具体的参数可以不同,参数是独立训练的
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOUtransformer的具体结构和上面类似
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

位置编码

分为两部分:

  1. embedding
  2. 位置嵌入

多个字,每个字对应一个512维的向量
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

RNN是共享一套W、U、V参数的,所以只能等处理完“我”,才能接下来处理“爱”/“你”,时序的。
而transformer并行处理,则需要位置编码告诉网络,“我爱你”三个字之间的位置关系
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU原文的位置编码公式
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU将embedding词向量和位置编码相加
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU有用的原因
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

多头注意力机制

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU原文的公式
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU可视化例子如图所示,要关注的内容是query,也就是本文中的婴儿,接着,字是k。q和k点乘可以得到相似度。通过qk相乘得到每个部分,最后乘v,权重,得到最终的关注程度
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

如何获取QKV,获得了单词向量之后,将其于qkv大小一个矩阵相乘
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

除以 d k \sqrt{d_k} dk ,可以控制方差为一,除以这个是为了防止softmax之后的值太小导致梯度消失

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU
实际使用矩阵

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

多头指的是用多套qkv,也就是会让网络关注到不同子空间的信息

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

残差

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU残差的意义:传播后的梯度往往因为连乘而消失,加入残差就加入了1,所以可以缓解梯度消失的问题。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

Batch Normal

首先了解一下BN和LN的区别:

  • BN 对不同输入样本在同一个神经元上的值进行归一化
  • LN 对单个输入样本在同一层的所有神经元的值进行归一化

在NLP中,BN的效果差,所以不用,一般使用LN
在CV中,BN是对一行计算,都是身高特征、都是体重特征等,对一类的特征做归一化是合理的。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU
BN优点

  1. 解决内部协变量偏移
  2. 缓解了梯度饱和问题(如果使用sigmoid激活函数的话),加快收敛。

BN缺点

  1. batch_size较小的时候,效果差。
    因为BN是用batch_size个样本的均值和方差来模拟所有样本的均值和方差。
  2. BN在RNN中效果比较差。
    因为RNN是动态输入的,对于20长度的词,后面空白部分的batch_size就变成1了。
    【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

Layer Normal

LayerNorm单独对一个样本的所有单词做缩放可以起到效果。

如下图,LN是认为“我爱中国共产党”,这句话具有同样的语义信息;但是BN认为 “我-今”、“爱-天”这样一对对的具有同样的语义信息,这显然是不合理的
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU
之后就是归一化的向量通过一个前馈神经网络。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU整体重新过一遍就是,首先输入,然后输入映射到高纬的embedding,接着加入位置编码,然后加入多头注意力机制,位置编码和多头注意力结果融合,输入归一化,接着进行前馈神经网络,再次归一化。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

Decoder

解码主要分为两步,第一步是mask的多头注意力机制,第二步是进行交互。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU第一步中,需要对当前单词和之后的单词做mask
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU也就是在下图中,因为测试中是不知道后面的词的,所以也要在训练的时候把后面的词隐藏掉。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU交互方面
每个encoder的结果要和每个decoder的结果做交互
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU具体来说,就是encoder的k、v矩阵和decoder的q矩阵做交互

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

通过DASOU的视频,对transformer整体概念和各个知识点都又了一个直观上的概念,接着有助于继续看其他视频,进行更加深度的学习。(本来一开始看霹雳吧的视频,就是没看懂,一上来直接qkv,直接给我干懵了,哈哈哈哈文章来源地址https://www.toymoban.com/news/detail-685360.html

到了这里,关于【DASOU视频记录】Transformer从零详细解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 详细理解(学习笔记) | DETR(整合了Transformer的目标检测框架) DETR入门解读以及Transformer的实操实现

    DETR ,全称 DEtection TRansformer,是Facebook提出的基于Transformer的端到端目标检测网络,发表于ECCV2020。 原文: 链接 源码: 链接 DETR 端到端目标检测网络模型,是第一个将 Transformer 成功整合为检测pipline中心构建块的目标检测框架模型。基于Transformers的端到端目标检测,没有NMS后

    2024年02月04日
    浏览(56)
  • Transformer的Q、K、V和Mutil-Head Self-Attention(超详细解读)

    目录 一.什么是Q、K、V 二.Mutil-Head Self-Attention Transformer大行其道,在众多领域取得了不可忽视的成就。如今大火的语言大模型LLM也都是基于Transformer,但是Transformer中的Q、K、V和多头注意力到底是什么呢?这里简单做个学习记录,进行再一次认识和掌握。 Transformer中的Q、K和

    2024年02月06日
    浏览(32)
  • 详细解读开源版Sora视频生成模型Latte

    Diffusion Models专栏文章汇总:入门与实战 前言 :OpenAI的视频生成模型Sora一经发布就广受全世界的瞩目,上海人工智能实验室最近推出了一个基于Diffusion Transformer的结构的模型Latte,堪称最接近Sora原理的视频生成模型。这篇博客就详细解读Latte,并从中窥探Sora的神秘面纱。 目

    2024年04月14日
    浏览(45)
  • 解读Stable Video Diffusion:详细解读视频生成任务中的数据清理技术

    Diffusion Models视频生成-博客汇总 前言 :Stable Video Diffusion已经开源一周多了,技术报告《Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets》对数据清洗的部分描述非常详细,虽然没有开源源代码,但是博主正在尝试复现其中的操作。这篇博客先梳理一下Stable Video

    2024年02月04日
    浏览(82)
  • Ubuntu 22.04从零开始安装Openpcdet 0.6.0——详细记录过程(含4090+CUDA11.8)

    A、云平台安装和本地安装的差异: 之前在几个 云平台 上的1w算力豆已经用光了,所以这次本地选择 本地安装Pcdet 。 两者安装过程 有很大差异,因为 九天毕昇云平台 使用的是CUDA10.1,且没办法改动,导致pcdet 只能安装0.3.2,且只能选择较低的版本的第三方库:torch1.6.0,sp

    2024年02月16日
    浏览(50)
  • PyTorch从零开始实现Transformer

    计算公式 代码实现 我们把Transfomer块定义为如下图所示的结构,这个Transformer块在编码器和解码器中都有出现过。 代码实现 编码器结构如下所示,Inputs经过Input Embedding 和Positional Encoding之后,通过多个Transformer块 代码实现 解码器块结构如下图所示 代码实现 解码器块加上wor

    2024年02月16日
    浏览(41)
  • ViT(Version Transformer)原始论文解读

    paper:2010.11929.pdf (arxiv.org) code:google-research/vision_transformer (github.com) 期刊/会议:ICLR 2020 虽然Transformer体系结构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉方面的应用仍然有限。在视觉上,注意力要么与卷积网络结合应用,要么用于替换卷积网络的某些组件

    2024年02月15日
    浏览(44)
  • 【NLP】温和解读:transformer的核心思想

    变压器模型及其关键组件的概述。         在这篇博文中,我将讨论本世纪最具革命性的论文“注意力是你所需要的一切”(Vaswani et al.)。首先,我将介绍自我注意机制,然后介绍

    2024年02月16日
    浏览(32)
  • 17.基干模型Swin-Transformer解读

    欢迎访问个人网络日志🌹🌹知行空间🌹🌹 Swin-Transformer是 2021 年 03 月微软亚洲研究院提交的论文中提出的,比 ViT 晚了半年左右,相对于 ViT 而言, Swin-Transformer 的改进,使 transformer 能作为新的视觉任务 backbone ,用于分类分割和检测,姿态估计等任务。 论文:https://arxiv

    2024年02月06日
    浏览(41)
  • Transformer实现以及Pytorch源码解读(四)-Encoder层

    先放一张原论文中的图。从inputs到Poitional Encoding在前三部分中已经分析清楚,接下来往后分析。 Pytorch将图1中左半部分的神经网络层用一个TransformerEncdoer(encoder_layer,num_layers)类进行封装,该类的传参有两个:TransformerEncoderLayer(encoder_layer)和堆叠的层数(num_layers)。 接下来逐一

    2023年04月27日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包