【DASOU视频记录】Transformer从零详细解读-Toy模板网

这篇具有很好参考价值的文章主要介绍了【DASOU视频记录】Transformer从零详细解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

来源

b站链接

transformer的全局理解

输入中文，输出英文
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU 细化容易理解的结构，就是先编码，再解码
进一步细化的结构，就是多个编码器和多个解码器，每个器件的结构一样，但是具体的参数可以不同，参数是独立训练的
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU transformer的具体结构和上面类似

位置编码

分为两部分：

embedding
位置嵌入

多个字，每个字对应一个512维的向量
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

RNN是共享一套W、U、V参数的，所以只能等处理完“我”，才能接下来处理“爱”/“你”，时序的。
而transformer并行处理，则需要位置编码告诉网络，“我爱你”三个字之间的位置关系
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU 原文的位置编码公式
将embedding词向量和位置编码相加
有用的原因

多头注意力机制

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU 原文的公式
可视化例子如图所示，要关注的内容是query，也就是本文中的婴儿，接着，字是k。q和k点乘可以得到相似度。通过qk相乘得到每个部分，最后乘v，权重，得到最终的关注程度
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

如何获取QKV，获得了单词向量之后，将其于qkv大小一个矩阵相乘
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

除以 $\sqrt{d_k}$ ，可以控制方差为一，除以这个是为了防止softmax之后的值太小导致梯度消失

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU
实际使用矩阵

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

多头指的是用多套qkv，也就是会让网络关注到不同子空间的信息

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

残差

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU 残差的意义：传播后的梯度往往因为连乘而消失，加入残差就加入了1，所以可以缓解梯度消失的问题。

Batch Normal

首先了解一下BN和LN的区别：

BN 对不同输入样本在同一个神经元上的值进行归一化
LN 对单个输入样本在同一层的所有神经元的值进行归一化

在NLP中，BN的效果差，所以不用，一般使用LN
在CV中，BN是对一行计算，都是身高特征、都是体重特征等，对一类的特征做归一化是合理的。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU
BN优点

解决内部协变量偏移
缓解了梯度饱和问题（如果使用sigmoid激活函数的话)，加快收敛。

BN缺点

batch_size较小的时候，效果差。
因为BN是用batch_size个样本的均值和方差来模拟所有样本的均值和方差。
BN在RNN中效果比较差。
因为RNN是动态输入的，对于20长度的词，后面空白部分的batch_size就变成1了。

Layer Normal

LayerNorm单独对一个样本的所有单词做缩放可以起到效果。

如下图，LN是认为“我爱中国共产党”,这句话具有同样的语义信息；但是BN认为 “我-今”、“爱-天”这样一对对的具有同样的语义信息，这显然是不合理的
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU
之后就是归一化的向量通过一个前馈神经网络。
整体重新过一遍就是，首先输入，然后输入映射到高纬的embedding，接着加入位置编码，然后加入多头注意力机制，位置编码和多头注意力结果融合，输入归一化，接着进行前馈神经网络，再次归一化。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

Decoder

解码主要分为两步，第一步是mask的多头注意力机制，第二步是进行交互。
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU 第一步中，需要对当前单词和之后的单词做mask
也就是在下图中，因为测试中是不知道后面的词的，所以也要在训练的时候把后面的词隐藏掉。
交互方面
每个encoder的结果要和每个decoder的结果做交互
【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU 具体来说，就是encoder的k、v矩阵和decoder的q矩阵做交互

【DASOU视频记录】Transformer从零详细解读,视频总结,transformer,深度学习,DASOU

通过DASOU的视频，对transformer整体概念和各个知识点都又了一个直观上的概念，接着有助于继续看其他视频，进行更加深度的学习。（本来一开始看霹雳吧的视频，就是没看懂，一上来直接qkv，直接给我干懵了，哈哈哈哈文章来源地址https://www.toymoban.com/news/detail-685360.html

到了这里，关于【DASOU视频记录】Transformer从零详细解读的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！