Transformer 论文学习笔记-Toy模板网

这篇具有很好参考价值的文章主要介绍了Transformer 论文学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

重新学习了一下，整理了一下笔记

论文：《Attention Is All You Need》
代码：http://nlp.seas.harvard.edu/annotated-transformer/
地址：https://arxiv.org/abs/1706.03762v5
翻译：Transformer论文翻译

特点：

提出一种不使用 RNN、CNN，仅使用注意力机制的新模型 Transformer；
只关注句内各 token 之间的关系；
使用矩阵计算长程token之间的关联，提升注意力的计算效率；
使用位置嵌入，为不同位置的token赋予不同的含义。

核心贡献：

Self-Attention

Transformer 的基本结构

Transformer 论文学习笔记,transformer,学习,笔记

如图，其结构主要分为 Encoder 与 Decoder 两部分，基本单元是 Multi-Head Attention、Layer Norm、Residual Connect、Feed Forward Network，其中 Decoder 每一子块的输入处还有一个 Masked Multi-Head Attention。
Encoder 的输出会被送到 Decoder 的每一个子块中。

Self-Attention

Transformer 论文学习笔记,transformer,学习,笔记

$\text{Self-Attention}(K,Q,V)=\text{softmax}(\frac{QK^T}{\sqrt{d}})V$

上图 左侧是 Self-Attention 的计算流程；

从计算图以及共识来看，Self-Attention 是被 $\sqrt{d}$ Scaled 过的，原因是：该因子可以抑制 $QK^T$ 中过大的值，以防止梯度消失现象的出现；

softmax 负责计算概率化的注意力分布，该分布负责在 V 中选择与 Qi 关联度较高的 values；

$QK^T$ 的目的是利用矩阵运算一次性计算出每个 $Q_i$ 与所有 keys 的点积，同理，后面也一次性地为每个 $Q_i$ 筛选出相应的 values。这种方法优点是 Self-Attention 可以无视句中 token 之间的距离，以此获得更高的性能，缺点是计算量庞大；

上图右侧是 Multi-Head Self-Attention 的计算流程，原因是：Multi-Head 增加了特征子空间的数量，使模型能够获取更加丰富的语义信息；

文本信息是有先后顺序的，为了防止 Decoder 在处理 LLM 任务时出现信息向“历史”方向传播的现象，需要对一些与 illegal 连接关联的 values 采用 mask out 的操作，即屏蔽掉（设置为 $-\infin$ ），即只能用前面的token预测后面的token，不能反过来。

Self-Attention 的一个缺点及修补方式

缺点：点积运算无法对序列中 token 出现的位置进行建模，这样会导致模型无法充分地利用数据上下文中所蕴含的丰富的语义信息。
解决方式：引入位置嵌入（Position Embedding、Position Encoding）
$PE_{pos,2i}=\sin(pos/10000^{2i/d_{model}})\\ PE_{pos,2i+1}=\cos(pos/10000^{2i/d_{model}})$