深度学习笔记之Transformer(四)铺垫：LayerNormalization-Toy模板网

这篇具有很好参考价值的文章主要介绍了深度学习笔记之Transformer(四)铺垫：LayerNormalization。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

在介绍 $\text{Transformer}$ 模型架构之前，首先介绍 $\text{Transformer}$ 的核心架构之一：层标准化 $(\text{Layer Normalization})$ 。

回顾：批标准化

问题描述

批标准化 $(\text{Batch Normalization})$ 我们在正则化系列中介绍过这个概念。批标准化主要针对两个问题：

各层输出特征的偏移问题与梯度消失问题。
这里以一个局部的神经网络为例：
为简单起见，这里各隐藏层 $\cdots,k-1,k$ 均仅包含一个神经元。

其中，关于该局部神经网络的前馈计算过程表示如下：
其中 $\sigma$ 表示激活函数。
$\begin{aligned} \mathcal Y = f(\mathcal W) & = \underbrace{\sigma \left\{[\mathcal W_{\mathcal K+1}]^T h_{\mathcal K} + b_{\mathcal K+1}\right\}}_{\text{Output Layer}} \\ & = \sigma \left\{[\mathcal W_{\mathcal K+1}]^T \underbrace{\sigma\left[(\mathcal W_{\mathcal K})^T h_{\mathcal K-1} + b_{\mathcal K-1}\right]}_{\text{Layers } \mathcal K} + b_{\mathcal K+1} \right\} \\ & = \cdots \end{aligned}$
如果使用梯度下降法 $(\text{Gradient Descent,GD})$ 更新权重，需要计算各时刻权重的梯度信息。假设关于 $\mathcal Y$ 的损失函数表示为 $\mathcal J(\mathcal W)$ ，关于隐藏层 $\mathcal K$ 的权重 $\mathcal W_{\mathcal K}$ 在 $t + 1$ 时刻的更新过程表示如下：
其中 $\eta$ 表示学习率 $(\text{Learning Rate})$ 。
$\mathcal W_{\mathcal K}^{(t+1)} \Leftarrow \mathcal W_{\mathcal K}^{(t)} - \eta \cdot \nabla_{\mathcal W_{\mathcal K}} \mathcal J(\mathcal W)$
根据上述的局部神经网络，关于 $\mathcal W_{\mathcal K}$ 在 $t$ 时刻的梯度信息 $\nabla_{\mathcal W_{\mathcal K}} \mathcal J(\mathcal W)$ 在反向传播过程的梯度表示如下：
其中 $\mathcal Z_{\mathcal K+1} = (\mathcal W_{\mathcal K+1})^T h_{\mathcal K} + b_{\mathcal K + 1}$ ,以此类推 $\mathcal Z_{\mathcal K},\mathcal Z_{\mathcal K - 1},\cdots$
$\begin{aligned} \nabla_{\mathcal W_{\mathcal K}} \mathcal J(\mathcal W) & = \frac{\partial \mathcal J(\mathcal W)}{\partial \mathcal W_{\mathcal K}} \\ & = \frac{\partial \mathcal J(\mathcal W)}{\partial \mathcal Y} \cdot \frac{\partial \mathcal Y}{\partial \mathcal Z_{\mathcal K + 1}} \cdot \frac{\partial \mathcal Z_{\mathcal K + 1}}{\partial h_{\mathcal K}} \cdot \frac{\partial h_{\mathcal K}}{\partial \mathcal Z_{\mathcal K}} \cdot \frac{\partial \mathcal Z_{\mathcal K}}{\partial \mathcal W_{\mathcal K}} \\ & = \frac{\partial \mathcal J(\mathcal W)}{\partial \mathcal Y} \cdot \sigma'(\mathcal Z_{\mathcal K + 1}) \cdot (\mathcal W_{\mathcal K+1})^T \cdot \sigma'(\mathcal Z_{\mathcal K}) \cdot h_{\mathcal K - 1} \end{aligned}$
很明显，我们发现：在计算 $\mathcal W_{\mathcal K}$ 梯度计算的过程中，我们使用到了 $\mathcal W_{\mathcal K+1}$ 参与运算。
同理，如果是更深层的权重，例如前馈计算过程的第 $1$ 个权重 $\mathcal W_1$ ，它的反向传播过程会涉及到后续隐藏层的所有权重信息：
其中 $\mathcal X$ 表示输入特征信息，它不会更新梯度信息。
$\nabla_{\mathcal W_1} \mathcal J(\mathcal W) = \frac{\partial \mathcal J(\mathcal W)}{\partial \mathcal Y} \cdot \prod_{k = 1}^{\mathcal K+1} \sigma'(\mathcal Z_k) \cdot \prod_{k=2}^{\mathcal K} \mathcal W_{k} \cdot \mathcal X$
这会导致：随着反向传播的加深，每一层的权重变化会得到累积，从而使深层网络中权重的偏移程度越大。

继续观察上式，影响梯度 $\nabla_{\mathcal W_1}\mathcal J(\mathcal W)$ 不仅包含各层权重的累积项，还包含各层输出激活函数的导数项 $\begin{aligned}\prod_{k=1}^{\mathcal K + 1} \sigma'(\mathcal Z_k)\end{aligned}$ 。在介绍激活函数时我们提到它是一个尽量对于变化量小的值维持恒等映射情况下的非线性函数：
- 在反向传播过程中，恒等映射部分几乎不是我们关注的对象，因为他们的梯度值较大，甚至无限趋近于 $1$ (因而丢失的梯度信息较小甚至不会丢失梯度信息)。
- 但非线性较强的部分(饱和区)甚至是常数近似区(例如 $\text{Sigmoid}$ 激活函数)，映射到该部分的特征梯度结果很小甚至趋近于 $0$ ，这导致在连乘计算 $\nabla_{\mathcal W_1}\mathcal J(\mathcal W)$ 过程中，没有办法将更新信息影响到更深层的权重中，这是一种梯度消失现象。
关于梯度信息比例不平衡问题：
假设某样本集 $\mathcal X$ 存在两类随机变量： $x_1,x_2$ ，我们使用神经网络对样本 $x^{(i)} \in \mathcal X$ 进行描述：

关于神经网络中权重 $\mathcal W_1,\mathcal W_2$ 的梯度表示为如下形式：
$\begin{cases} \begin{aligned} \frac{\partial \mathcal Y}{\partial \mathcal W_1} & = \frac{\partial \mathcal Y}{\partial \mathcal Z} \cdot \frac{\partial \mathcal Z}{\partial \mathcal W_1} = \sigma'(\mathcal Z) \cdot x_1 \\ \frac{\partial \mathcal Y}{\partial \mathcal W_2} & = \frac{\partial \mathcal Y}{\partial \mathcal Z} \cdot \frac{\partial \mathcal Z}{\partial \mathcal W_2} = \sigma'(\mathcal Z) \cdot x_2 \end{aligned} \end{cases}$
由于反向传播 $\mathcal W_1,\mathcal W_2$ 共用相同的 $\mathcal Z$ ，因此将 $\sigma'(\mathcal Z)$ 视作常数，从而两梯度之间的差异性归结在 $x_1,x_2$ 上面。首先，我们不否认 $x_1,x_2$ 可能是线性无关的，甚至是两两正交的。但是需要注意的是：它们描述的信息可能是天差地别的。

例如两个随机变量一个表示身高(单位:米)，一个表示年龄(单位:岁)。两者之间关联性明显不大，但是二者的取值范围相差较大。如下图：
身高的范围一般情况下可能是 $(0, 2)$ ;年龄的范围可能是 $(0, 80)$ (示例)

上图描述的是样本的特征空间，也是 $\mathcal W_1,\mathcal W_2$ 的梯度映射空间 $\begin{aligned}\frac{\partial \mathcal Z}{\partial \mathcal W_1},\frac{\partial \mathcal Z}{\partial \mathcal W_2}\end{aligned}$ ，其中等高线表示损失函数，对应的红色区域表示损失函数的最优解区域。由于两特征的映射范围差别很大，导致等高线不规则程度也很大。

在权重初始化时，空间中的任意一点都有可能是权重点的初始化位置。这导致：不同位置的权重点，其收敛代价可能不同：

如 $r_1$ 这种距离最优解区域较近的点，由于其位置更加陡峭，使用较小的学习率仅在有限的步骤之内即可达到最优解；
相反，如 $r_2$ 这种距离最优解区域较远的点，并且位置较为平滑，这可能导致较小学习率无法使其收敛(或者收敛方向不稳定)，如果使用较大学习率，可能会更容易逃离平滑区域，但在最优解区域中可能会产生震荡现象而无法获取最优解。
并且 $r_2$ 同样会出现这种情况，并且因 $r_2$ 的位置、陡峭程度导致其更容易出现这种现象。

因而最终仅能通过权衡选择一个尽量使 $r_1$ 不出现震荡的情况下，选择一个使 $r_2$ 收敛最快的学习率。但它明显不是最优解，因为我们希望它们都收敛得又快又好。

问题处理

关于批标准化公式表示如下：

首先对样本执行中心化，就使将分布平移至特征空间原点位置；
$x^{(i)} - \mu_{\mathcal B} \quad \mu_{\mathcal B} = \frac{1}{N}\sum_{i=1}^Nx^{(i)}$
将中心化后得结果除以分布的方差信息，从而将各维度分布方差结果压缩至 $1$ 。
个人错觉纠误:即便各维度特征分布’均在原点附近，并且其方差为 $1$ ,但和‘各维度分布相同’不是同一个概念。这个‘压缩’后的分布依然保持着对应特征分布的原始形状，只不过位置和大小通过规则进行约束。
$\begin{cases} \begin{aligned} \sigma_{\mathcal B} & = \sqrt{\epsilon + \frac{1}{N} \sum_{i=1}^N(x^{(i)} - \mu_{\mathcal B})^2} \\ \hat x^{(i)} & = \frac{x^{(i)} - \mu_{\mathcal B}}{\sigma_{\mathcal B}} \\ y^{(i)} & = \gamma \hat{x}^{(i)} + \beta \end{aligned} \end{cases}$

首先解决的第一个问题：关于特征空间中的所有随机点，它的梯度比例均保持平衡状态。观察下图：
深度学习笔记之Transformer(四)铺垫：LayerNormalization,深度学习,深度学习,笔记,transformer
此时，无论是 $r_1$ 还是 $r_2$ ，均能够以相同代价取得最优解。基于此，我们可以降低学习率，得到更精确的最优解。

第二个问题：权重空间偏移与梯度消失问题。

首先，在初始反向传播的过程中，由于分布被压缩并约束在特定位置 $(0)$ ，导致权重信息不会发生较大偏移；
在压缩与约束的过程中，各层的输出分布重新地回归到原点附近，而原点附近正是激活函数的恒等映射区间(线性近似区)，这使仅一些非线性程度过大的样本点才能被激活函数映射成非线性结果，从而使绝大多数样本点在反向传播过程中有梯度进行传播，缓解了梯度消失问题。

层标准化

层标准化 $(\text{LayerNorm})$ 是一种自然语言处理中常用的一种正则化方式。它的操作与批标准化基本相同：
整合一下上面的公式~

其中原先 $\text{Batch}$ 内描述某维度的期望 $\mu_{\mathcal B}$ 替换为关于该 $\text{Batch}$ 内所有样本的期望 $\mathbb E(\mathcal X_{\mathcal B})$ ；
同理，对应某维度方差 $\sigma_{\mathcal B}$ 替换为关于该 $\text{Batch}$ 内所有样本的方差 $\text{Var}(\mathcal X_{\mathcal B})$
$y^{(i)} = \frac{x^{(i)} - \mathbb E(\mathcal X_{\mathcal B})}{\sqrt{\text{Var}(\mathcal X_{\mathcal B}) + \epsilon}} \cdot \gamma + \beta$

既然和批标准化共享相同的公式，为什么要单独将层标准化列出来呢 $?$

批标准化无法处理的问题

层标准化作为 $\text{Transformer}$ 的核心构件，它与批标准化的和核心区别在于：

批标准化是对基于同一 $\text{Batch}$ 下所有样本的各维度分别执行标准化操作。例如：对某一 $\text{Batch}$ 下所有样本的第 $1$ 个维度做标准化操作。对应描述图表示如下：
其中 $\text{BatchSize}$ 表示 $\text{Batch}$ 内所有样本的数量; $\text{MaxLength}$ 表示各样本内元素的数量; $\text{DimensionNum}$ 表示各元素的维度特征数量。

很明显：所有样本(句子)中的所有元素(词)，它们的第 $1$ 维度特征均来自于同一特征分布；也就是说，每个元素的第 $1$ 个特征均可看作是第 $1$ 维(词)向量分布产生的独立样本。

从上面的描述可以看出，可以按照各维度独立做标准化的底层逻辑在于：各维度(词)向量分布之间线性无关甚至是两两相互正交。
层标准化是对基于 $\text{Batch}$ 中各样本的所有维度共同执行标准化操作。例如：对 $\text{Batch}$ 下第一个样本的所有维度做标准化操作。对应描述图表示如下：

根据批标准化的描述，被标准化的特征信息并不属于同一维度，从而也不属于同一特征分布，但为什么可以执行这种标准化操作呢 $?$

个人理解:从样本角度观察：这里执行的是对一个完整样本特征的标准化，可以将其理解为在样本空间中，一个样本经过标准化的平移和缩放，达到了标准化后的位置；而所有样本均独立执行该标准化操作，那么所有样本达到标准化后的新位置所组成的分布相当于将整个样本分布执行了标准化操作。
虽然样本真实分布中样本数量是无穷大的，是数据集远远比不上的，但是我们仅能使用有限的数据集来对样本分布进行描述。

从上面的描述可以看出，可以按照各样本独立做标准化的底层逻辑在于：在同一样本分布下，各样本之间独立同分布。

综上，无论是批标准化还是层标准化，都是对输出分布(样本分布、特征分布)的正则化操作。回归到最初始的问题：在 $\text{Transformer}$ 模型中，为什么要使用层标准化，而不是批标准化 $?$

由于 $\text{Transformer}$ 处理的是序列数据，这里以文本数据为例。在不执行填充 $(\text{Padding})$ 的情况下，各文本的序列长度之间可能存在差异性。如果使用 $\text{Batch}$ 进行表达，可能会出现如下形式：
深度学习笔记之Transformer(四)铺垫：LayerNormalization,深度学习,深度学习,笔记,transformer
上图描述的是 $\text{Batch}$ 内基于不同长度序列内的各元素第 $1$ 维度特征信息。如果使用批标准化来执行正则化操作，它仅会对公共部分的长度执行标准化，剩余的部分将会缺失：
深度学习笔记之Transformer(四)铺垫：LayerNormalization,深度学习,深度学习,笔记,transformer
如果使用层标准化，依然是上述 $\text{Batch}$ 的情况，可能出现如下几种标准化形状：

很明显，在 $\text{Batch}$ 内序列长度不相等的情况下，使用层标准化不会出现信息丢失的情况。