[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE-Toy模板网

这篇具有很好参考价值的文章主要介绍了[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

这是论文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的阅读笔记。本篇论文提出了通过Pre-LN的方式可以省掉Warm-up环节，并且可以加快Transformer的训练速度。

通常训练Transformer需要一个仔细设计的学习率warm-up(预热)阶段：在训练开始阶段学习率需要设成一个极小的值，然后在一些迭代后逐步增加。这个阶段对于Transformer最终的表现非常重要，但同时引入了更多的超参数调节。学习率预热被证明在处理一些特定问题时是至关重要的，比如大批次训练。当使用较大的批大小进行训练时，在开始时使用一个较大的学习率来优化模型通常会导致较差的效果。

在优化开始阶段，对于原始的Transformer，把层归一化放到残差块之间，接近输出层的参数的梯度往往较大。然后在那些梯度上使用较大的学习率会使得训练不稳定。warm-up阶段在实际应用中有助于避免这个问题。

基于这种分析，作者提出了一种Transformer的变体，将层归一化置于残差块之中(残差连接里面)的修改方法。使得在初始化阶段梯度也表现良好，同时更容易且更快训练。因此作者做出了结论，预热阶段可以被安全地移除，同时训练时间可以大大缩减。

简介

层归一化(Layer Normalization)是Transformer中一个核心组件。原始的Transformer将层归一化放置在之间，这被称为是Post-Layer Normalization(Post-LN)的做法。见下图(a)，红框表示残差块，可以看到层归一化在两个残差块之间。文章来源地址https://www.toymoban.com/news/detail-656769.html

到了这里，关于[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！