[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE

这篇具有很好参考价值的文章主要介绍了[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

引言

这是论文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的阅读笔记。本篇论文提出了通过Pre-LN的方式可以省掉Warm-up环节,并且可以加快Transformer的训练速度。

通常训练Transformer需要一个仔细设计的学习率warm-up(预热)阶段:在训练开始阶段学习率需要设成一个极小的值,然后在一些迭代后逐步增加。这个阶段对于Transformer最终的表现非常重要,但同时引入了更多的超参数调节。学习率预热被证明在处理一些特定问题时是至关重要的,比如大批次训练。当使用较大的批大小进行训练时,在开始时使用一个较大的学习率来优化模型通常会导致较差的效果。

在优化开始阶段,对于原始的Transformer,把层归一化放到残差块之间,接近输出层的参数的梯度往往较大。然后在那些梯度上使用较大的学习率会使得训练不稳定。warm-up阶段在实际应用中有助于避免这个问题。

基于这种分析,作者提出了一种Transformer的变体,将层归一化置于残差块之中(残差连接里面)的修改方法。使得在初始化阶段梯度也表现良好,同时更容易且更快训练。因此作者做出了结论,预热阶段可以被安全地移除,同时训练时间可以大大缩减。

简介

层归一化(Layer Normalization)是Transformer中一个核心组件。原始的Transformer将层归一化放置在之间,这被称为是Post-Layer Normalization(Post-LN)的做法。见下图(a),红框表示残差块,可以看到层归一化在两个残差块之间。文章来源地址https://www.toymoban.com/news/detail-656769.html

到了这里,关于[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

    ICLR 2017 神经网络吸收信息的能力受到其参数数量的限制。条件计算,即网络的某些部分在每个示例的基础上处于活动状态,在理论上已被提出作为一种在不按比例增加计算量的情况下大幅增加模型容量的方法。然而,在实践中,存在重大的算法和性能挑战。在这项工作中,我

    2024年02月01日
    浏览(52)
  • 【论文精读】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

    一篇大规模语言模型的指南,指南介绍详细且会随着大模型的发展不断更新,相信初入大模型的朋友一定能有所收获。 本文为LLM的从业者或者其下游任务用户提供了一个全面而实用的指南。首先对现有的LLM进行介绍和总结,其次讨论了预训练数据、训练数据和测试数据的影响

    2024年02月05日
    浏览(54)
  • 【时间序列综述】Transformer in Time Series:A Survey 论文笔记

    文章全名:Transformers in Time Series: A Survey 文章链接:[论文地址]([2202.07125v2] Transformers in Time Series: A Survey (arxiv.org)) 来源:IJCAI 2023 完成单位:阿里巴巴达摩院、上海交通大学 Transformer在自然语言处理和计算机视觉领域都取得了诸多成果,Transformer的捕获长距离依赖和交互的能力

    2024年04月26日
    浏览(46)
  • Learn the architecture - Debugger usage on Armv8- A

    快速链接: . 👉👉👉 个人博客笔记导读目录(全部) 👈👈👈 付费专栏-付费课程 【购买须知】: 【精选】ARMv8/ARMv9架构入门到精通-[目录] 👈👈👈 — 适合小白入门 【目录】ARMv8/ARMv9架构高级进阶-[目录]👈👈👈 — 高级进阶、小白勿买 【加群】ARM/TEE/ATF/SOC/芯片/安全-学习交

    2024年02月05日
    浏览(40)
  • Learn the architecture - Before debugging on Armv8-A

    快速链接: . 👉👉👉 个人博客笔记导读目录(全部) 👈👈👈 付费专栏-付费课程 【购买须知】: 【精选】ARMv8/ARMv9架构入门到精通-[目录] 👈👈👈 — 适合小白入门 【目录】ARMv8/ARMv9架构高级进阶-[目录]👈👈👈 — 高级进阶、小白勿买 【加群】ARM/TEE/ATF/SOC/芯片/安全-学习交

    2024年01月23日
    浏览(50)
  • Batch Normalization、Layer Normalization代码实现

          BN(Batch Normalization)主要目的是为了解决训练深层神经网络慢的问题。我们可以神经网络整体可以看成一个高阶的复杂函数,通过训练优化它的参数,可以用于拟合各种复杂的数据分布。一般而言,一个网络会有多层,其中的每一层都可以看成一个子函数,用于拟合其各

    2024年01月16日
    浏览(43)
  • 论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

    抛砖引玉了,如有不同意见欢迎讨论。 在超分Transformer中激活更多像素。 澳门大学、中科大、上海人工智能实验室的,董超老师的团队。 CVPR2023。 LAM:一种为SR任务设计的归因方法,能显示模型在进行超分辨率重建的过程中哪些像素起到了作用。一般来说,被利用像素的范围

    2024年02月11日
    浏览(46)
  • 3D Clothed Human Reconstruction in the Wild论文笔记

    论文地址:https://arxiv.org/pdf/2207.10053.pdf 作者:Moon, Gyeongsik, Nam, Hyeongjin, Shiratori, Takaak 发表:CVPR 2022 链接:https://github.com/hygenie1228/ClothWild_RELEASE 最近的大多数三维人体重建方法都需要三维扫描来进行训练;因此,它们是在合成数据集上训练的,这些数据集由3D扫描和从扫描中渲

    2024年01月19日
    浏览(49)
  • 论文笔记:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

    采用zero-shot prompting的方式,将试题转化为ChatGPT的输入 对于数学题,将公式转化为latex输入  主观题由专业教师打分 2010~2022年,一共13年间的全国A卷和全国B卷

    2024年03月15日
    浏览(54)
  • 论文笔记--Distilling the Knowledge in a Neural Network

    标题:Distilling the Knowledge in a Neural Network 作者:Hinton, Geoffrey, Oriol Vinyals, Jeff Dean 日期:2015 期刊:arxiv   文章提出了一种将大模型压缩的新的思路:蒸馏distillation。通过蒸馏,可以将很大的模型压缩为轻量级的模型,从而提升推理阶段的速率。   随着模型的参数量越来越

    2024年02月15日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包