Adam与AdamW

这篇具有很好参考价值的文章主要介绍了Adam与AdamW。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Adam

adam优化器是经常使用到的模型训练时的优化器,但是在bert的训练中不起作用,具体表现是,模型的f1上不来。

AdamW

简单来说,AdamW就是Adam优化器加上L2正则,来限制参数值不可太大
以往的L2正则是直接加在损失函数上,比如这样子:
Adam与AdamW
但AdamW稍有不同,如下图所示:
Adam与AdamW
粉色部分,为传统L2正则施加的位置;而AdamW,则将正则加在了绿色位置。

结论

Adamw 即 Adam + weight decate ,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后在反向传播,而Adamw直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步

更多可参考:
https://blog.csdn.net/yinyu19950811/article/details/90476956
https://blog.csdn.net/real_ilin/article/details/108438089
https://blog.csdn.net/weixin_45743001/article/details/120472616文章来源地址https://www.toymoban.com/news/detail-512138.html

到了这里,关于Adam与AdamW的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习实战六步法之训练模型、优化模型、部署模型(七)

    👍【 AI机器学习入门与实战 】目录 🍭 基础篇 🔥 第一篇:【AI机器学习入门与实战】AI 人工智能介绍 🔥 第二篇:【AI机器学习入门与实战】机器学习核心概念理解 🔥 第三篇:【AI机器学习入门与实战】机器学习算法都有哪些分类? 🔥 第四篇:【AI机器学习入门与实战】

    2024年02月08日
    浏览(32)
  • 【AI机器学习入门与实战】训练模型、优化模型、部署模型

    👍【 AI机器学习入门与实战 】目录 🍭 基础篇 🔥 第一篇:【AI机器学习入门与实战】AI 人工智能介绍 🔥 第二篇:【AI机器学习入门与实战】机器学习核心概念理解 🔥 第三篇:【AI机器学习入门与实战】机器学习算法都有哪些分类? 🔥 第四篇:【AI机器学习入门与实战】

    2024年02月12日
    浏览(43)
  • 深度学习优化入门:Momentum、RMSProp 和 Adam

    目录 深度学习优化入门:Momentum、RMSProp 和 Adam 病态曲率 1牛顿法 2 Momentum:动量 3Adam   本文,我们讨论一个困扰神经网络训练的问题,病态曲率。 虽然局部极小值和鞍点会阻碍我们的训练,但病态曲率会减慢训练的速度,以至于从事机器学习的人可能会认为搜索已经收敛到一

    2024年02月11日
    浏览(28)
  • 深度学习1:通过模型评价指标优化训练

    在深度学习和机器学习领域,模型评价指标用于衡量训练得到的模型在处理数据时的性能和效果。常见的模型评价指标包括: 准确率(Accuracy): 准确率是最直观和常用的评价指标之一,表示分类正确的样本数占总样本数的比例。然而,在不平衡数据集中,准确率可能会产生

    2024年02月12日
    浏览(37)
  • 优化器SGD、Adam和AdamW的区别和联系

    优化器是用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。 随机梯度下降 是最简单的优化器,它采用了简单的梯度下降法,只更新每一步的梯度,但是它的收敛速度会受到学习率的影响。 优点: 简单性,在优化

    2023年04月09日
    浏览(27)
  • 神经网络基础-神经网络补充概念-49-adam优化算法

    Adam(Adaptive Moment Estimation)是一种优化算法,结合了动量梯度下降法和RMSProp的优点,用于在训练神经网络等深度学习模型时自适应地调整学习率。Adam算法在深度学习中广泛应用,通常能够加速收敛并提高模型性能。 Adam算法综合了动量(momentum)和均方梯度的移动平均(RMS

    2024年02月12日
    浏览(24)
  • 深度学习模型优化:提高训练效率和精度的技巧

    🎉欢迎来到AIGC人工智能专栏~探索Java中的静态变量与实例变量 ☆* o(≧▽≦)o *☆嗨~我是IT·陈寒🍹 ✨博客主页:IT·陈寒的博客 🎈该系列文章专栏:AIGC人工智能 📜其他专栏:Java学习路线 Java面试技巧 Java实战项目 AIGC人工智能 数据结构学习 🍹文章作者技术和水平有限,如

    2024年02月11日
    浏览(33)
  • 改善神经网络——优化算法(mini-batch、动量梯度下降法、Adam优化算法)

    优化算法可以使神经网络运行的更快,机器学习的应用是一个高度依赖经验的过程,伴随着大量迭代的过程,你需要训练诸多模型,才能找到合适的那一个,所以,优化算法能够帮助你快速训练模型。 其中一个难点在于,深度学习没有在大数据领域发挥最大的效果,我们可以

    2024年02月12日
    浏览(37)
  • SDG,ADAM,LookAhead,Lion等优化器的对比介绍

    本文将介绍了最先进的深度学习优化方法,帮助神经网络训练得更快,表现得更好。有很多个不同形式的优化器,这里我们只找最基础、最常用、最有效和最新的来介绍。 首先,让我们定义优化。当我们训练我们的模型以使其表现更好时,首先使用损失函数,训练时损失的减

    2023年04月09日
    浏览(29)
  • 模型训练与优化:AI大模型在云计算环境下的挑战

    随着人工智能技术的发展,AI大模型在各个领域的应用不断拓展,如自然语言处理、计算机视觉、推荐系统等。这些大模型通常具有高度复杂性和大规模性,需要在云计算环境下进行训练和优化。然而,在云计算环境下训练和优化AI大模型面临着诸多挑战,如数据分布、计算资

    2024年04月23日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包