Adam与AdamW

9月前作者：hazel爱吃肉分类：Toy博客阅读(33) 违法举报

这篇具有很好参考价值的文章主要介绍了Adam与AdamW。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Adam

adam优化器是经常使用到的模型训练时的优化器，但是在bert的训练中不起作用，具体表现是，模型的f1上不来。

AdamW

简单来说，AdamW就是Adam优化器加上L2正则，来限制参数值不可太大
以往的L2正则是直接加在损失函数上，比如这样子：
Adam与AdamW
但AdamW稍有不同，如下图所示：

粉色部分，为传统L2正则施加的位置；而AdamW，则将正则加在了绿色位置。

结论

Adamw 即 Adam + weight decate ,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后在反向传播,而Adamw直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步

更多可参考：
https://blog.csdn.net/yinyu19950811/article/details/90476956
https://blog.csdn.net/real_ilin/article/details/108438089
https://blog.csdn.net/weixin_45743001/article/details/120472616文章来源地址https://www.toymoban.com/news/detail-512138.html

到了这里，关于Adam与AdamW的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【AI机器学习入门与实战】训练模型、优化模型、部署模型

👍【 AI机器学习入门与实战】目录 🍭 基础篇 🔥 第一篇：【AI机器学习入门与实战】AI 人工智能介绍 🔥 第二篇：【AI机器学习入门与实战】机器学习核心概念理解 🔥 第三篇：【AI机器学习入门与实战】机器学习算法都有哪些分类？ 🔥 第四篇：【AI机器学习入门与实战】

2024年02月12日
浏览(50)
机器学习实战六步法之训练模型、优化模型、部署模型（七）

👍【 AI机器学习入门与实战】目录 🍭 基础篇 🔥 第一篇：【AI机器学习入门与实战】AI 人工智能介绍 🔥 第二篇：【AI机器学习入门与实战】机器学习核心概念理解 🔥 第三篇：【AI机器学习入门与实战】机器学习算法都有哪些分类？ 🔥 第四篇：【AI机器学习入门与实战】

2024年02月08日
浏览(37)
深度学习优化入门：Momentum、RMSProp 和 Adam

目录深度学习优化入门：Momentum、RMSProp 和 Adam 病态曲率 1牛顿法 2 Momentum:动量 3Adam 本文，我们讨论一个困扰神经网络训练的问题，病态曲率。虽然局部极小值和鞍点会阻碍我们的训练，但病态曲率会减慢训练的速度，以至于从事机器学习的人可能会认为搜索已经收敛到一

2024年02月11日
浏览(33)
深度学习1：通过模型评价指标优化训练

在深度学习和机器学习领域，模型评价指标用于衡量训练得到的模型在处理数据时的性能和效果。常见的模型评价指标包括：准确率（Accuracy）：准确率是最直观和常用的评价指标之一，表示分类正确的样本数占总样本数的比例。然而，在不平衡数据集中，准确率可能会产生

2024年02月12日
浏览(45)
优化器SGD、Adam和AdamW的区别和联系

优化器是用来更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值，从而最小化(或最大化)损失函数。随机梯度下降是最简单的优化器，它采用了简单的梯度下降法，只更新每一步的梯度，但是它的收敛速度会受到学习率的影响。优点：简单性，在优化

2023年04月09日
浏览(33)
神经网络基础-神经网络补充概念-49-adam优化算法

Adam（Adaptive Moment Estimation）是一种优化算法，结合了动量梯度下降法和RMSProp的优点，用于在训练神经网络等深度学习模型时自适应地调整学习率。Adam算法在深度学习中广泛应用，通常能够加速收敛并提高模型性能。 Adam算法综合了动量（momentum）和均方梯度的移动平均（RMS

2024年02月12日
浏览(31)
深度学习模型优化：提高训练效率和精度的技巧

🎉欢迎来到AIGC人工智能专栏~探索Java中的静态变量与实例变量 ☆* o(≧▽≦)o *☆嗨~我是IT·陈寒🍹 ✨博客主页：IT·陈寒的博客 🎈该系列文章专栏：AIGC人工智能 📜其他专栏：Java学习路线 Java面试技巧 Java实战项目 AIGC人工智能数据结构学习 🍹文章作者技术和水平有限，如

2024年02月11日
浏览(45)
改善神经网络——优化算法（mini-batch、动量梯度下降法、Adam优化算法）

优化算法可以使神经网络运行的更快，机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，你需要训练诸多模型，才能找到合适的那一个，所以，优化算法能够帮助你快速训练模型。其中一个难点在于，深度学习没有在大数据领域发挥最大的效果，我们可以

2024年02月12日
浏览(47)
SDG,ADAM,LookAhead,Lion等优化器的对比介绍

本文将介绍了最先进的深度学习优化方法，帮助神经网络训练得更快，表现得更好。有很多个不同形式的优化器，这里我们只找最基础、最常用、最有效和最新的来介绍。首先，让我们定义优化。当我们训练我们的模型以使其表现更好时，首先使用损失函数，训练时损失的减

2023年04月09日
浏览(41)
模型训练与优化：AI大模型在云计算环境下的挑战

随着人工智能技术的发展，AI大模型在各个领域的应用不断拓展，如自然语言处理、计算机视觉、推荐系统等。这些大模型通常具有高度复杂性和大规模性，需要在云计算环境下进行训练和优化。然而，在云计算环境下训练和优化AI大模型面临着诸多挑战，如数据分布、计算资

2024年04月23日
浏览(47)