Adam优化器(通俗理解)

这篇具有很好参考价值的文章主要介绍了Adam优化器(通俗理解)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

网上关于Adam优化器的讲解有很多,但总是卡在某些部分,在此,我将部分难点解释进行了汇总。理解有误的地方还请指出。

Adam,名字来自:Adaptive Moment Estimation,自适应矩估计。是2014年提出的一种万金油式的优化器,使用起来非常方便,梯度下降速度快,但是容易在最优值附近震荡。竞赛中性能会略逊于SGD,毕竟最简单的才是最有效的。但是超强的易用性使得Adam被广泛使用。

Adam的推导公式:

adam优化器,深度学习,深度学习,人工智能

解释:

第一项梯度就是损失函数对求偏导。

第二项为t时刻,梯度在动量形式下的一阶矩估计。

第三项为梯度在动量形式下的二阶矩估计。

第四项为偏差纠正后的一阶矩估计。其中:是贝塔1的t次方,下面同理。

第五项为偏差纠正后的二阶矩估计。

最后一项是更新公式,可以参考RMSProp以及之前的算法。

问题:

1. 梯度下降:不懂梯度下降建议先搞懂SGD优化器。

2. 动量:在之前的SGDM优化器中就被应用了。

3. 矩估计:不懂请看大学里面的《概率论与数理统计》。

4. 为什么需要偏差纠正:

这里只是讲讲我的理解。拿二阶矩估计来举例,各个的公式如下:

adam优化器,深度学习,深度学习,人工智能

而我们实际上需要的是梯度的二阶矩估计,也就是。因此使用动量求出来的二阶矩估计是有偏的,需要纠正。我们对动量二阶矩估计求期望,可以通过等比数列公式得到与的关系: 

adam优化器,深度学习,深度学习,人工智能

因此,要得到,就需要除掉前面的系数(是一个常数,是贝塔2的t次方,t:t时刻)。

主要问题就是这些,其他的可以多看Adam之前一些优化器的资料,很多是一脉相承的。文章来源地址https://www.toymoban.com/news/detail-816747.html

到了这里,关于Adam优化器(通俗理解)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Adam优化器及其变种的原理

    本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景。 SGD(随机梯度下降法)是基于 最速梯度下降 法的原理,假设我们存在损失函数,其中是要学习参数,定义如下的优化路径 ,使得损失函数值最小。这是一个不断更新迭代参数的过程,其中表示其中某一更新步,

    2024年02月04日
    浏览(37)
  • Adam优化器算法详解及代码实现

    在介绍Adam算法之前,先谈谈Adam中两个关键的算法: 学习率调整(RMSprop 算法) 与 梯度估计修正 。 学习率是神经网络优化时的重要超参数。在标准的梯度下降法中,每个参数在每次迭代时都使用相同的学习率,但是学习率如果过大就不会收敛,如果过小则收敛速度太慢。

    2024年02月02日
    浏览(42)
  • SGD,Adam,AdamW,LAMB优化器

    一. SGD,Adam,AdamW,LAMB优化器 优化器是用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。 1. SGD 随机梯度下降是最简单的优化器,它采用了简单的梯度下降法, 只更新每一步的梯度,但是它的收敛速度会受到学习

    2023年04月16日
    浏览(38)
  • 优化器SGD、Adam和AdamW的区别和联系

    优化器是用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。 随机梯度下降 是最简单的优化器,它采用了简单的梯度下降法,只更新每一步的梯度,但是它的收敛速度会受到学习率的影响。 优点: 简单性,在优化

    2023年04月09日
    浏览(32)
  • (六)人工智能应用--深度学习原理与实战--理解张量与运算图

    Tensorflow名称中的Tensor即张量,不仅仅是Tensorflow,几乎所有的深度学习平台都以张量为基本的数据结构。简单来说,张量就是多维数组,本质上是一种数据容器,它可以有任意维度,比如矩阵就是二维张量(二维数组)。 深度学习中使用张量来表示数据,计算图是由张量和张量

    2024年02月15日
    浏览(48)
  • 利用Adam优化算法进行语音识别任务:提升模型准确率

    作者:禅与计算机程序设计艺术 语音识别是人工智能领域中的一个重要应用,近年来随着深度学习算法的快速发展,语音识别技术也取得了长足的进步。在语音识别任务中,训练模型需要大量的数据和计算资源,而且模型的准确性也是至关重要的。因此,如何提高模型的准确

    2024年02月09日
    浏览(49)
  • 神经网络基础-神经网络补充概念-49-adam优化算法

    Adam(Adaptive Moment Estimation)是一种优化算法,结合了动量梯度下降法和RMSProp的优点,用于在训练神经网络等深度学习模型时自适应地调整学习率。Adam算法在深度学习中广泛应用,通常能够加速收敛并提高模型性能。 Adam算法综合了动量(momentum)和均方梯度的移动平均(RMS

    2024年02月12日
    浏览(31)
  • SDG,ADAM,LookAhead,Lion等优化器的对比介绍

    本文将介绍了最先进的深度学习优化方法,帮助神经网络训练得更快,表现得更好。有很多个不同形式的优化器,这里我们只找最基础、最常用、最有效和最新的来介绍。 首先,让我们定义优化。当我们训练我们的模型以使其表现更好时,首先使用损失函数,训练时损失的减

    2023年04月09日
    浏览(40)
  • 改善神经网络——优化算法(mini-batch、动量梯度下降法、Adam优化算法)

    优化算法可以使神经网络运行的更快,机器学习的应用是一个高度依赖经验的过程,伴随着大量迭代的过程,你需要训练诸多模型,才能找到合适的那一个,所以,优化算法能够帮助你快速训练模型。 其中一个难点在于,深度学习没有在大数据领域发挥最大的效果,我们可以

    2024年02月12日
    浏览(47)
  • 【人工智能】结合代码通俗讲解 Transformer 推理性能优化技术:KV Cache

    目录 0. 引言 1. KV Cache是啥? 2. 背景 3. 原理 4. 实现细节 5. 总结 在解码器推理加速的时候,由于解码过程是一个token一个token的生成,如果每一次解码都从输入开始拼接好解码的token࿰

    2024年02月16日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包