Adam优化器及其变种的原理-Toy模板网

这篇具有很好参考价值的文章主要介绍了Adam优化器及其变种的原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景。

1、SGD的原理

SGD（随机梯度下降法）是基于最速梯度下降法的原理，假设我们存在损失函数，其中是要学习参数，定义如下的优化路径 $Adam优化器及其变种的原理$ ，使得损失函数值最小。这是一个不断更新迭代参数的过程，其中表示其中某一更新步，表示更新步长（即学习率），表示更新方向。

假设存在最优参数，当前参数为最优参数附近的，我们选择合适的参数更新步长，使得 $Adam优化器及其变种的原理$ 逼迫最优参数。我们对目标损失函数进行泰勒展开：

$Adam优化器及其变种的原理$

因为是最优参数，所以：

最速下降法是指在规范化的基础上，找到一个合适的值使得方向导数最小，或者说让近可能逼近最优值，假设是L2范式时，当时，方向导数最小。因此最速下降法的更新路径可以表示为：

$Adam优化器及其变种的原理$

其中表示更新步长，因为上述泰勒展开式包含要求是在参数附近进行更新，因此需要控制更新的步长，其在SGD中称之为学习率。

2、SGD with Momentum 动量SGD的原理

因为在SGD中方向梯度可能会因为某些点偏差会造成参数学习的振荡，因此通过动量来添加平滑参数：

$Adam优化器及其变种的原理$

3、Adam的原理

动量SGD解决了由于梯度在某些点偏差会带来学习的振荡，但同时学习率设置也会影响学习，当梯度较小时，学习率设置过小，会减缓训练速度，而当梯度较大，学习率如果设置过大，会造成训练的振荡，因为Adam在动量SGD基础上增加了自适应调整学习率（即更新步长）。

$Adam优化器及其变种的原理$

Adam在动量SGD的基础上增加了二阶动量，通过其来自适应控制步长，当梯度较小时，整体的学习率就会增加，反之会缩小，因此在一般情况下，Adam相较于SGD，其收敛速度要更快。

同时为了避免某些点梯度偏差带来学习率的振荡，因此通过引入动量特性（由于梯度二次情况下，一般）。

4、AdamW的原理

但是Adam存在另外的问题，当loss函数中存在L2正则项时，采用Adam优化并不会有效，主要原因是Adam的学习率是变化的，而且当梯度变大时，其学习率会变小，因此会使梯度较大的权重参数同梯度较小的权重参数相差更大，这同L2正则是相违背的。我们通过公式来说明这个过程：

假设目标损失函数添加了L2正则项后，如下表示为：

$Adam优化器及其变种的原理$

如果通过动量SGD作为优化器，此时参数的更新可以写为如下式，同时可以看出L2正则项同weight decay也是等价的。

$Adam优化器及其变种的原理$

但是当Adam应用时，weight decay系数当梯度较大时其值较小，使得Adam对于L2正则项的优化并不好。因此AdamW主要是在Adam中增加了weight decay项，来帮助优化L2正则项：

$Adam优化器及其变种的原理$

上式中的为weight decay的系数，其中b表示batch size，B表示epoch中训练的batch数，T表示总共的epoch数，可以看出weight decay系数同整个训练轮数有关系。

5、AdamWR的原理

AdamWR主要是添加了热重启warm restart功能，其解决的问题是避免模型训练陷入局部最优，因为学习率和梯度会一直收敛，当达成局部最优点时，很难或者要很长时间才能跳出来，因此AdamWR主要是通过周期性增大学习率，从而提升模型的探索空间。

这个周期性调整学习率的函数称为cosine annealing，可以表示为：

$Adam优化器及其变种的原理$

Adam优化器及其变种的原理

AdamWR将整个训练过程分为多个热重启过程，上式中的i表示为第i个热重启过程，表示在该阶段中最小的学习率，表示当前热重启轮中总共需要训练epoch数，表示当前已经训练的epoch数。

通过AdamWR的模型的探索空间更大，下图评估了在不同初始学习率和L2正则项权重值的情况下，AdamWR所能找到的优点空间更大。

Adam优化器及其变种的原理

文章来源地址https://www.toymoban.com/news/detail-439735.html

到了这里，关于Adam优化器及其变种的原理的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Adam优化器及其变种的原理

1、SGD的原理

2、SGD with Momentum 动量SGD的原理

3、Adam的原理

4、AdamW的原理

5、AdamWR的原理

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2