Adam原理-Toy模板网

这篇具有很好参考价值的文章主要介绍了Adam原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Adam（Adaptive Moment Estimation）是一种自适应的优化算法，用于训练神经网络等机器学习模型。Adam算法是一种基于梯度下降的优化算法，结合了动量方法和自适应学习率的优点，并对学习率进行自适应调整。Adam算法的优点是收敛速度快，不需要手动调整学习率，兼顾了稳定性和速度。

Adam算法的步骤如下：

Adam算法的具体计算公式如下：

计算梯度信息：
$\boldsymbol{g}_t = \nabla_{\boldsymbol{\theta}}\ J(\boldsymbol{\theta}, \boldsymbol{X}_t, \boldsymbol{y}_t)$
式中， $J(\boldsymbol{\theta}, \boldsymbol{X}_t, \boldsymbol{y}_t)$ 表示目标函数， $\boldsymbol{X}_t$ 和 $\boldsymbol{y}_t$ 分别表示一个小批量样本的特征和标签。
计算第一矩估计向量 $\boldsymbol{S}_t$ 和第二矩估计向量 $\boldsymbol{R}_t$ ：
$\boldsymbol{S}_t = \beta_1 \boldsymbol{S}_{t-1} + (1-\beta_1) \boldsymbol{g}_t$
$\boldsymbol{R}_t = \beta_2 \boldsymbol{R}_{t-1} + (1-\beta_2) \boldsymbol{g}_t^2$
式中， $\boldsymbol{S}_t$ 表示第一矩估计向量， $\boldsymbol{R}_t$ 表示第二矩估计向量； $\beta_1$ 和 $\beta_2$ 是衰减率（decay rate），通常取值为0.9和0.999。
计算偏置校正后的梯度信息 $\boldsymbol{g}'_t$ ：
$\boldsymbol{\hat{S}}_t = \frac{\boldsymbol{S}_t}{1-\beta_1^t}$
$\boldsymbol{\hat{R}}_t = \frac{\boldsymbol{R}_t}{1-\beta_2^t}$
$\boldsymbol{g}'_t = \frac{\alpha \boldsymbol{\hat{S}}_t}{\sqrt{\boldsymbol{\hat{R}}_t}+\epsilon}$
式中， $\boldsymbol{\hat{S}}_t$ 和 $\boldsymbol{\hat{R}}_t$ 分别表示经过偏置校正后的第一矩估计向量和第二矩估计向量； $\alpha$ 表示学习率（learning rate）， $\epsilon$ 是平滑项,通常设置为 $10^{-8}$ ，用于防止除0。
更新模型参数：
$\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \boldsymbol{g}'_t$