【深度学习笔记】动量梯度下降法

1年前作者：洋洋Young分类：Toy博客阅读(10)违法举报

这篇具有很好参考价值的文章主要介绍了【深度学习笔记】动量梯度下降法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记，视频由网易云课堂与 deeplearning.ai 联合出品，主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习，视频的链接如下：

神经网络和深度学习 - 网易云课堂

也欢迎对神经网络与深度学习感兴趣的网友一起交流 ~

目录

1 指数加权平均

2 动量梯度下降法

1 指数加权平均

在介绍更复杂的优化算法之前，你需要了解指数加权平均（Exponentially Weighted Average），在统计学中也叫做指数加权移动平均（Exponentially Weighted Moving Average）。

【深度学习笔记】动量梯度下降法,【深度学习笔记】,深度学习,笔记,人工智能

这里有伦敦一年的温度数据，如果想知道这一年温度的变化趋势，或者说温度的局部平均值，可以使用 0.9 乘以前一天的平均值，加上 0.1 乘以这一天的温度值，作为新的平均值。

【深度学习笔记】动量梯度下降法,【深度学习笔记】,深度学习,笔记,人工智能

如果把系数 0.9 替换为 β，0.1 替换为 1-β，就得到指数加权平均的公式。

$【深度学习笔记】动量梯度下降法,【深度学习笔记】,深度学习,笔记,人工智能$

vt 可以解释为 1/(1-β) 天的平均值，例如 β 取 0.9，1/(1-β) = 10，vt 近似等于 10 天的温度平均值。

【深度学习笔记】动量梯度下降法,【深度学习笔记】,深度学习,笔记,人工智能

β 值越大，得到的曲线越平滑，例如上图中绿色的曲线（对应 β = 0.98）。因为前一天的温度权重为 0.98，当天的温度权重仅为 1 - 0.98 = 0.02，在温度变化时，平均值的变化越迟缓。

2 动量梯度下降法

【深度学习笔记】动量梯度下降法,【深度学习笔记】,深度学习,笔记,人工智能

假设上图中，红点代表成本函数最小值的位置，在标准的梯度下降算法迭代过程中，梯度缓慢地摆动到最小值，上下波动的趋势减慢了梯度下降法的速度。使用更大的学习率，波动可能更大，但是减小学习率，迭代的过程也会变慢。

【深度学习笔记】动量梯度下降法,【深度学习笔记】,深度学习,笔记,人工智能

使用动量梯度下降法（Momentum Gradient Descent），你需要做的是，计算梯度的指数加权平均值，然后用该值更新权重。

【深度学习笔记】动量梯度下降法,【深度学习笔记】,深度学习,笔记,人工智能

与 α 一样，这里 β 也是梯度下降算法中的一个超参数，你需要尝试不同的 β 值，然后根据结果选择最优的一个。文章来源地址https://www.toymoban.com/news/detail-605656.html

到了这里，关于【深度学习笔记】动量梯度下降法的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【初学人工智能原理】【3】梯度下降和反向传播：能改（上）
本文教程均来自b站【小白也能听懂的人工智能原理】，感兴趣的可自行到b站观看。本文【原文】章节来自课程的对白，由于缺少图片可能无法理解，故放到了最后，建议直接看代码（代码放到了前面）。 dataset.py 事实上三种方法的效果图是差不多的，所以只放出两张图上一
2024年02月06日
浏览(10)
【人工智能】— 逻辑回归分类、对数几率、决策边界、似然估计、梯度下降
考虑二分类问题，其中每个样本由一个特征向量表示。直观理解：将特征向量 x text{x} x 映射到一个实数 w T x text{w}^Ttext{x} w T x 一个正的值 w T x text{w}^Ttext{x} w T x 表示 x text{x} x 属于正类的可能性较高。一个负的值 w T x text{w}^Ttext{x} w T x 表示 x text{x} x 属于负类的可能性
2024年02月09日
浏览(9)
神经网络基础-神经网络补充概念-47-动量梯度下降法
动量梯度下降法（Momentum Gradient Descent）是一种优化算法，用于加速梯度下降的收敛速度，特别是在存在高曲率、平原或局部最小值的情况下。动量法引入了一个称为“动量”（momentum）的概念，它模拟了物体在运动中积累的速度，使得参数更新更具有惯性，从而更平稳地更新
2024年02月11日
浏览(8)
改善神经网络——优化算法（mini-batch、动量梯度下降法、Adam优化算法）
优化算法可以使神经网络运行的更快，机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，你需要训练诸多模型，才能找到合适的那一个，所以，优化算法能够帮助你快速训练模型。其中一个难点在于，深度学习没有在大数据领域发挥最大的效果，我们可以
2024年02月12日
浏览(12)
【人工智能】— 神经网络、前向传播、反向传播、梯度下降、局部最小值、多层前馈网络、缓解过拟合的策略
前向传播和反向传播都是神经网络训练中常用的重要算法。前向传播是指将输入数据从输入层开始经过一系列的权重矩阵和激活函数的计算后，最终得到输出结果的过程。在前向传播中，神经网络会将每一层的输出作为下一层的输入，直到输出层得到最终的结果。反向传播
2024年02月10日
浏览(9)
【人工智能】神经网络、前向传播、反向传播、梯度下降、局部最小值、多层前馈网络、缓解过拟合的策略
前向传播是指将输入数据从输入层开始经过一系列的权重矩阵和激活函数的计算后，最终得到输出结果的过程。在前向传播中，神经网络会将每一层的输出作为下一层的输入，直到输出层得到最终的结果。反向传播是指在神经网络训练过程中，通过计算损失函数的梯度，将
2024年02月16日
浏览(12)
深度学习基础之梯度下降
梯度下降是一种用于最小化（或最大化）损失函数的优化算法。它是机器学习和深度学习中的一个关键概念，通常用于调整学习算法中的参数。梯度下降背后的核心思想是迭代调整参数以最小化损失函数。它的工作原理是计算损失函数相对于每个参数的梯度，并在减少损失函
2024年02月09日
浏览(10)
【深度学习_TensorFlow】梯度下降
一直不太理解梯度下降算法是什么意思，今天我们就解开它神秘的面纱如果要求出一条直线，我们只需知道直线上的两个不重合的点，就可以通过解方程组来求出直线但是，如果我们选取的这两个点不在直线上，而是存在误差（暂且称作观测误差），这样求出的直线就会和
2024年02月14日
浏览(19)
机器学习&&深度学习——随机梯度下降算法（及其优化）
在我们没有办法得到解析解的时候，我们可以用过梯度下降来进行优化，这种方法几乎可以所有深度学习模型。关于优化的东西，我自己曾经研究过智能排班算法和优化，所以关于如何找局部最小值，以及如何跳出局部最小值的一些基本思想是有感触的，随机梯度算法和其优
2024年02月15日
浏览(11)
机器学习梯度下降法笔记
梯度下降法（Gradient Descent）是一种常用的优化算法，用于在机器学习和深度学习中最小化或最大化一个函数的值。在机器学习中，梯度下降法常用于调整模型的参数，使得模型能够更好地拟合训练数据。这个优化算法的基本思想是通过迭代的方式，不断调整参数的值，使得
2024年02月15日
浏览(9)