《动手学深度学习》优化算法学习&习题

1年前作者：银晗分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了《动手学深度学习》优化算法学习&习题。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

优化算法

梯度下降类

小批量随机梯度下降，通过平均梯度来减小方差

动量法

基础

泄露平均法：用来取代梯度的计算
《动手学深度学习》优化算法学习&习题,深度学习,算法,学习

$\beta$ 这个参数控制了取多久时间的平均值

《动手学深度学习》优化算法学习&习题,深度学习,算法,学习
上述推理构成了”加速”梯度方法的基础，例如具有动量的梯度。

在优化问题条件不佳的情况下（例如，有些方向的进展比其他方向慢得多，类似狭窄的峡谷）”加速”梯度还额外享受更有效的好处。
此外，它们允许我们对随后的梯度计算平均值，以获得更稳定的下降方向。诚然，即使是对于无噪声凸问题，加速度这方面也是动量如此起效的关键原因之一。

动量法原理

《动手学深度学习》优化算法学习&习题,深度学习,算法,学习

动量法用过去梯度的平均值来替换梯度，这大大加快了收敛速度。
对于无噪声梯度下降和嘈杂随机梯度下降，动量法都是可取的。
动量法可以防止在随机梯度下降的优化过程停滞的问题。
由于对过去的数据进行了指数降权，有效梯度数为 $\frac{1}{1-\beta}$
在凸二次问题中，可以对动量法进行明确而详细的分析。
动量法的实现非常简单，但它需要我们存储额外的状态向量（动量）。

AdaGrad

稀疏特征与学习率

假设我们正在训练一个语言模型。为了获得良好的准确性，我们大多希望在训练的过程中降低学习率
只有在这些不常见的特征出现时，与其相关的参数才会得到有意义的更新。

问题所在：

鉴于学习率下降，我们可能最终会面临这样的情况：常见特征的参数相当迅速地收敛到最佳值，而对于不常见的特征，我们仍缺乏足够的观测以确定其最佳值。换句话说，学习率要么对于常见特征而言降低太慢，要么对于不常见特征而言降低太快。

《动手学深度学习》优化算法学习&习题,深度学习,算法,学习

一般而言，计算特征值和特征向量要比解决实际问题“贵”得多。
然准确计算特征值可能会很昂贵，但即便只是大致猜测并计算它们，也可能已经比不做任何事情好得多。特别是，我们可以使用的对角线条目并相应地重新缩放它。这比计算特征值开销小的多。

《动手学深度学习》优化算法学习&习题,深度学习,算法,学习

《动手学深度学习》优化算法学习&习题,深度学习,算法,学习

《动手学深度学习》优化算法学习&习题,深度学习,算法,学习

RMSProp

《动手学深度学习》优化算法学习&习题,深度学习,算法,学习

在优化算法中，泄露平均值是指在每次迭代中，算法泄露的信息的平均值(这里泄露的是上一次梯度二次矩)。

Adam

核心点：使用指数加权移动平均值来估算梯度的动量和二次矩
注意初始化，v，s均等于0会有一个很大的初始偏差,故采用指数初始化

缩放梯度：

《动手学深度学习》优化算法学习&习题,深度学习,算法,学习

Adam算法也存在一些问题：即使在凸环境下，当 $s_t$ 的二次矩估计值爆炸时，它可能无法收敛
Adam算法将许多优化算法的功能结合到了相当强大的更新规则中。
Adam算法在RMSProp算法基础上创建的，还在小批量的随机梯度上使用EWMA。
在估计动量和二次矩时，Adam算法使用偏差校正来调整缓慢的启动速度文章来源地址https://www.toymoban.com/news/detail-635459.html

到了这里，关于《动手学深度学习》优化算法学习&习题的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

深度学习优化算法相关文章
综述性文章一个框架看懂优化算法之异同 SGD/AdaGrad/Adam 从 SGD 到 Adam —— 深度学习优化算法概览(一)
2024年02月10日
浏览(24)
深度学习中的优化算法
本章我们主要讲解一下深度学习中的一些优化算法。优化和深度学习的目标是根本不同的。前者主要关注的是最小化目标，后者则关注在给定有限数据量的情况下寻找合适的模型。例如，训练误差和泛化误差通常不同：由于优化算法的目标函数通常是基于训练数据集的损失
2024年02月14日
浏览(7)
机器学习&&深度学习——随机梯度下降算法（及其优化）
在我们没有办法得到解析解的时候，我们可以用过梯度下降来进行优化，这种方法几乎可以所有深度学习模型。关于优化的东西，我自己曾经研究过智能排班算法和优化，所以关于如何找局部最小值，以及如何跳出局部最小值的一些基本思想是有感触的，随机梯度算法和其优
2024年02月15日
浏览(11)
深度学习中的优化算法之RMSProp
之前在https://blog.csdn.net/fengbingchun/article/details/124766283 中介绍过深度学习中的优化算法AdaGrad，这里介绍下深度学习的另一种优化算法RMSProp。 RMSProp全称为 Root Mean Square Propagation ，是一种未发表的自适应学习率方法，由Geoff Hinton提出，是梯度下降优化算法的扩展。
2023年04月08日
浏览(8)
《动手学深度学习》——深度学习计算
参考资料： 5. 深度学习计算 — 动手学深度学习 2.0.0 documentation (d2l.ai) 为了实现这些复杂的网络，我们引入了神经网络块的概念。块（block）可以描述单个层、由多个层组成的组件或整个模型本身。从编程的角度来看，块由类（class）表示。它的任何子类都必须定义一个将其
2024年02月12日
浏览(9)
李沐《动手学深度学习》深度学习计算
李沐《动手学深度学习》预备知识张量操作及数据处理李沐《动手学深度学习》预备知识线性代数及微积分李沐《动手学深度学习》线性神经网络线性回归李沐《动手学深度学习》线性神经网络 softmax回归李沐《动手学深度学习》多层感知机模型概念和代码实现李沐《
2024年01月22日
浏览(8)
MATLAB算法实战应用案例精讲-【深度学习】基于优化的元学习
目录元学习 1 元学习概念 2 元学习含义 3 元学习单位 4 基学习器和元学习器
2024年02月11日
浏览(17)
动手学深度学习 - 学习环境配置
参考： https://www.jb51.net/article/275192.htm https://blog.csdn.net/m0_54179726/article/details/130522489 miniconda3 下载完，打开安装包，按照默认提示，下一步下一步，到这里要牢记安装目录，之后配置环境变量会用到；点击新建，分别添加以下三个路径: 安装路径Miniconda3 安装路径Miniconda3Sc
2024年02月07日
浏览(7)
【李沐】动手学深度学习学习笔记
你好！这是【李沐】动手学深度学习v2-基于pytorch版本的学习笔记教材源代码安装教程（安装pytorch不要用pip，改成conda，pip太慢了，下载不下来）个人推荐学习学习笔记数据操作本节代码文件在源代码文件的chapter_preliminaries/ndarray.ipynb中创建数组创建数组需要：
2024年02月16日
浏览(30)
李沐《动手学深度学习》多层感知机深度学习相关概念
李沐《动手学深度学习》预备知识张量操作及数据处理李沐《动手学深度学习》预备知识线性代数及微积分李沐《动手学深度学习》线性神经网络线性回归李沐《动手学深度学习》线性神经网络 softmax回归李沐《动手学深度学习》多层感知机模型概念和代码实现教材：
2024年01月20日
浏览(10)