深度学习之梯度下降算法

9月前作者：Bobbyeyy 分类：Toy博客阅读(42) 违法举报

这篇具有很好参考价值的文章主要介绍了深度学习之梯度下降算法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

0.1 学习视频源于：b站：刘二大人《PyTorch深度学习实践》

0.2 本章内容为自主学习总结内容，若有错误欢迎指正！

1 线性模型

1.1 通过简单的线性模型来举例：

深度学习之梯度下降算法,深度学习,算法,人工智能

深度学习之梯度下降算法,深度学习,算法,人工智能

1.2 如图，简单的一个权重的线性模型，首先通过随机取w的值来找到与true line重合的w，其中通过MSE来判断w取值是否合理。（最简单的通过评价指标来判断模型的效果如何）

1.3 但是对于多个权重来说，搜索权重w的数量呈幂函数增长。此时可以想到分治方法，通过分治法减少首次搜索次数，找到MSE较小的点在进行一定区间范围内的权重w搜索。但是这种方法对于大部分的MSE曲线（不规则，非凸函数），会因为第一轮的分治取值不当导致错过最优点。

2 梯度下降

2.1 所以引入梯度下降算法寻找最小MSE值。

2.2 Q:什么是梯度？A:cost函数（本文为MSE）对权重求导。深度学习之梯度下降算法,深度学习,算法,人工智能

2.3 梯度下降更新权重的方法：深度学习之梯度下降算法,深度学习,算法,人工智能

（减去学习率×导数，是因为如果寻找的导数为负值，说明该区间曲线递减，则w向后取值即w数值增加；如果为正，说明该区间曲线递增，则w向前取值即w数值减少。学习率：一般取值不宜太大，其控制MSE曲线上所取的w的跨越程度，学习率取值太大容易导致cost函数发散。）

2.4 梯度下降为贪心算法，由于非凸函数存在多个最优点（局部最优），所以梯度下降算法很难找到全局最优，容易陷入局部最优点，但是在深度神经网络中并没有太多的局部最优点，即很难陷入局部最优，所以梯度下降算法依然被大量使用。同时梯度下降算法存在鞍点问题（梯度为0）。

深度学习之梯度下降算法,深度学习,算法,人工智能

深度学习之梯度下降算法,深度学习,算法,人工智能

2.5 可以通过指数加权均值平滑cost函数，这样更容易观察曲线趋势。

深度学习之梯度下降算法,深度学习,算法,人工智能

3 随机梯度下降

3.1 cost在本文中指MSE（所有样本的平均损失），而loss是指单个样本的损失。利用单个样本的loss函数之后增加了随机噪声，可以很大程度上解决鞍点问题。

深度学习之梯度下降算法,深度学习,算法,人工智能

3.2 梯度下降算法每个点的损失计算是可以并行的，但是随机梯度下降算法w的更新依赖于上次w更新的结果。所以梯度下降算法效率更高，随机梯度算法性能更好但是时间复杂度太高。

深度学习之梯度下降算法,深度学习,算法,人工智能

3.3 因此折中引入batch（mini-batch）（批量随机梯度下降）。随机梯度下降法（stochasticgradientdescent，SGD）算法默认使用批量随机梯度下降方法。

深度学习之梯度下降算法,深度学习,算法,人工智能文章来源地址https://www.toymoban.com/news/detail-609923.html

到了这里，关于深度学习之梯度下降算法的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【初学人工智能原理】【4】梯度下降和反向传播：能改（下）

本文教程均来自b站【小白也能听懂的人工智能原理】，感兴趣的可自行到b站观看。本文【原文】章节来自课程的对白，由于缺少图片可能无法理解，故放到了最后，建议直接看代码（代码放到了前面）。在引入b后绘制代价函数界面，看看到底是不是一个碗在w和b两个方向

2024年02月05日
浏览(44)
【初学人工智能原理】【3】梯度下降和反向传播：能改（上）

本文教程均来自b站【小白也能听懂的人工智能原理】，感兴趣的可自行到b站观看。本文【原文】章节来自课程的对白，由于缺少图片可能无法理解，故放到了最后，建议直接看代码（代码放到了前面）。 dataset.py 事实上三种方法的效果图是差不多的，所以只放出两张图上一

2024年02月06日
浏览(35)
机器学习之重要迭代算法梯度下降法

1、梯度：梯度是导数对多元函数的推广，它是多元函数对各个自变量偏导数形成的向量。一元函数 f ( x ) = 3 x 2 + 6 x f(x)=3x^2+6x f ( x ) = 3 x 2 + 6 x ，它的导数（梯度）为 ▽ f ( x ) = f ′ ( x ) = 6 x + 6 ▽f(x)=f^{\\\'}(x)=6x+6 ▽ f ( x ) = f ′ ( x ) = 6 x + 6 ，当梯度为0时， x = − 1 x=-1 x = −

2023年04月09日
浏览(38)
【人工智能】— 逻辑回归分类、对数几率、决策边界、似然估计、梯度下降

考虑二分类问题，其中每个样本由一个特征向量表示。直观理解：将特征向量 x text{x} x 映射到一个实数 w T x text{w}^Ttext{x} w T x 一个正的值 w T x text{w}^Ttext{x} w T x 表示 x text{x} x 属于正类的可能性较高。一个负的值 w T x text{w}^Ttext{x} w T x 表示 x text{x} x 属于负类的可能性

2024年02月09日
浏览(49)
机器学习与深度学习——使用paddle实现随机梯度下降算法SGD对波士顿房价数据进行线性回归和预测

随机梯度下降（SGD）也称为增量梯度下降，是一种迭代方法，用于优化可微分目标函数。该方法通过在小批量数据上计算损失函数的梯度而迭代地更新权重与偏置项。SGD在高度非凸的损失表面上远远超越了朴素梯度下降法，这种简单的爬山法技术已经主导了现代的非凸优化。

2024年02月03日
浏览(56)
【人工智能】神经网络、前向传播、反向传播、梯度下降、局部最小值、多层前馈网络、缓解过拟合的策略

前向传播是指将输入数据从输入层开始经过一系列的权重矩阵和激活函数的计算后，最终得到输出结果的过程。在前向传播中，神经网络会将每一层的输出作为下一层的输入，直到输出层得到最终的结果。反向传播是指在神经网络训练过程中，通过计算损失函数的梯度，将

2024年02月16日
浏览(45)
【人工智能】— 神经网络、前向传播、反向传播、梯度下降、局部最小值、多层前馈网络、缓解过拟合的策略

前向传播和反向传播都是神经网络训练中常用的重要算法。前向传播是指将输入数据从输入层开始经过一系列的权重矩阵和激活函数的计算后，最终得到输出结果的过程。在前向传播中，神经网络会将每一层的输出作为下一层的输入，直到输出层得到最终的结果。反向传播

2024年02月10日
浏览(50)
深度学习基础之梯度下降

梯度下降是一种用于最小化（或最大化）损失函数的优化算法。它是机器学习和深度学习中的一个关键概念，通常用于调整学习算法中的参数。梯度下降背后的核心思想是迭代调整参数以最小化损失函数。它的工作原理是计算损失函数相对于每个参数的梯度，并在减少损失函

2024年02月09日
浏览(37)
【深度学习_TensorFlow】梯度下降

一直不太理解梯度下降算法是什么意思，今天我们就解开它神秘的面纱如果要求出一条直线，我们只需知道直线上的两个不重合的点，就可以通过解方程组来求出直线但是，如果我们选取的这两个点不在直线上，而是存在误差（暂且称作观测误差），这样求出的直线就会和

2024年02月14日
浏览(37)
【深度学习笔记】动量梯度下降法

本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记，视频由网易云课堂与 deeplearning.ai 联合出品，主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习，视频的链接如下：神经网络和深度学习 - 网易云课堂也欢迎对神经网

2024年02月15日
浏览(44)