李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

1年前作者：好学的同学分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

求解最小Loss的失败，不能得到最优的值，找不到Loss足够小的值。

1.Loss关于参数的梯度为0，不能继续更新参数。（local minima 或者 saddle point）

如何知道走到了哪个点？

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

利用泰勒展开：

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

Critical Point的一阶导数为0。李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

举例子（Example）：

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

不需要担心Saddle Point，因为Hessian矩阵会告诉我们参数更新的方向。

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

Saddle Point V.S. Local Minima 李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

三维空间这个石棺是封闭的，但是在高维空间里石棺可能是非封闭的，取到里面的东西。推广到损失函数形状，在二维空间中可能是一个Local Minima，但是转换到三位空间中其可能就是一个Saddle Point。

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

实际研究，当所有的Hessian矩阵的Eigen Value都大于0时，表明这一点为Local Minima，如果有小于0的Value就表明这是一个Saddle Point。实际实验表明Local Minima最少，大多数为Saddle Point。

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)

李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题) 文章来源地址https://www.toymoban.com/news/detail-407294.html

到了这里，关于李宏毅2021春季机器学习课程视频笔记5-模型训练不起来问题(当梯度很小的时候问题)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

机器学习笔记：李宏毅chatgpt 大模型 & 大资料
Emergent Abilities of Large Language Models，Transactions on Machine Learning Research 2022 模型的效果不是随着模型参数量变多而慢慢变好，而是在某一个瞬间，模型“顿悟”了这边举的一个例子是，比如让模型回答鸡兔同笼问题一开始小模型什么都学不到，故而效果不好随着模型参数量增
2024年02月13日
浏览(12)
机器学习基本概念（李宏毅课程）
机器学习 ≈ 训练生成一个函数f(.) ，这个函数相当复杂。例如：机器学习的目的是寻找一个满足需求的函数f(.)，但是具体使用什么方式寻找f(.)没有说明。深度学习为机器学习领域的一个子领域，故深度学习给出了寻找函数的方法，即通过“神经网络”来训练生成一个函数
2024年02月21日
浏览(8)
机器学习李宏毅学习笔记39
大模型+大资料大模型的顿悟时刻随数据量增加，模型可以从量变达到质变，从某一刻开始突然学会东西。当成为大模型时，分数会从0,0突然变成100，完成“顿悟”. 横轴表示分布中产生答案的概率（信心分数），纵轴表示答案正确的概率。可以发现小模型的信心分数跟答案
2024年02月14日
浏览(12)
机器学习李宏毅学习笔记37
ChatGPT简单原理介绍 Chatgpt以句子为输入，输出这个句子后面接的词汇的概率分布，给每一个可能的符号一个概率，根据这个分布进行sample，每次sample出来的词汇可能都是不一样的，所以答案每次也都不相同。把输出的词汇加在输入给gpt的句子后面，重复上面的过程，直到最后
2024年02月16日
浏览(7)
机器学习李宏毅学习笔记33
神经网络压缩（一）类神经网络剪枝（pruning）简化模型，用比较少的参数，但让效能差不多,这就是network compression这件事。有些情况下需要把模型用在resource constrain（资源有限）的情况下，比如说跑在智能手表上、小型无人机上等等。只有比较少的内存和计算能力，这时就
2024年02月11日
浏览(8)
李宏毅《机器学习深度学习》简要笔记（一）
一、线性回归中的模型选择上图所示：五个模型，一个比一个复杂，其中所包含的function就越多，这样就有更大几率找到一个合适的参数集来更好的拟合训练集。所以，随着模型的复杂度提高，train error呈下降趋势。上图所示：右上角的表格中分别体现了在train和test中的损
2024年01月25日
浏览(6)
机器学习笔记：李宏毅 stable diffusion
①：文字变成向量 ②：喂入噪声+文字encoder，产生中间产物 ③：decoder 还原图片这张图越往右下表示效果越好，可以看到text encoder尺寸越大，对后续生成图片的增益越多现有一个训练好的CNN 模型，可以生成真实影像和生成图像的representation 这两组表征的分布越近，效
2024年02月13日
浏览(13)
李宏毅机器学习笔记：结构学习，HMM，CRF
什么是Seq2Seq问题呢？简单来说，就是输入是一个序列，输出也是一个序列。输入和输出的序列可以相等，也可以不相等。在本文中，可以先假设输入输出序列相等。这里用了一个通俗易懂的例子来解释HMM模型，POS tagging，词性标注。 PN表示专有名词Proper Noun V表示动词 D 定冠
2024年02月11日
浏览(11)
李宏毅机器学习笔记：RNN循环神经网络
例如情景补充的情况，根据词汇预测该词汇所属的类别。这个时候的 Taipi 则属于目的地。但是，在订票系统中， Taipi 也可能会属于出发地。到底属于目的地，还是出发地，如果不结合上下文，则很难做出判断。因此，使用传统的深度神经网络解决不了问题，必须引入RNN。如
2024年02月10日
浏览(13)
机器学习和深度学习-- 李宏毅（笔记与个人理解）Day10
这节课主要介绍机器学习和深度学习任务中常见的问题分类以及相应的解决之道这张图总体的概述了一个任务中的大小坎坷，不认得英文？去Google吧~ training Loss 不够的case Loss on Testing data over fitting 为什么over fitting 留到下下周哦~~ 期待 solve CNN卷积神经网络 Bias-Conplexiy Trade
2024年04月17日
浏览(13)