李宏毅《机器学习 深度学习》简要笔记(一)

这篇具有很好参考价值的文章主要介绍了李宏毅《机器学习 深度学习》简要笔记(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、线性回归中的模型选择

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

上图所示:

五个模型,一个比一个复杂,其中所包含的function就越多,这样就有更大几率找到一个合适的参数集来更好的拟合训练集。所以,随着模型的复杂度提高,train error呈下降趋势。

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

上图所示:

右上角的表格中分别体现了在train和test中的损失值大小,可以看出,从第三个模型开始,就呈过拟合(Overfitting)状态。

二、分种类的训练模型

当模型会根据种类不同而有较大区别时,可以分种类来形成多个不同的model。在李宏毅老师举例中,不同的精灵在进化前和进化后CP值得变化曲线是不同的。如下图所示:

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

这样分类别来训练模型,可以更好的让model拟合真实数据。

三、添加正则化

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

使用正则化后,当w非常小(接近0)的时候,我们的输入变化对结果的影响会趋于0。所以我们可以通过调整λ参数来调整正则化的强度。λ越大时,模型曲线更平滑。

在这里,我们不需要对b进行正则化,因为b只会影响模型曲线上下移动(b是常数),所以无需对其进行调整。

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

如上图所示:

根据λ从小变大,test的损失越来越小,达到一个最小值后,又越来越大。而train的损失值逐渐变大。这是因为当λ变大时,模型越来越平滑,在降低过拟合的同时,也使得对训练数据的拟合度降低。如图中曲线所示,我们可以找到一个train和test损失值最相近的地方,这里就是λ的最佳取值。

我们需要将曲线变得平滑一点,但又不能将其变得过于平滑,如果过于平滑就会从过拟合(train的loss低,test的loss高)变为欠拟合(train的loss高,test的loss也比较高)。

P2

一、学习率的调整

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

在我们调整学习率的时候,我们尽量画出右边的曲线,观察学习率是否过大或过小,然后选择一个最合适的学习率η。

二、学习率的自动调整

Adagrad:

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

在Adagrad中,学习率在每次迭代的时候,都除以以前所有步数的梯度的平方和根。但是Adagrad有个问题,就是学习率衰减很快,有可能提前结束训练,从而无法从后面的数据中学习到有用的信息。

在这里面,可以看出一个比较矛盾的地方,即gt比较大的时候,分母也会比较大,与我们初衷不符(应该是在陡峭的地方,我们希望学习率越大),这背后的原理我们可以参考P2中19:30-31:00的讲解。

SGD:

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

SGD就是每看一个样本就更新一次权重。假设一共有20个样本,普通的梯度下降每次迭代都要看20个样本,然后使用平均的梯度来更新权重,但是如果使用SGD的话,我们同样看20个样本,则已经更新20次。如图中所示,后者在更新20次后,所前进到的位置优于前者。

但SGD有一个缺点,就是每一个样本都更新权重,则使得在计算上可能无法充分发挥矩阵运算的效率。而且在接近最优解的地方可能震荡范围比较大。

特征伸缩(Gradient Descent):

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

特征伸缩可以将取值范围差别很大的特征伸缩到范围处于同一量级,这样的话相当于同一了各个维度的梯度(不会出现一个方向很平缓、一个方向很陡峭的极端情况)。这样在更新权重的时候,每个方向的更新速度就相差不大,这样可以加快收敛的速度。

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

如上图所示,对于R个样本,每个样本中不同Feature分别求平均值Mi,然后各个值减去相应的平均值,然后再除以方差。这样就会使得该Feature的所有数据的平均值为0,方差为1。如下图所示:

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

三、梯度下降的来源

参考P2 44:20-59:30对梯度下降的推导过程。

1.通过泰勒级数(Taylor Series)将Loss function展开。

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

2.在梯度下降中,我们只考虑k=0和k=1的情况,也就是说只使用一阶微分。在多变量的情况下:

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

3.当红框非常小的时候,以上式子才成立

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

4.我们将式子做一定变换,然后忽略常数S,我们如何来使L(θ)最小,我们就需要取(Δθ1,Δθ2)的方向与(u,v)相反,如下图所示:

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

5.下图中描述,当红圈非常小时,L(θ)式子才成立,我们将u和v的计算式带入L(θ)就可以得到梯度下降对权重更新公式。当然,在梯度下降中,我们只考虑了泰勒级数的一阶微分项。在某种情况下,我们也可以将二阶甚至三阶加入考虑(例如牛顿法就考虑了二次式),但是由于二阶以上的微分求解消耗比较大,所以在梯度下降中并未做考虑。一定要注意,要让梯度下降算法生效,最重要的就是红色圆圈要足够小,也就是说学习率要足够小。

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

四、我们无法知道梯度更新接近0的时候是不是局部最优

P3

李宏毅《机器学习 深度学习》简要笔记(一),机器学习,深度学习,笔记,r语言,人工智能,目标检测

当我们执行梯度下降时,我们就像上图中游戏一样,我们无法知道我们走到的一个梯度接近0的位置到低是不是局部最优(甚至全局最优),因为周边都是黑雾,除非我们作弊开天眼。文章来源地址https://www.toymoban.com/news/detail-823319.html

到了这里,关于李宏毅《机器学习 深度学习》简要笔记(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习李宏毅学习笔记33

    神经网络压缩(一) 类神经网络剪枝(pruning) 简化模型,用比较少的参数,但让效能差不多,这就是network compression这件事。有些情况下需要把模型用在resource constrain(资源有限)的情况下,比如说跑在智能手表上、小型无人机上等等。只有比较少的内存和计算能力,这时就

    2024年02月11日
    浏览(72)
  • 李宏毅深度学习self-attentin学习笔记

    self-attention初始也是用于解决 seq2seq 的问题。即input是一堆序列,而output也是一段长度固定或者不固定的序列值。和RNN比较类似。多说一句,从2022年开始李宏毅老师的机器学习课程中已经删除了有关RNN和LSTM的相关内容,因为self-attention完全可以替代RNN,且效果更好。 注意力的

    2024年02月09日
    浏览(21)
  • 李宏毅机器学习课程笔记(更新ing)

    basic Why deep not fat model? 当需要拟合的pattern复杂度很高时,deep model需要的参数量远低于fat model(指数组合与线性组合)。 另外当pattern复杂且有规律时(语音、图像、NLP),deep model通常表现好于fat model。 CNN 为什么AlphaGo可以用CNN?棋盘抽象成图片时需要注意什么? 首先图片有

    2024年02月10日
    浏览(28)
  • 机器学习笔记:李宏毅 stable diffusion

     ①:文字变成向量  ②:喂入噪声+文字encoder,产生中间产物  ③:decoder 还原图片  这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多  现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation 这两组表征的分布越近,效

    2024年02月13日
    浏览(40)
  • 李宏毅机器学习笔记:结构学习,HMM,CRF

    什么是Seq2Seq问题呢?简单来说,就是输入是一个序列,输出也是一个序列。输入和输出的序列可以相等,也可以不相等。在本文中,可以先假设输入输出序列相等。 这里用了一个通俗易懂的例子来解释HMM模型,POS tagging,词性标注。 PN表示专有名词Proper Noun V表示动词 D 定冠

    2024年02月11日
    浏览(27)
  • 机器学习笔记:李宏毅chatgpt 大模型 & 大资料

    Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022 模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了 这边举的一个例子是,比如让模型回答鸡兔同笼问题  一开始小模型什么都学不到,故而效果不好  随着模型参数量增

    2024年02月13日
    浏览(41)
  • 李宏毅机器学习笔记:RNN循环神经网络

    例如情景补充的情况,根据词汇预测该词汇所属的类别。这个时候的 Taipi 则属于目的地。但是,在订票系统中, Taipi 也可能会属于出发地。到底属于目的地,还是出发地,如果不结合上下文,则很难做出判断。因此,使用传统的深度神经网络解决不了问题,必须引入RNN。 如

    2024年02月10日
    浏览(38)
  • 机器学习笔记:李宏毅ChatGPT:生成式学习的两种策略

    “各个击破”——一个一个生成出来 一步到位,全部生成出来  两种策略 策略1:始终生成固定长度(比如100),如果出现end,那么end后面的部分直接扔掉 策略2:首先输出一个数字n,表示之后我们要输出多长,然后输出n长度的句子    一般文字相关的任务考虑“各个击破”

    2024年02月13日
    浏览(28)
  • 机器学习笔记:李宏毅ChatGPT Finetune VS Prompt

    2.1.1 成为专才的好处  Is ChatGPT A Good Translator? A Preliminary Study 2023 Arxiv 箭头方向指的是从哪个方向往哪个方向翻译 表格里面的数值越大表示翻译的越好 可以发现专门做翻译的工作会比ChatGPT好一些 How Good Are GPT Models at  Machine Translation? A  Comprehensive Evaluation 同样地,专项翻译任

    2024年02月14日
    浏览(28)
  • 李宏毅2023春季机器学习笔记 - 01生成AI(ChatGPT)

    预设的知识储备要求:数学(微积分、线性代数、机率);编程能力(读写python) 这门课专注在 深度学习领域deep learning, 事实上深度学习在今天的整个机器学习(ML)的领域使用非常广泛,可以说是最受重视的一项ML技术。 这门课可以作为你的机器学习的第一堂课,修完后

    2023年04月19日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包