13 Dropout(丢弃法)

这篇具有很好参考价值的文章主要介绍了13 Dropout(丢弃法)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

正则项只在训练时使用,他们在更新权重时让模型复杂度降低一点点,

dropout正则项方法之一,深度学习崛起前,最早提出的算法。

动机:一个好的模型,需要对你的输入数据鲁棒,无论加入多少噪音都有稳定的输出

使用有噪音的数据等价于一个正则,这个是随机噪音

丢弃法:在层之间增加噪音,相当于正则

通常适用:隐藏全连接层的输出上,丢弃是在训练过程中,推理过程中不丢弃

方法:随机选择一部分参数丢弃置为0 ,其余参数同比例增大,均值不变

实际应用场景:一个更深,更复杂的模型,使用dropout往往效果更好。

例如,模型a是一层128个参数的感知机,模型b有两层感知机,每层128个参数,dropout为0.5,实际效果往往模型2更好。

总结:

丢弃法(dropout)是通过将输出项随机置为0来控制模型复杂度

常用于多层感知机的隐藏层输出上

丢弃概率是控制模型复杂度的超参数

问题:

1.丢弃法的丢弃依据是什么?不合理的丢弃对输出结果影响很大么?

dropout可以看做一个正则项,所谓不合理的丢弃就是超参数丢弃概率没设置好,设置低了,可能过拟合,设高了,可能欠拟合,这个可以调。

丢弃概率常用值:0.5,0.1,0.9文章来源地址https://www.toymoban.com/news/detail-689508.html

到了这里,关于13 Dropout(丢弃法)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《动手学深度学习(PyTorch版)》笔记8.6

    注:书中对代码的讲解并不详细,本文对很多细节做了详细注释。另外,书上的源代码是在Jupyter Notebook上运行的,较为分散,本文将代码集中起来,并加以完善,全部用vscode在python 3.9.18下测试通过,同时对于书上部分章节也做了整合。 训练结果: 与上一节相比,由于pytorch的

    2024年02月20日
    浏览(57)
  • 《动手学深度学习(PyTorch版)》笔记3.1

    3.1.1 Basic Concepts 我们通常使用 n n n 来表示数据集中的样本数。对索引为 i i i 的样本,其输入表示为 x ( i ) = [ x 1 ( i ) , x 2 ( i ) , . . . , x n ( i ) ] ⊤ mathbf{x}^{(i)} = [x_1^{(i)}, x_2^{(i)},...,x_n^{(i)}]^top x ( i ) = [ x 1 ( i ) ​ , x 2 ( i ) ​ , ... , x n ( i ) ​ ] ⊤ ,其对应的标签是 y ( i ) y^{(

    2024年01月25日
    浏览(44)
  • 《动手学深度学习(PyTorch版)》笔记8.7

    注:书中对代码的讲解并不详细,本文对很多细节做了详细注释。另外,书上的源代码是在Jupyter Notebook上运行的,较为分散,本文将代码集中起来,并加以完善,全部用vscode在python 3.9.18下测试通过,同时对于书上部分章节也做了整合。 通过时间反向传播 (backpropagation thro

    2024年02月20日
    浏览(51)
  • 【深度学习】动手学深度学习(PyTorch版)李沐 2.4.3 梯度【公式推导】

      我们可以连接一个多元函数对其所有变量的偏导数,以得到该函数的 梯度 (gradient)向量。 具体而言,设函数 f : R n → R f:mathbb{R}^{n}tomathbb{R} f : R n → R 的输入是一个 n n n 维向量 x ⃗ = [ x 1 x 2 ⋅ ⋅ ⋅ x n ] vec x=begin{bmatrix} x_1\\\\x_2\\\\···\\\\x_nend{bmatrix} x = ​ x 1 ​ x 2 ​

    2024年01月17日
    浏览(55)
  • 《动手学深度学习 Pytorch版》 10.7 Transformer

    自注意力同时具有并行计算和最短的最大路径长度这两个优势。Transformer 模型完全基于注意力机制,没有任何卷积层或循环神经网络层。尽管 Transformer 最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习

    2024年02月08日
    浏览(49)
  • 【AI】《动手学-深度学习-PyTorch版》笔记(三):PyTorch常用函数

    返回一维张量(一维数组),官网说明,常见的三种用法如下 tensor.shape:查看张量的形状 tensor.reshape:返回改变形状后的张量,原张量不变

    2024年02月15日
    浏览(50)
  • 动手学深度学习-pytorch版本(二):线性神经网络

    参考引用 动手学深度学习 神经网络的整个训练过程,包括: 定义简单的神经网络架构、数据处理、指定损失函数和如何训练模型 。经典统计学习技术中的 线性回归 和 softmax 回归 可以视为线性神经网络 1.1 线性回归 回归 (regression) 是能为一个或多个自变量与因变量之间关系建

    2024年02月12日
    浏览(52)
  • 【AI】《动手学-深度学习-PyTorch版》笔记(八):线性回归

    线性函数如下: y ^ = w 1 x 1 + . . . + w d x d

    2024年02月14日
    浏览(51)
  • 动手学深度学习2.3线性代数-笔记&练习(PyTorch)

    以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。 本节课程地址:线性代数_哔哩哔哩_bilibili 本节教材地址:2.3. 线性代数 — 动手学深度学习 2.0.0 documentation (d2l.ai) 本节开源代码:…d2l-zhpytorchchapter_pr

    2024年04月12日
    浏览(52)
  • 《动手学深度学习 Pytorch版》 8.7 通过时间反向传播

    本节主要探讨梯度相关问题,因此对模型及其表达式进行了简化,进行如下表示: h t = f ( x t , h t − 1 , w h ) o t = g ( h t , w o ) begin{align} h_t=f(x_t,h_{t-1},w_h)\\\\ o_t=g(h_t,w_o) end{align} h t ​ o t ​ ​ = f ( x t ​ , h t − 1 ​ , w h ​ ) = g ( h t ​ , w o ​ ) ​ ​ 参数字典: t t t 表示时间步

    2024年02月07日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包