13 Dropout（丢弃法）

10月前作者：Spielberg_1 分类：Toy博客阅读(33) 违法举报

这篇具有很好参考价值的文章主要介绍了13 Dropout（丢弃法）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

正则项只在训练时使用，他们在更新权重时让模型复杂度降低一点点，

dropout正则项方法之一，深度学习崛起前，最早提出的算法。

动机：一个好的模型，需要对你的输入数据鲁棒，无论加入多少噪音都有稳定的输出

使用有噪音的数据等价于一个正则，这个是随机噪音

丢弃法：在层之间增加噪音，相当于正则

通常适用：隐藏全连接层的输出上，丢弃是在训练过程中，推理过程中不丢弃

方法：随机选择一部分参数丢弃置为0 ，其余参数同比例增大，均值不变

实际应用场景：一个更深，更复杂的模型，使用dropout往往效果更好。

例如，模型a是一层128个参数的感知机，模型b有两层感知机，每层128个参数，dropout为0.5，实际效果往往模型2更好。

总结：

丢弃法(dropout)是通过将输出项随机置为0来控制模型复杂度

常用于多层感知机的隐藏层输出上

丢弃概率是控制模型复杂度的超参数

问题：

1.丢弃法的丢弃依据是什么？不合理的丢弃对输出结果影响很大么？

dropout可以看做一个正则项，所谓不合理的丢弃就是超参数丢弃概率没设置好，设置低了，可能过拟合，设高了，可能欠拟合，这个可以调。

丢弃概率常用值：0.5,0.1,0.9文章来源地址https://www.toymoban.com/news/detail-689508.html

到了这里，关于13 Dropout（丢弃法）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

《动手学深度学习(PyTorch版)》笔记8.6

注：书中对代码的讲解并不详细，本文对很多细节做了详细注释。另外，书上的源代码是在Jupyter Notebook上运行的，较为分散，本文将代码集中起来，并加以完善，全部用vscode在python 3.9.18下测试通过，同时对于书上部分章节也做了整合。训练结果: 与上一节相比，由于pytorch的

2024年02月20日
浏览(57)
《动手学深度学习(PyTorch版)》笔记3.1

3.1.1 Basic Concepts 我们通常使用 n n n 来表示数据集中的样本数。对索引为 i i i 的样本，其输入表示为 x ( i ) = [ x 1 ( i ) , x 2 ( i ) , . . . , x n ( i ) ] ⊤ mathbf{x}^{(i)} = [x_1^{(i)}, x_2^{(i)},...,x_n^{(i)}]^top x ( i ) = [ x 1 ( i ) , x 2 ( i ) , ... , x n ( i ) ] ⊤ ，其对应的标签是 y ( i ) y^{(

2024年01月25日
浏览(44)
《动手学深度学习(PyTorch版)》笔记8.7

注：书中对代码的讲解并不详细，本文对很多细节做了详细注释。另外，书上的源代码是在Jupyter Notebook上运行的，较为分散，本文将代码集中起来，并加以完善，全部用vscode在python 3.9.18下测试通过，同时对于书上部分章节也做了整合。通过时间反向传播（backpropagation thro

2024年02月20日
浏览(51)
【深度学习】动手学深度学习(PyTorch版)李沐 2.4.3 梯度【公式推导】

我们可以连接一个多元函数对其所有变量的偏导数，以得到该函数的梯度（gradient）向量。具体而言，设函数 f : R n → R f:mathbb{R}^{n}tomathbb{R} f : R n → R 的输入是一个 n n n 维向量 x ⃗ = [ x 1 x 2 ⋅ ⋅ ⋅ x n ] vec x=begin{bmatrix} x_1\\\\x_2\\\\···\\\\x_nend{bmatrix} x = x 1 x 2

2024年01月17日
浏览(55)
《动手学深度学习 Pytorch版》 10.7 Transformer

自注意力同时具有并行计算和最短的最大路径长度这两个优势。Transformer 模型完全基于注意力机制，没有任何卷积层或循环神经网络层。尽管 Transformer 最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习

2024年02月08日
浏览(49)
【AI】《动手学-深度学习-PyTorch版》笔记（三）：PyTorch常用函数

返回一维张量（一维数组），官网说明，常见的三种用法如下 tensor.shape：查看张量的形状 tensor.reshape：返回改变形状后的张量，原张量不变

2024年02月15日
浏览(50)
动手学深度学习-pytorch版本（二）：线性神经网络

参考引用动手学深度学习神经网络的整个训练过程，包括: 定义简单的神经网络架构、数据处理、指定损失函数和如何训练模型。经典统计学习技术中的线性回归和 softmax 回归可以视为线性神经网络 1.1 线性回归回归 (regression) 是能为一个或多个自变量与因变量之间关系建

2024年02月12日
浏览(52)
【AI】《动手学-深度学习-PyTorch版》笔记（八）：线性回归

线性函数如下： y ^ = w 1 x 1 + . . . + w d x d

2024年02月14日
浏览(51)
动手学深度学习2.3线性代数-笔记&练习（PyTorch）

以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：线性代数_哔哩哔哩_bilibili 本节教材地址：2.3. 线性代数 — 动手学深度学习 2.0.0 documentation (d2l.ai) 本节开源代码：…d2l-zhpytorchchapter_pr

2024年04月12日
浏览(52)
《动手学深度学习 Pytorch版》 8.7 通过时间反向传播

本节主要探讨梯度相关问题，因此对模型及其表达式进行了简化，进行如下表示： h t = f ( x t , h t − 1 , w h ) o t = g ( h t , w o ) begin{align} h_t=f(x_t,h_{t-1},w_h)\\\\ o_t=g(h_t,w_o) end{align} h t o t = f ( x t , h t − 1 , w h ) = g ( h t , w o ) 参数字典： t t t 表示时间步

2024年02月07日
浏览(43)