Tips for Deep Learning

这篇具有很好参考价值的文章主要介绍了Tips for Deep Learning。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

Recipe of Deep Learning

 Good Results on Training Data?

New activation function

Adaptive learning rate

Good Results on Testing Data?

Early Stopping

Regularization

Dropout


Recipe of Deep Learning

我们要做的第一件事是,提高model在training set上的正确率,然后要做的事是,提高model在testing set上的正确率。

Tips for Deep Learning

Tips for Deep Learning

 Good Results on Training Data?

这一部分主要讲述如何在Training data上得到更好的performance,分为两个部分,New activation function和Adaptive Learning Rate。

New activation function

  • Vanishing Gradient Problem

当你把network叠得很深的时候,在靠近input的地方,这些参数的gradient(即对最后loss function的微分)是比较小的;而在比较靠近output的地方,它对loss的微分值会是比较大的。

Tips for Deep Learning

Δw通过sigmoid function之后,得到output是会变小的

Tips for Deep Learning

  • ReLU

Tips for Deep Learning Tips for Deep Learning

优点:

跟sigmoid function比起来,ReLU的运算快很多。

ReLU的想法结合了生物上的观察。

无穷多bias不同的sigmoid function叠加的结果会变成ReLU。

ReLU可以处理Vanishing gradient的问题。

Tips for Deep Learning

  • Maxout

Maxout就是让network自动去学习它的activation function。ReLU就是特殊的Maxout。

Tips for Deep Learning

Maxout中的激活函数可以被分段为多个线性的凸函数,多少段取决于之前我们分组后一组元素的个数。

Tips for Deep Learning

  • How to train Maxout

由于我们有很多很多笔training data,所以network的structure在训练中不断地变换,实际上最后每一个weight参数都会被train到。

Tips for Deep Learning

Adaptive learning rate

  • Adagrad

Tips for Deep Learning

  • RMSProp

用一个α来调整对不同gradient的使用程度,比如把α的值设的小一点,意思就是更倾向于相信新的gradient所告诉的error surface的平滑或陡峭程度,而比较无视于旧的gradient所提供给的information。

Tips for Deep Learning

  • Momentum

每次移动的方向,不再只有考虑gradient,而是现在的gradient加上前一个时间点移动的方向。

Tips for Deep Learning

  • Adam

Tips for Deep Learning

Good Results on Testing Data?

这一部分主要讲述如何在Testing data上得到更好的performance,分为三个模块,Early Stopping、Regularization和Dropout。

Early Stopping

假如我们知道testing set上的loss变化,我们应该停在testing set最小的地方(如图所示)。但是我们不知道你的testing set上的error是,所以我们会用validation来代替。

Tips for Deep Learning

Regularization

在update参数的时候,其实是在update之前就已近把参数乘以一个小于1的值(η、λ都是很小的值),这样每次都会让weight小一点。最后会慢慢变小趋近于0,但是会与后一项梯度的值达到平衡,使得最后的值不等于0,L2的Regularization又叫做Weight Decay。

Tips for Deep Learning

每一次更新时参数时,我们一定要去减一个ηλsgn(wt)Tips for Deep Learning(w值是正的,就是减去一个值;若w是负的,就是加上一个值,让参数变大)。

L2、L1都可以让参数变小,但是有所不同的,若w是一个很大的值,L2乘以一个小于1的值,L2下降的很快,很快就会变得很小,在接近0时,下降的很慢,会保留一些接近0的值;L1的话,减去一个固定的值(比较小的值),所以下降的很慢。

Dropout

在train的时候,每一次update参数之前,对network里面的每个neural(包括input),做sample(抽样)。 每个neural会有p%会被丢掉,跟着的weight也会被丢掉。Tips for Deep Learningtesting的时候不做dropout,所有的neuron都要被用到,假设在training的时候,dropout rate是p%,从training data中被learn出来的所有weight都要乘上(1-p%)才能被当做testing的weight使用。

Tips for Deep Learning

Tips for Deep Learning

Tips for Deep Learning

 文章来源地址https://www.toymoban.com/news/detail-445683.html

 

到了这里,关于Tips for Deep Learning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Lecture 8 Deep Learning for NLP: Recurrent Networks

    Problem of N-gram Language Model N-gram 语言模型的问题 Cen be implemented using counts with smoothing 可以用平滑计数实现 Can be implemented using feed-forward neural networks 可以用前馈神经网络实现 Problem: limited context 问题:上下文限制 E.g. Generate sentences using trigram model: 例如:使用 trigram 模型生成句子

    2024年02月09日
    浏览(28)
  • Deep Learning for 3D Point Clouds: A Survey

    Guo Y, Wang H, Hu Q, et al. Deep learning for 3d point clouds: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 之前组会要分享的一篇综述,太长了没读完,不知道啥时候能写完。。 最近,点云学习因其在计算机视觉、自动驾驶和机器人等许多领域的广泛应用而引起越来越多

    2024年02月05日
    浏览(28)
  • Deep Learning for Natural Language Processing An Intro

    作者:禅与计算机程序设计艺术 深度学习的理论基础、技术框架及最新进展,以及自然语言处理领域的应用前景,对于广大从事自然语言处理研究和开发的同行来说都是一个重要的话题。近几年,随着深度学习技术的不断推陈出新的热潮,自然语言处理(NLP)也备受关注。

    2024年02月08日
    浏览(36)
  • Deep Learning for Natural Language Processing in Python

    作者:禅与计算机程序设计艺术 在这篇文章中,我将会介绍一下基于深度学习的自然语言处理(NLP)模型的相关知识、术语及其核心算法原理和具体操作步骤。首先,我将会简要介绍一下什么是NLP、为什么需要NLP、NLP所涉及到的领域等相关背景知识。随后,我会对一些基本概

    2024年02月07日
    浏览(39)
  • 自然语言处理(七): Deep Learning for NLP: Recurrent Networks

    目录 1. N-gram Language Models 2. Recurrent Neural Networks 2.1 RNN Unrolled 2.2 RNN Training 2.3 (Simple) RNN for Language Model 2.4 RNN Language Model: Training 2.5 RNN Language Model: Generation 3. Long Short-term Memory Networks 3.1 Language Model… Solved? 3.2 Long Short-term Memory (LSTM) 3.3 Gating Vector 3.4 Simple RNN vs. LSTM 3.5 LSTM: Forget

    2023年04月13日
    浏览(35)
  • 论文阅读【14】HDLTex: Hierarchical Deep Learning for Text Classification

    论文十问十答: Q1论文试图解决什么问题? 多标签文本分类问题 Q2这是否是一个新的问题? 不是 Q3这篇文章要验证一个什么科学假设? 因为文本标签越多,分类就越难,所以就将文本类型进行分层分类,这样就可以加大文本分类的准确度。 Q4有哪些相关研究?如何归类?谁

    2023年04月09日
    浏览(29)
  • 自然语言处理(六): Deep Learning for NLP: Feedforward Networks

    目录 1. Deep Learning 1.2 Feed-forward NN 1.3 Neuron 1.4 Matrix Vector Notation 矩阵向量表示法 1.5 Output Layer 1.6 Learning from Data 1.7 Regularisation 正则化 1.8 Dropout 2. Applications in NLP 2.1 Topic Classification 2.2 Topic Classification - Training 2.3 Topic Classification - Prediction 2.4 Topic Classification - Improvements 2.5

    2023年04月09日
    浏览(29)
  • 材料论文阅读/中文记录:Scaling deep learning for materials discovery

    Merchant A, Batzner S, Schoenholz S S, et al. Scaling deep learning for materials discovery[J]. Nature, 2023: 1-6. 全文速览 这篇文章主要讲了一种名为 GNoME 的 材料发现框架 。该框架利用机器学习和高通量计算方法,通过预测材料的稳定性和性质,加速新材料的发现。文章介绍了GNoME的 工作原理和方

    2024年02月02日
    浏览(52)
  • Multi-Grade Deep Learning for Partial Differential Equations

    偏微分方程定义 一个偏微分方程可以定义如下: F ( u ( t , x ) ) = 0 , x ∈ Ω , t ∈ ( 0 , T ] , I ( u ( 0 , x ) ) = 0 , x ∈ Ω , t = 0 , B ( u ( t , x ) ) = 0 , x ∈ Γ , t ∈ ( 0 , T ] , begin{aligned}mathcal{F}(u(t,x))=0,xinOmega,tin(0,T],\\\\mathcal{I}(u(0,x))=0,xinOmega,t=0,\\\\mathcal{B}(u(t,x))=0,xinGamma,tin(0,T],end

    2024年02月07日
    浏览(33)
  • 【论文阅读】Deep learning for unmanned aerial vehicles detection: A review.

    Al-lQubaydhi, N., Alenezi, A., Alanazi, T., Senyor, A., Alanezi, N., Alotaibi, B., Alotaibi, M., Razaque, A., Hariri, S. (2024). Deep learning for unmanned aerial vehicles detection: A review. Computer Science Review, 51(100614), 100614. https://doi.org/10.1016/j.cosrev.2023.100614 深度学习用于无人机检测:综述。 摘要: 无人机作为一种新

    2024年01月16日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包