Lecture 8 Deep Learning for NLP: Recurrent Networks

这篇具有很好参考价值的文章主要介绍了Lecture 8 Deep Learning for NLP: Recurrent Networks。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Recurrent Networks 循环神经网络

Problem of N-gram Language Model N-gram 语言模型的问题

  • Cen be implemented using counts with smoothing 可以用平滑计数实现

  • Can be implemented using feed-forward neural networks 可以用前馈神经网络实现

  • Problem: limited context 问题:上下文限制

  • E.g. Generate sentences using trigram model: 例如:使用 trigram 模型生成句子:

Lecture 8 Deep Learning for NLP: Recurrent Networks

Recurrent Neural Network(RNN) 循环神经网络

  • Allow representation of arbitrarily sized inputs 允许表示任意大小的输入

  • Core idea: processes the input sequence one at a time, by applying a recurrence formula 核心思想:一次处理一个输入序列,通过应用递归公式

  • Uses a state vector to represent contexts that have been previously processed 使用状态向量表示之前处理过的上下文

  • RNN Neuron: RNN 神经元

    Lecture 8 Deep Learning for NLP: Recurrent Networks

  • RNN States: RNN 状态

    Lecture 8 Deep Learning for NLP: Recurrent Networks


    Lecture 8 Deep Learning for NLP: Recurrent Networks


    Activation 激活函数:
    Lecture 8 Deep Learning for NLP: Recurrent Networks

  • RNN Unrolled: 展开的 RNN

    Lecture 8 Deep Learning for NLP: Recurrent Networks

    • Same parameters are used across all time steps 同一参数 在所有时间步长中都被使用
  • Training RNN: 训练 RNN

    • An unrolled RNN is a very deep neural network. But parameters are shared across all time steps 展开的 RNN 是一个非常深的神经网络。但是参数在所有时间步中都是共享的
    • To train RNN, just need to create the unrolled computation graph given an input sequence and use backpropagation algorithm to compute gradients as usual. 要训练 RNN,只需根据输入序列创建展开的计算图,并使用反向传播算法计算梯度
    • This procedure is called backpropagation through time. 这个过程叫做时间反向传播

      E.g of unrolled equation: 展开方程的例子

      Lecture 8 Deep Learning for NLP: Recurrent Networks

RNN Language Model: RNN 语言模型

Lecture 8 Deep Learning for NLP: Recurrent Networks

  • is current word (e.g. eats) mapped to an embedding 是当前词(例如 eats)映射到一个嵌入

  • contains information of the previous words (e.g. a and cow) 包含前面词的信息(例如 a 和 cow)

  • is the next word (e.g. grass) 是下一个词(例如 grass)

  • Training:

    • Vocabulary 词汇: [a, cow, eats, grass]

    • Training example 训练样本: a cow eats grass

    • Training process 训练过程:

      Lecture 8 Deep Learning for NLP: Recurrent Networks




    • Losses:

      • Total loss:

  • Generation:

    Lecture 8 Deep Learning for NLP: Recurrent Networks

  • Problems of RNN: RNN 的问题

    • Error Propagation: Unable to recover from errors in intermediate steps 错误传播:无法从中间步骤的错误中恢复
    • Low diversity in generated language 生成的语言多样性低
    • Tend to generate bland or generic language 倾向于生成乏味或通用的语言

Long Short-Term Memory Networks

Long Short-Term Memory Model (LSTM) 长短期记忆模型(LSTM)

  • RNN has the capability to model infinite context. But it cannot capture long-range dependencies in practice due to the vanishing gradients RNN 具有建模无限上下文的能力。但由于梯度消失,实际上无法捕捉长距离依赖性

  • Vanishing Gradient: Gradients in later steps diminish quickly during backpropagation. Earlier inputs do not get much update. 梯度消失:在反向传播过程中,后续步骤的梯度快速减小。较早的输入没有得到太多更新。

  • LSTM is introduced to solve vanishing gradients LSTM 用来解决梯度消失问题

  • Core idea: have memory cells that preserve gradients across time. Access to the memory cells is controlled by gates. 核心思想:拥有跨时间保存梯度的记忆单元。通过门控制对记忆单元的访问。

  • Gates: For each input, a gate decides: 门:对于每个输入,门决定

    • How much the new input should be written to the memory cell 应该将多少新输入写入记忆单元
    • How much content of the current memory cell should be forgotten 应该忘记当前记忆单元的多少内容
  • Comparison between simple RNN and LSTM: 简单 RNN 和 LSTM 的比较

    Lecture 8 Deep Learning for NLP: Recurrent Networks

Gating Vector 门向量

  • A gate is a vector. Each element of the gate has values between 0 and 1. Use sigmoid function to produce . 门 是一个向量。门的每个元素的值在 0 到 1 之间。使用 sigmoid 函数来产生 。

  • is multiplied component-wise with vector to determine how much information to keep for 和向量 乘以 component-wise 来确定对 保留多少信息

    Lecture 8 Deep Learning for NLP: Recurrent Networks

Forget Gate 忘记门

Lecture 8 Deep Learning for NLP: Recurrent Networks

  • Controls how much information to forget in the memory cell 控制在记忆单元 中忘记多少信息

  • E.g. Given Tha cas that the boy predict the next word likes 例如,给定 Tha cas that the boy 预测下一个词 likes

    • Memory cell was storing noun information cats 记忆单元正在存储名词信息 cats
    • The cell should now forget cats and store boy to correctly predict the singular verb likes 该单元现在应该忘记 cats 并存储 boy 以正确预测单数动词 likes

Input Gate 输入门

Lecture 8 Deep Learning for NLP: Recurrent Networks

  • Input gate controls how much new information to put to memory cell 输入门控制将多少新信息放入记忆单元

  • is new distilled information to be added 是要添加的新提炼信息

Update Memory Cell 更新记忆单元

Lecture 8 Deep Learning for NLP: Recurrent Networks

  • Use the forget and input gates to update memory cell 使用忘记门和输入门来更新记忆单元

Output Gate 输出门

Lecture 8 Deep Learning for NLP: Recurrent Networks

  • Output gate controls how much to distill the content of the memory cell to create the next state 输出门控制如何提炼记忆单元的内容以创建下一个状态

Disadvantages of LSTM LSTM 的缺点

  • Introduces some but not many parameters 引入了一些但并不多的参数
  • Still unable to capture very long range dependencies 仍无法捕获非常长的依赖性
  • Slower but not much slower than simple RNN 比简单的 RNN 慢,但并不比 RNN 慢太多

Applications of RNN RNN 的应用

Example Applications 示例应用

  • Shakespeare Generator 莎士比亚生成器:

    • Training data: all works fo Shakespeare 训练数据:莎士比亚的所有作品
    • Model: Character RNN, hidden dimension = 512 模型:Character RNN,隐藏维度 = 512
  • Wikipedia Generator: 维基百科生成器

    • Training data: 100MB of Wikipedia raw data 训练数据:100MB的维基百科原始数据
  • Code Generator 代码生成器

  • Text Classification 文本分类

    • RNNs can be used in variety NLP tasks. Particularly suited for tasks where order of words matter. E.g. sentiment analysis RNNs可以用于各种NLP任务。特别适合于单词顺序很重要的任务。例如,情感分析

    Lecture 8 Deep Learning for NLP: Recurrent Networks

  • Sequence Labeling: E.g. POS tagging 序列标记:例如,词性标注

    Lecture 8 Deep Learning for NLP: Recurrent Networks

Variants of LSTM LSTM的变种

  • Peephole connections: allow gates to look at cell state 窥视孔连接:允许门看到单元状态

  • Gated recurrent unit (GRU): Simplified variant with only 2 gates and no memory cell 门控循环单元(GRU):简化的变体,只有2个门,没有记忆单元

    Lecture 8 Deep Learning for NLP: Recurrent Networks

  • Multi-layer LSTM 多层LSTM

    Lecture 8 Deep Learning for NLP: Recurrent Networks

  • Bidirectional LSTM 双向LSTM

    Lecture 8 Deep Learning for NLP: Recurrent Networks文章来源地址https://www.toymoban.com/news/detail-492271.html

到了这里,关于Lecture 8 Deep Learning for NLP: Recurrent Networks的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 残差网络(ResNet) -深度学习(Residual Networks (ResNet) – Deep Learning)

    在第一个基于cnn的架构(AlexNet)赢得ImageNet 2012比赛之后,每个随后的获胜架构都在深度神经网络中使用更多的层来降低错误率。这适用于较少的层数,但当我们增加层数时,深度学习中会出现一个常见的问题,称为消失/爆炸梯度。这会导致梯度变为0或太大。因此,当我们增加

    2024年02月15日
    浏览(41)
  • 《Communication-Efficient Learning of Deep Networks from Decentralized Data》

    这篇文章算是联邦学习的开山之作吧,提出了FedAvg的算法,文中对比了不同客户端本地训练次数,客户端训练数据集划分的影响。 现代移动设备可以获取大量适合学习模型的数据,然而,这些丰富的数据通常是隐私敏感的、数量很大的,这可能导致无法记录到数据中心并使用

    2024年02月16日
    浏览(41)
  • Skeleton-Aware Networks for Deep Motion Retargeting

    论文网址:Skeleton-Aware Networks for Deep Motion Retargeting 论文代码:https://github.com/DeepMotionEditing/deep-motion-editing 论文项目:https://deepmotionediting.github.io/retargeting 论文出处:ACM Transactions on Graphics (TOG),2020 论文单位:北京电影学院,特拉维夫大学,北京大学 我们引入了一种新的深度

    2024年02月13日
    浏览(41)
  • Youtube DNN:Deep Neural Networks for YouTube Recommendations

    本文主要解决的三个挑战: 大规模的推荐场景,能够支持分布式训练和提供有效率的服务。 不断更新的新物料。 稀疏的用户行为,包含大量的噪声。 文章包含推荐系统的两阶段模型:召回和排序。 召回网络根据用户的历史行为从视频库中检索几百个候选视频,这些视频被

    2024年02月06日
    浏览(34)
  • Tips for Deep Learning

    目录 Recipe of Deep Learning  Good Results on Training Data? New activation function Adaptive learning rate Good Results on Testing Data? Early Stopping Regularization Dropout 我们要做的第一件事是,提高model在training set上的正确率,然后要做的事是,提高model在testing set上的正确率。 这一部分主要讲述如何在

    2024年02月05日
    浏览(42)
  • 【论文阅读】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    论文链接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 单位 :兰州大学信息科学与工程学院,青海省物联网重点实验室,青海师范大学 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    浏览(51)
  • The Deep Learning AI for Environmental Monitoring——Deep

    作者:禅与计算机程序设计艺术 环境监测是整个经济社会发展的一个重要环节,环境数据是影响经济、金融、社会和政策走向的不可或缺的组成部分。目前,环境监测主要依靠地面站(例如气象台)或者卫星遥感影像获取的数据进行实时监测,其精确度受到数据源和采集技术

    2024年02月08日
    浏览(43)
  • 《Learning to Reweight Examples for Robust Deep Learning》笔记

    [1] 用 meta-learning 学样本权重,可用于 class imbalance、noisy label 场景。之前对其 (7) 式中 ϵ i , t = 0 epsilon_{i,t}=0 ϵ i , t ​ = 0 ( 对应 Algorithm 1 第 5 句、代码 ex_wts_a = tf.zeros([bsize_a], dtype=tf.float32) )不理解:如果 ϵ epsilon ϵ 已知是 0,那 (4) 式的加权 loss 不是恒为零吗?(5) 式不是

    2024年01月23日
    浏览(90)
  • 论文笔记:Deep Spatio-Temporal Residual Networks for Citywide Crowd FlowsPrediction

    2017 AAAI 使用时空残差网络ST-ResNet 进行 城市区域流入流出客流量预测 城市客流流入流出 根据经纬度将城市划分为网格 I×J   空间依赖性 时间依赖性 外部影响 北京出租车数据+纽约自行车数据 评价指标:RMSE      

    2024年02月16日
    浏览(37)
  • Deep Learning for 3D Point Clouds: A Survey

    Guo Y, Wang H, Hu Q, et al. Deep learning for 3d point clouds: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 之前组会要分享的一篇综述,太长了没读完,不知道啥时候能写完。。 最近,点云学习因其在计算机视觉、自动驾驶和机器人等许多领域的广泛应用而引起越来越多

    2024年02月05日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包