机器学习笔记:RNN值Teacher Forcing

这篇具有很好参考价值的文章主要介绍了机器学习笔记:RNN值Teacher Forcing。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 基本介绍

  • Teacher forcing是一种在训练循环神经网络(RNN)时使用的技术,尤其是在序列生成任务中,如机器翻译、文本生成或语音合成。
  • 这种方法的目的是更有效地训练网络预测下一个输出,给定一系列先前的观察结果。

1.1 标准RNN训练过程的问题

  • 当训练一个用于序列生成的RNN时,通常会让网络预测序列中的下一个元素。(这种模式又被称为free-running mode / autoregressive mode)
    • 在标准的训练过程中,网络的预测会被送回作为下一个时间步骤的输入。
    • 但是,在初始阶段,由于网络的参数还没有很好的调整,这些预测可能会相当不准确。
    • 这种不准确性可以在网络中累积,并可能导致训练过程变得低效
      • (某一个单词预测错了,后面会跟着错,导致模型很难收敛)

1.2 Teacher Forcing的工作原理

机器学习笔记:RNN值Teacher Forcing,机器学习,机器学习,笔记,rnn

  • 为了克服这个问题,teacher forcing在训练期间不使用模型自己的预测作为下一步的输入,而是使用真实的输出序列的当前元素
  • 换句话说,在训练时刻t,模型预测时间t的输出后,不是将这个预测值用作时间t+1的输入,模型而是使用真实的数据,即目标序列在时间t+1的真实值。
  • 这样,即使前一个预测不准确,网络也可以在准确的数据指导下继续学习
  • 在使用Teacher Forcing的seq2seq的训练过程中,decoder即使遇到了<end>标识也不会结束,因为训练的时候并不是一个生成的过程 ,我们需要等到“标准答案”都输入完才结束

2 优点

  • 快速收敛: 由于网络接收到准确的信息,它通常可以更快地学习正确的参数。
  • 稳定训练: 防止错误的累积和传播,使得整个训练过程更加稳定
  • 并行保证:保证 Transformer 模型能够在训练过程中完全并行计算所有token

3 缺点

  • 露珠效应(Exposure Bias): 在真实应用(推理阶段)中,网络只能依赖于它自己的预测来生成序列,这可能导致在训练时没有遇到的错误。
  • 不一致的学习信号: 训练和推理时的行为不一致,可能会导致推理时性能下降。

4 teacher forcing ratio

 Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks 2015

机器学习笔记:RNN值Teacher Forcing,机器学习,机器学习,笔记,rnn

机器学习笔记:RNN值Teacher Forcing,机器学习,机器学习,笔记,rnn

  • 模型在训练过程中的每一个steps,有 p的概率选择使用 teachering-forcing,有 1−p 的概率选择使用 Autoregressive。
  • 模型在训练前期,p应该尽可能的大,这样能够加速收敛;而在快要结束训练的时候, p 尽可能的小,让模型在 Autoregressive 的方案中尽可能的修复自身生成的错误。
    • p可以随着训练的Epoch 进行衰减:Exponential Decay, Inverse Sigmoid decay 和 Linear decay 

机器学习笔记:RNN值Teacher Forcing,机器学习,机器学习,笔记,rnn

  • 上面的这个概率 p ,是针对一个token而言的,而不是针对整句话
    • 也就是说在解码过程中,每个token的生成,都要进行着这么一次概率的选择
    • 论文中指出,如果是整句话进行概率选择的话,效果会比较差

机器学习笔记:RNN值Teacher Forcing,机器学习,机器学习,笔记,rnn

  • Always Sampling:相当于在训练过程只使用Autoregressive 方案(每次使用上一步的预测单词),可以发现模型效果非常差,收敛有问题。
  • Uniform Scheduled Sampling:每次都有0.5的概率选择 Teacher-Forcing,0.5的概率选择Autoregressive,效果也比 Scheduled-Sampling 要差

参考内容:

【Hello NLP】CS224n笔记[7]:机器翻译和seq2seq文章来源地址https://www.toymoban.com/news/detail-742580.html

到了这里,关于机器学习笔记:RNN值Teacher Forcing的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习&&深度学习——NLP实战(情感分析模型——RNN实现)

    👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习深度学习——NLP实战(情感分析模型——数据集) 📚订阅专栏:机器学习深度学习 希望文章对你们有所帮助 与词相似度和类比任务一样,我们也可以将预先训练的词向量应用于情感分析。

    2024年02月11日
    浏览(34)
  • 【python,机器学习,nlp】RNN循环神经网络

    RNN(Recurrent Neural Network),中文称作循环神经网络,它一般以序列数据为输入,通过网络内部的结构设计有效捕捉序列之间的关系特征,一般也是以序列形式进行输出。 因为RNN结构能够很好利用序列之间的关系,因此针对自然界具有连续性的输入序列,如人类的语言,语音等

    2024年01月18日
    浏览(39)
  • 机器学习&&深度学习——RNN的从零开始实现与简洁实现

    👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习深度学习——循环神经网络RNN 📚订阅专栏:机器学习深度学习 希望文章对你们有所帮助 我们将在之前所说的《时光机器》数据集上训练,先读取数据集: 回想一下,在train_iter中,每个词

    2024年02月13日
    浏览(43)
  • NLP学习笔记五-simple RNN

    我这个学习笔记,感兴趣的小伙伴,看的时候尽量从头开始看,这样更好理解,也更有收获。 simple RNN的单元结构图如下: 其中A就是我们需要学习的参数矩阵, h t − 1 h_{t-1} h t − 1 ​ 是我们上个单元得到的向量, x t x_{t} x t ​ 是当前单元输入的词向量,当前词向量 x t x_

    2024年02月09日
    浏览(37)
  • Teacher Forcing

    Teacher forcing 是一种序列任务中的技术。它最初提出的动机是使得RNN的训练得以并行,加快模型训练。 简单来说Teacher forcing就是将数据集中的标签作为模型输入。 首先,以RNN为例,介绍Teacher forcing的技术细节。下图为RNN展开的计算图。 如图所示,Teacher forcing在训练时和测试时

    2024年02月08日
    浏览(31)
  • NLP 学习笔记十-simple RNN+attention(注意力机制)

    感兴趣的伙伴,看这个笔记,最好从头开始看哈,而且我的笔记,其实不面向零基础,最好有过一些实践经历的来看最好。 紧接上一回,我们谈到seq2seq模型解决用于机器翻译的问题。其中seq其实是采用lstm作为自己的基础记忆网络实现的,当然也可以用RNN实现实现seq2seq模型。

    2024年02月09日
    浏览(61)
  • 神经网络学习笔记10——RNN、ELMo、Transformer、GPT、BERT

    参考博客1 参考博客2 一、NLP(自然语言处理)是什么 自然语言处理(Natural Language Processing,简称NLP)是用计算机来处理、理解以及运用人类语言(如字符、中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。人类语言是抽

    2024年04月09日
    浏览(42)
  • 【深度学习笔记】6_2 循环神经网络RNN(recurrent neural network)

    注:本文为《动手学深度学习》开源内容,部分标注了个人理解,仅为个人学习记录,无抄袭搬运意图 上一节介绍的 n n n 元语法中,时间步 t t t 的词 w t w_t w t ​ 基于前面所有词的条件概率只考虑了最近时间步的 n − 1 n-1 n − 1 个词。如果要考虑比 t − ( n − 1 ) t-(n-1) t −

    2024年03月12日
    浏览(68)
  • pytorch笔记:RNN 系列

    来自B站视频,API查阅,TORCH.NN RNN可以处理变长序列,是因为其每个时刻的参数是共享的 RNN每算出一个时刻都可以输出,适合流式输出,但串行计算比较慢,无法获取太长的历史信息 RNN 初始隐状态不提供默认是0,输出包括两部分:所有时刻的输出 (batch_size,seq_len,out_hidden_si

    2024年02月11日
    浏览(53)
  • pytorch笔记:RNN

    来自B站视频,API查阅,TORCH.NN RNN可以处理变长序列,是因为其每个时刻的参数是共享的 RNN每算出一个时刻都可以输出,适合流式输出,但串行计算比较慢,无法获取太长的历史信息 RNN 初始隐状态不提供默认是0,输出包括两部分:所有时刻的输出 (batch_size,seq_len,out_hidden_si

    2024年02月09日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包