【自然语言处理】Transformer-XL 讲解

1年前作者：不牌不改分类：Toy博客阅读(11)违法举报

这篇具有很好参考价值的文章主要介绍了【自然语言处理】Transformer-XL 讲解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Transformer-XL

首先需要明确，Transformer-XL（XL 是 extra long 的简写）只是一个堆叠了自注意力层的 BPTT 语言模型，并不是 Transformer 原始论文中提到的编码器-解码器架构，也不是原始 Transformer 中的编码器部分或者解码器部分，根据其大致实现可以将其理解为丢弃 cross attention 模块的 Transformer 解码器。之所以名字包含“Transformer”，我认为是当时的很多学者都有一种将自注意力机制与 Transformer 画等的潜意识，更何况当时 Transformer 大火，如果名字中包含“Transformer”，多少可以蹭一下热度。

因此，下面我会常称类似的结构为“自注意力”，而不是 Transformer。

BPTT 意味着与 RNNs 类似，也存在时序计算过程，即当前”时刻“的计算依赖于前一”时刻“的计算结果。Trm-XL 的”时刻“指的是子序列。

概述

在 Trm-XL 论文中，作者将 REF [2] 中的模型视为主要对比的 baseline，并称该模型为普通 Transformer（vanilla Transformer），它也是语言模型。

在 Trm-XL 之前，Al-Rfou 在 REF [2] 中已经提出了处理文本序列的基于自注意力的语言模型 vanilla Trm，只不过其大致思想是，在训练阶段将文本按照模型可接收的序列长度对文本进行切分，文章来源地址https://www.toymoban.com/news/detail-819796.html

到了这里，关于【自然语言处理】Transformer-XL 讲解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【自然语言处理】【长文本处理】RMT：能处理长度超过一百万token的Transformer
相关博客【自然语言处理】【大模型】赋予大模型使用工具的能力：Toolformer与ART 【自然语言处理】【长文本处理】RMT：能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析
2024年02月08日
浏览(10)
基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理
Transformer正在颠覆AI领域。市面上有这么平台和Transformer模型。本书将引导你使用Hugging Face从头开始预训练一个RoBERTa模型，包括构建数据集、定义数据整理器以及训练模型等。将引领你进入Transformer的世界，将讲述不同模型和平台的优势，指出如何消除模型的缺点和问题。《基
2024年02月03日
浏览(16)
【ChatGPT核心原理实战】自然语言处理模型进化：从 RNN 到 Transformer Architecture
2024年01月24日
浏览(15)
【书籍分享 • 第一期】基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理
Transformer正在颠覆AI领域。市面上有这么平台和Transformer模型。本书将引导你使用Hugging Face从头开始预训练一个RoBERTa模型，包括构建数据集、定义数据整理器以及训练模型等。将引领你进入Transformer的世界，将讲述不同模型和平台的优势，指出如何消除模型的缺点和问题。《基
2024年02月01日
浏览(15)
[论文笔记] Transformer-XL
这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决长依赖问题中受到固定长度上下文的限制，如 Bert 采用的 Transformer 最大上下文为 512（其中是因为计算资源的限制，不是因为位置编码，因为使用的是绝对位置编码正余弦编码）。 Transformer-X
2024年03月12日
浏览(12)
预训练模型之BERT、Transformer-XL、XL-Net等
一、语言模型（Language Modeling，LM）的概念 quad 标准定义：对于语言序列 w 1 , w 2 , . . . , w n w_1,w_2,...,w_n w 1 , w 2 , ... , w n ，语言模型就是计算该序列的概率，即 P ( w 1 , w 2 , . . . , w n ) P(w_1,w_2,...,w_n) P ( w 1 , w 2 , ... , w n ) 。 quad 从机器学习的角度来看：语言
2024年02月02日
浏览(7)
相对位置编码(二) Relative Positional Encodings - Transformer-XL
在Transformer-XL中，由于设计了segments，如果仍采用transformer模型中的绝对位置编码的话，将不能区分处不同segments内同样相对位置的词的先后顺序。比如对于segmenti��的第k个token，和segmentj��的第k个token的绝对位置编码是完全相同的。鉴于这样的
2024年02月12日
浏览(6)
论文笔记--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
标题：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 作者：Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov 日期：2019 期刊：arxiv preprint 传统的RNN常常面临梯度消失或爆炸的问题，LSTM的提出在一定程度上有所缓解，但实验表明LSTM只能有效利用
2024年02月07日
浏览(11)
【自然语言处理】自然语言处理 --- NLP入门指南
NLP的全称是 Natuarl Language Processing ，中文意思是自然语言处理，是人工智能领域的一个重要方向自然语言处理（NLP）的一个最伟大的方面是跨越多个领域的计算研究，从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机
2024年02月03日
浏览(12)
[自然语言处理] 自然语言处理库spaCy使用指北
spaCy是一个基于Python编写的开源自然语言处理库。基于自然处理领域的最新研究，spaCy提供了一系列高效且易用的工具，用于文本预处理、文本解析、命名实体识别、词性标注、句法分析和文本分类等任务。 spaCy的官方仓库地址为：spaCy-github。本文主要参考其官方网站的文档，
2024年02月15日
浏览(14)