[论文笔记] Transformer-XL

8月前作者：心心喵分类：Toy博客阅读(70) 违法举报

这篇具有很好参考价值的文章主要介绍了[论文笔记] Transformer-XL。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决 长依赖问题中受到固定长度上下文的限制，如 Bert 采用的 Transformer 最大上下文为 512（其中是因为计算资源的限制，不是因为位置编码，因为使用的是绝对位置编码正余弦编码）。

Transformer-XL 能学习超过固定长度的依赖性，而不破坏时间一致性。它由 段级递归机制 和一种新的位置编码方案 组成。该方法 不仅能够捕获长期依赖，还解决了上下文碎片的问题。

Transformer-XL 学到的依赖关系比 rnn 长80%，比普通transformer长450%（长依赖长了80%/450%），在短序列和长序列上都取得了很好的性能，在评估期间比普通transformer快1800多倍。将bpc/perplexity的最新结果在enwiki8上提高到0.99，在text8上提高到了1.08，在wikitext-103上提高到了18.3，在10亿单词上提高到了21.8，在Penn Treebank上提高到54.5。当仅当WikiText-103上进行训练时，Transformer-XL能生成1k+tokens的合理连贯新颖的文章。（，体感：1k+tokens文章生成流畅连贯文章来源地址https://www.toymoban.com/news/detail-838730.html

到了这里，关于[论文笔记] Transformer-XL的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Transformer 论文学习笔记

重新学习了一下，整理了一下笔记论文：《Attention Is All You Need》代码：http://nlp.seas.harvard.edu/annotated-transformer/ 地址：https://arxiv.org/abs/1706.03762v5 翻译：Transformer论文翻译特点：提出一种不使用 RNN、CNN，仅使用注意力机制的新模型 Transformer；只关注句内各 token 之间的关

2024年02月14日
浏览(43)
【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

系列文章链接数据解读参考：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：Anomaly Transformer.pdf 代码链接：https://github.com/thuml/Anomaly-Transformer 视频讲解（原

2024年02月14日
浏览(37)
【论文+代码】1706.Transformer简易学习笔记

Transformer 论文: 1706.attention is all you need! 唐宇迪解读transformer：transformer2021年前，从NLP活到CV的过程综述：2110.Transformers in Vision: A Survey 代码讲解1: Transformer 模型详解及代码实现 - 进击的程序猿 - 知乎代码讲解2：: Transformer代码解读（Pytorch） - 神洛的文章 - 知乎输入：词向量（

2024年02月09日
浏览(45)
Swin-transformer论文阅读笔记（Swin Transformer: Hierarchical Vision Transformer using Shifted Windows）

论文标题：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文作者：Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo 论文来源：ICCV 2021，Paper 代码来源：Code 目录 1. 背景介绍 2. 研究现状 CNN及其变体基于自注意的骨干架构自注意/Transformer来补充CN

2024年02月07日
浏览(51)
【论文笔记】Attention和Visual Transformer

Attention机制在相当早的时间就已经被提出了，最先是在计算机视觉领域进行使用，但是始终没有火起来。Attention机制真正进入主流视野源自Google Mind在2014年的一篇论文\\\"Recurrent models of visual attention\\\"。在该文当中，首次在RNN上使用了Attention进行图像分类。然而，Attention真正得到

2024年02月07日
浏览(45)
论文学习笔记：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

论文阅读：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 今天学习的论文是 ICCV 2021 的 best paper，Swin Transformer，可以说是 transformer 在 CV 领域的一篇里程碑式的工作。文章的标题是一种基于移动窗口的层级 vision transformer。文章的作者都来自微软亚研院。 Abstract 文章的

2024年02月08日
浏览(42)
【论文笔记】Video Vision Transformer（ViViT）

以下是我看了ViViT这篇文章的理解，如果理解有误，欢迎各位大佬指正。原文：https://arxiv.org/abs/2103.15691 代码：https://github.com/google-research/scenic. 目录一.介绍二.简单介绍ViT原理三.Video Vision Transformer原理(ViViT) 1.Tublet Embedding 2.“central frame initialisation”3D滤波器生成方法

2024年04月27日
浏览(43)
深度学习笔记之Transformer(四)铺垫：LayerNormalization

在介绍 Transformer text{Transformer} Transformer 模型架构之前，首先介绍 Transformer text{Transformer} Transformer 的核心架构之一：层标准化 ( Layer Normalization ) (text{Layer Normalization}) ( Layer Normalization ) 。问题描述批标准化 ( Batch Normalization ) (text{Batch Normalization}) ( Batch Normalization ) 我们

2024年02月13日
浏览(47)
深度学习之边缘检测算法论文解读（EDTER: Edge Detection with Transformer）

边缘检测是计算机视觉中最基本的问题之一，具有广泛的应用，例如图像分割、对象检测和视频对象分割。给定输入图像，边缘检测旨在提取精确的对象边界和视觉上显著的边缘。由于许多因素，包括复杂的背景、不一致的注释等等，这是具有挑战性的边缘检测与图像的上

2024年02月01日
浏览(43)
论文阅读笔记AI篇 —— Transformer模型理论+实战 (四)

参考文章或视频链接 [1] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (一)》- CSDN [2] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)》- CSDN [3] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (三)》- CSDN 如果说钢铁侠中的 J.A.R.V.I.S. (贾维斯)是一个AGI通用人工智能的

2024年01月24日
浏览(44)