[论文笔记] Transformer-XL

这篇具有很好参考价值的文章主要介绍了[论文笔记] Transformer-XL。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决 长依赖问题中受到固定长度上下文的限制,如 Bert 采用的 Transformer 最大上下文为 512(其中是因为计算资源的限制,不是因为位置编码,因为使用的是绝对位置编码正余弦编码)。

        Transformer-XL 能学习超过固定长度的依赖性,而不破坏时间一致性。它由 段级递归机制 一种新的位置编码方案 组成。该方法 不仅能够捕获长期依赖,还解决了上下文碎片的问题

        Transformer-XL 学到的依赖关系比 rnn 长80%,比普通transformer长450%(长依赖长了80%/450%),在短序列和长序列上都取得了很好的性能,在评估期间比普通transformer快1800多倍。将bpc/perplexity的最新结果在enwiki8上提高到0.99,在text8上提高到了1.08,在wikitext-103上提高到了18.3,在10亿单词上提高到了21.8,在Penn Treebank上提高到54.5。当仅当WikiText-103上进行训练时,Transformer-XL能生成1k+tokens的合理连贯新颖的文章。(,体感:1k+tokens文章生成流畅连贯文章来源地址https://www.toymoban.com/news/detail-838730.html

到了这里,关于[论文笔记] Transformer-XL的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Transformer 论文学习笔记

    重新学习了一下,整理了一下笔记 论文 :《Attention Is All You Need》 代码 :http://nlp.seas.harvard.edu/annotated-transformer/ 地址 :https://arxiv.org/abs/1706.03762v5 翻译 :Transformer论文翻译 特点 : 提出一种不使用 RNN、CNN,仅使用注意力机制的新模型 Transformer; 只关注句内各 token 之间的关

    2024年02月14日
    浏览(39)
  • 【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

    系列文章链接 数据解读参考:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:Anomaly Transformer.pdf 代码链接:https://github.com/thuml/Anomaly-Transformer 视频讲解(原

    2024年02月14日
    浏览(35)
  • 【论文+代码】1706.Transformer简易学习笔记

    Transformer 论文: 1706.attention is all you need! 唐宇迪解读transformer:transformer2021年前,从NLP活到CV的过程 综述:2110.Transformers in Vision: A Survey 代码讲解1: Transformer 模型详解及代码实现 - 进击的程序猿 - 知乎 代码讲解2:: Transformer代码解读(Pytorch) - 神洛的文章 - 知乎 输入:词向量(

    2024年02月09日
    浏览(44)
  • Swin-transformer论文阅读笔记(Swin Transformer: Hierarchical Vision Transformer using Shifted Windows)

    论文标题:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文作者:Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo 论文来源:ICCV 2021,Paper 代码来源:Code 目录 1. 背景介绍 2. 研究现状 CNN及其变体 基于自注意的骨干架构 自注意/Transformer来补充CN

    2024年02月07日
    浏览(46)
  • 【论文笔记】Attention和Visual Transformer

    Attention机制在相当早的时间就已经被提出了,最先是在计算机视觉领域进行使用,但是始终没有火起来。Attention机制真正进入主流视野源自Google Mind在2014年的一篇论文\\\"Recurrent models of visual attention\\\"。在该文当中,首次在RNN上使用了Attention进行图像分类 。 然而,Attention真正得到

    2024年02月07日
    浏览(41)
  • 论文学习笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 今天学习的论文是 ICCV 2021 的 best paper,Swin Transformer,可以说是 transformer 在 CV 领域的一篇里程碑式的工作。文章的标题是一种基于移动窗口的层级 vision transformer。文章的作者都来自微软亚研院。 Abstract 文章的

    2024年02月08日
    浏览(38)
  • 【论文笔记】Video Vision Transformer(ViViT)

    以下是我看了ViViT这篇文章的理解,如果理解有误,欢迎各位大佬指正。 原文:https://arxiv.org/abs/2103.15691 代码:https://github.com/google-research/scenic. 目录 一.介绍 二.简单介绍ViT原理  三.Video Vision Transformer原理(ViViT)  1.Tublet Embedding 2.“central  frame initialisation”3D滤波器生成方法

    2024年04月27日
    浏览(38)
  • 深度学习笔记之Transformer(四)铺垫:LayerNormalization

    在介绍 Transformer text{Transformer} Transformer 模型架构之前,首先介绍 Transformer text{Transformer} Transformer 的核心架构之一: 层标准化 ( Layer Normalization ) (text{Layer Normalization}) ( Layer Normalization ) 。 问题描述 批标准化 ( Batch Normalization ) (text{Batch Normalization}) ( Batch Normalization ) 我们

    2024年02月13日
    浏览(45)
  • 深度学习之边缘检测算法论文解读(EDTER: Edge Detection with Transformer)

    边缘检测是计算机视觉中最基本的问题之一,具有广泛的应用,例如图像分割、对象检测和视频对象分割。给定输入图像, 边缘检测旨在提取精确的对象边界和视觉上显著的边缘 。由于许多因素,包括复杂的背景、不一致的注释等等,这是具有挑战性的 边缘检测与图像的上

    2024年02月01日
    浏览(39)
  • 论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)

    资源地址 Attention is all you need.pdf(0积分) - CSDN 图1——Transformer结构图 图2——Attention结构图 Background 中说,ByteNet和ConvS2S都使用了CNN结构作为基础模块去计算input和output之间的潜在联系,其中,关联来自两个任意输入或输出位置的信号所需的计算量,伴随着distance的增长而增长,

    2024年01月16日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包