这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决 长依赖问题中受到固定长度上下文的限制,如 Bert 采用的 Transformer 最大上下文为 512(其中是因为计算资源的限制,不是因为位置编码,因为使用的是绝对位置编码正余弦编码)。
Transformer-XL 能学习超过固定长度的依赖性,而不破坏时间一致性。它由 段级递归机制 和一种新的位置编码方案 组成。该方法 不仅能够捕获长期依赖,还解决了上下文碎片的问题。文章来源:https://www.toymoban.com/news/detail-838730.html
Transformer-XL 学到的依赖关系比 rnn 长80%,比普通transformer长450%(长依赖长了80%/450%),在短序列和长序列上都取得了很好的性能,在评估期间比普通transformer快1800多倍。将bpc/perplexity的最新结果在enwiki8上提高到0.99,在text8上提高到了1.08,在wikitext-103上提高到了18.3,在10亿单词上提高到了21.8,在Penn Treebank上提高到54.5。当仅当WikiText-103上进行训练时,Transformer-XL能生成1k+tokens的合理连贯新颖的文章。(,体感:1k+tokens文章生成流畅连贯文章来源地址https://www.toymoban.com/news/detail-838730.html
到了这里,关于[论文笔记] Transformer-XL的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!