Attention Is All Your Need论文笔记

这篇具有很好参考价值的文章主要介绍了Attention Is All Your Need论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文解决了什么问题?

提出了一个新的简单网络架构——transformer,仅仅是基于注意力机制,完全免去递推和卷积,使得神经网络训练地速度极大地提高。

We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.

论文采用了什么方法?

用多头注意力取代推导层。

论文达到了什么效果?

  • 该论文提出的模型,在WMT2014英语翻译德语和英语翻译法语的任务实验中,打破了当时的最好记录,并且其训练成本仅仅是最好模型的一小部分。

  • 提出的模型成功地泛化到其他任务上。

Author:Google Brain

Key words:神经网络,transformer

Abstract:

作者提出了一个新的简单网络架构transformer。该模型是基于注意力机制,完全免去递推和卷积。模型的质量上更好,有着更好的并行性,训练地速度极大地减少,可以很好地泛化到其他任务中。

Introduction:

过去,关于语言模型和机器翻译,主要使用RNN、LSTM、GRNN。但这些模型中计算步骤是,使用前一个状态ht-1的输出来做为后一个状态ht的输入,这种顺序性质限制了其计算效率。尽管最近的工作提升了模型的性能,但其根本的顺序计算限制仍然存在。

Transformer模型就是为了解决这一个问题而提出来的,它有着显著更多的并行性并且在翻译质量上达到最先进水平。

Background:

transformer的目标是减少序列化计算,这同时也是ByteNet和ConvS2S的基础。但是这些模块中,被要求关联两个任意输入或输出位置的信号的操作数量随着位置间距离的增长而增长,这使得学习两个远距离位置的依赖关系困难。

提出自我注意力机制,是将单个序列不同位置联系起来以计算一个序列表示的注意力机制。

Model Architecture:

该章节主要讲解transformer的架构,是编码-解码架构。

编码器和解码器都是由6个相同层的堆栈组成。注意力函数被描述为将查询和一组键值对映射到输出,查询、键、值和输出都是向量。输出被计算为值的加权和。

缩放点积注意力:附加注意力使用具有一个单隐藏层的前反馈网络计算兼容性函数。

多头注意力:允许这个模型共同关注来自不同地点、不同表示子空间的信息。

注意力在模型中的应用:

1.在“encoder-decoder attention" layer中,这个查询来自之前的解码层。

2.编码器包含自我注意力层。

3.解码器中自注意力层允许解码器中每个位置关注解码器中达到并包含该位置的所有位置。

位置式前反馈网络:

除了注意力层,在我们”encoder-decoder“中的每一层包含了一个全连接前向反馈网络,这被分别相同地应用到每个位置。

嵌入和softmax:

使用学习嵌入去把输入标记和输出标记转换为维度dmodel的向量。

位置编码:

由于本文提出的模型中不包含递归或卷积,为使模型利用序列的顺序,必须投入一些有关序列中标记的相关或者绝对位置的信息。因此,把”位置编码“添加到在编码和解码栈底部的输入其纳入中。

Why Self-Attention:

作者把自注意力和循环层以及卷积层进行比较,体现自注意力的优点。

作者考虑使用自注意力的三个需求,

1.每层的总计算复杂度

2.可以并行化的计算量

3.网络中远程范围依赖之间的路径长度。

Training:

本章节即实验部分,作者使用WMT2014上的数据训练文章提出的模型,并得出实验结果。

Reults:

对于transfomer实验结果的分析,发现transformer在机器翻译的结果优于最新模型,并且在英语选区解析上的表现结果也出奇的好。

Conclusion:

1.本文提出了一个完全基于注意力的序列转导模型,用多头自我注意力取代在编码-解码架构中最常使用的推导层——Transformer。

2.未来计划将Transformer扩展到文本以外的输入和输出模式的问题。

参考资料:

国外大神写这篇文章非常通俗易懂

详解Transformer——知乎

Attention is all your need 精读文章来源地址https://www.toymoban.com/news/detail-826047.html

到了这里,关于Attention Is All Your Need论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Attention Is All You Need

    人生如茶,静心以对。时光如水,沉淀方澈。  论文: Attention Is All You Need Github: GitHub - tensorflow/tensor2tensor: Library of deep learning models and datasets designed to make deep learning more accessible and accelerate ML research. 打破传统基于cnn,lstm等的序列翻译模型,论文提出了一个新的网络结构Transf

    2023年04月09日
    浏览(46)
  • Attention is all you need ---Transformer

    大语言模型已经在很多领域大显身手,其应用包括只能写作、音乐创作、知识问答、聊天、客服、广告文案、论文、新闻、小说创作、润色、会议/文章摘要等等领域。在商业上模型即产品、服务即产品、插件即产品,任何形态的用户可触及的都可以是产品,商业付费一般都是

    2024年02月13日
    浏览(34)
  • [Diffusion] Speed is all your need

    论文简要总结 刚读了下speed is all you need这个论文, https://arxiv.org/pdf/2304.11267.pdf 只是用的SD1.4没有对网络进行改造。 只做了4个改动 1 是对norm采用了groupnorm (GPU shader加速) 2 采用了GELU (GPU shader加速) 3 采用了两种attention优化,是partitially fused softmax或者Flash attention(2种方法视情况

    2024年02月08日
    浏览(36)
  • 详细了解Transformer:Attention Is All You Need

    在机器翻译任务下,RNN、LSTM、GRU等序列模型在NLP中取得了巨大的成功,但是这些模型的训练是通常沿着输入和输出序列的符号位置进行计算的顺序计算,无法并行。 文中提出了名为Transformer的模型架构,完全依赖注意力机制(Attention Mechanisms),构建输入与输出间的依赖关系

    2024年02月08日
    浏览(48)
  • 【深度学习】语义分割:论文阅读(NeurIPS 2021)MaskFormer: per-pixel classification is not all you need

    论文:Per-Pixel Classification is Not All You Need for Semantic Segmentation / MaskFormer 代码:代码 官方-代码 笔记: 作者笔记说明 【论文笔记】MaskFormer: Per-Pixel Classification is Not All You Need for Semantic Segmentation 总结思路清晰-简洁 【MaskFormer】Per-Pixel Classification is Not All You Needfor Semantic Segmenta

    2024年02月04日
    浏览(86)
  • 大语言模型之一 Attention is all you need ---Transformer

    大语言模型已经在很多领域大显身手,其应用包括只能写作、音乐创作、知识问答、聊天、客服、广告文案、论文、新闻、小说创作、润色、会议/文章摘要等等领域。在商业上模型即产品、服务即产品、插件即产品,任何形态的用户可触及的都可以是产品,商业付费一般都是

    2024年02月12日
    浏览(46)
  • 【Transformer开山之作】Attention is all you need原文解读

    Attention Is All You Need Transformer原文解读与细节复现 在Transformer出现以前,深度学习的基础主流模型可分为卷积神经网络CNN、循环神经网络RNN、图对抗神经网络GAN。而Transformer的横空出世,吸引了越来越多的研究者的关注:Transformer不仅在NLP领域取得了耀眼的成绩,近年来甚至一

    2023年04月08日
    浏览(46)
  • P11-Transformer学习1.1-《Attention Is All You Need》

    Transformer目录:《Transformer Paper》1.0 CV Transformer必读论文5篇_汉卿HanQ的博客-CSDN博客 前文参考:Transformer1.0-预热_汉卿HanQ的博客-CSDN博客 全文1w3字左右,按照论文翻译+个人理解精读,如果对你有所帮助,欢迎点个赞哦! 目录 Abstract 一.Introduction 二.Background 三.Model Architecture 3.1Enc

    2024年02月13日
    浏览(78)
  • 翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need

    The Transformer——一个使用注意力来提高这些模型的训练速度的模型。Transformer 在特定任务中的表现优于谷歌神经机器翻译模型。然而,最大的好处来自于 The Transformer 如何使自己适合并行化。事实上,Google Cloud 建议使用 The Transformer 作为参考模型来使用他们的Cloud TPU产品。所

    2023年04月08日
    浏览(53)
  • LLM架构自注意力机制Transformers architecture Attention is all you need

    使用Transformers架构构建大型语言模型显著提高了自然语言任务的性能,超过了之前的RNNs,并导致了再生能力的爆炸。 Transformers架构的力量在于其学习句子中所有单词的相关性和上下文的能力。不仅仅是您在这里看到的,与它的邻居每个词相邻,而是与句子中的每个其他词。

    2024年02月12日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包