Transformer模型简单介绍

这篇具有很好参考价值的文章主要介绍了Transformer模型简单介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Transformer是一个深度学习模型。主要功能通俗的来说就是翻译。输入,处理,输出。
https://zhuanlan.zhihu.com/p/338817680 大牛写的很完整

总框架

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能

  • Encoders: 编码器
  • Decoders: 解码器

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Encoder和Decoder结构是不同的,6个Encoder是完全相同的,6个Decoder是完全相同的。
这里的6个Encoder完全相同,指的是结构相同但是参数不同。

Encoder

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能

输入部分

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Embedding翻译成中文: 嵌入。

输入部分:

  • 单词 Embedding(Embedding就是从原始数据提取出来的Feature)
    单词的 Embedding 有很多种方式可以获取,例如可以采用 Word2Vec、Glove 等算法预训练得到,也可以在 Transformer 中训练得到。
  • 位置 Embedding
    Transformer 中除了单词的 Embedding,还需要使用位置 Embedding 表示单词出现在句子中的位置。因为 Transformer 不采用 RNN 的结构,而是使用全局信息,不能利用单词的顺序信息,而这部分信息对于 NLP 来说非常重要。所以 Transformer 中使用位置 Embedding 保存单词在序列中的相对或绝对位置。

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能

注意力机制

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
上图是论文中 Transformer 的内部结构图,左侧为 Encoder block,右侧为 Decoder block。红色圈中的部分为 Multi-Head Attention,是由多个 Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。Multi-Head Attention 上方还包括一个 Add & Norm 层,Add 表示残差连接 (Residual Connection) 用于防止网络退化,Norm 表示 Layer Normalization,用于对每一层的激活值进行归一化。
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Q, K, V 的计算
Self-Attention 的输入用矩阵X进行表示,则可以使用线性变阵矩阵WQ,WK,WV计算得到Q,K,V。
计算如下图所示,注意 X, Q, K, V 的每一行都表示一个单词。
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Self-Attention 的输出
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Multi-Head Attention
在上一步,我们已经知道怎么通过 Self-Attention 计算得到输出矩阵 Z,而 Multi-Head Attention 是由多个 Self-Attention 组合形成的,下图是论文中 Multi-Head Attention 的结构图。
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
残差和LayNorm

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Add and Norm
Add表示残差连接(Residual Connection)用于防止网络退化,Norm表示Layer Normalizaion,用于对每一层的激活值进行归一化。
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能

前馈神经网络

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能

Decoder

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能

Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Transformer模型简单介绍,# 知识点,transformer,深度学习,人工智能
Encoder的每一个输出和每一个Decoder都做交互。文章来源地址https://www.toymoban.com/news/detail-613315.html

到了这里,关于Transformer模型简单介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Transformer 模型实用介绍:BERT

    动动发财的小手,点个赞吧! 在 NLP 中,Transformer 模型架构是一场革命,极大地增强了理解和生成文本信息的能力。 在 本教程 [1] 中,我们将深入研究 BERT(一种著名的基于 Transformer 的模型),并提供一个实践示例来微调基本 BERT 模型以进行情感分析。 BERT 由 Google 研究人员

    2024年02月16日
    浏览(29)
  • 深入了解 Transformers – Part 1: 介绍 Transformer 模型

    动动发财的小手,点个赞吧! 自从最新的Large Language Models(LLaM)发布以来,如OpenAI的GPT系列、开源模型Bloom或谷歌发布的LaMDA等,Transformer展现出了巨大的潜力,成为了深度学习的前沿架构楷模。 尽管已经有几篇文章介绍了 transformer 及其背后的数学原理,但在 本文 [1] 中,我

    2024年02月04日
    浏览(35)
  • NLP重要知识点:预训练模型【核心且详细】

    本资料是NLP核心知识点的ppt!!!【文章较长,建议收藏】 本节课我们学习预训练模型。 我们在学习词向量的时候,应该知道了多个产生词向量的方法,包括基于矩阵(词-词共现矩阵)分解的方法、基于语言模型(word2vec)的方法、以及结合二者优点的Glove模型等其他产生词

    2024年04月09日
    浏览(36)
  • 嵌入式机器人系统ROS入门相关知识点介绍

    本文旨在收集整理linux系统、ROS系统、树莓派、ssh软件的相关基础知识。 重点是ROS系统相关的知识,根据该实验课程的要求,最后修改的代码,都是由ROS组织起来,运行在ROS环境下的。 1、ssh软件–mobaXterm ssh:SSH通过在网络中创建安全隧道来实现SSH客户端与服务器之间的连接

    2024年02月06日
    浏览(44)
  • 亚马逊认证考试系列 - 知识点 - 对象存储S3考点介绍

    Amazon S3(Simple Storage Service)是AWS提供的一项面向Web开发人员的在线存储服务。它可以为互联网上的任何数量和任何类型的数据提供可扩展的存储空间。 Amazon S3的核心功能是存储和检索数据,具有高度的可扩展性、安全性、耐用性和性能。S3 的可扩展性表现在以下几个方面:

    2024年02月11日
    浏览(36)
  • [SVA知识点一]: System verilog 断言(assert)的基本介绍

    断言(System Verilog Assertion 简称SVA) 可以被放在RTL设计或验证平台中,方便在仿真时查看异常情况。一般在数字电路设计中都要加入断言,断言占整个设计的比例应不少于30%。断言通常被称为序列监视器或者序列检验器,是对设计应当如何执行特定行为的描述,是一种嵌入设

    2024年02月10日
    浏览(41)
  • [SVA知识点二]: System verilog 断言(assert)的基本介绍

    举例介绍序列: 例1 序列seq1检查信号 “b” 在每个时钟上升沿都为高电平。如果信号 “b” 在任何一个时钟上升沿不为高电平,断言将失败。这相当于 “b == 1’b1”。 例2 例3:带参数的sequence 例4:带时序关系的sequence,在SVA 中时钟延时用符号 “##” 来表示,如 “##2” 表示

    2024年02月02日
    浏览(39)
  • 《高等工程数学》各知识点解题思路梳理(基于AI模型)

    1.给定线性空间的一个基,求一给定向量在该基下的坐标 假设给定线性空间 V V V 的一个基为 { v 1 , v 2 , ⋯   , v n } {mathbf{v}_1,mathbf{v}_2, cdots, mathbf{v}_n} { v 1 ​ , v 2 ​ , ⋯ , v n ​ } ,要求一个向量 v mathbf{v} v 在该基下的坐标。 由于 { v 1 , v 2 , ⋯   , v n } {mathbf{v}_1,mat

    2023年04月08日
    浏览(80)
  • 数学模型与数学建模(急救版80+)常考知识点(一)

    1.重点基础 clear: 清除内存里的数据   clc:清屏 变量名的第一个字符必须是字母,后面可加字母、数字和下划线的任意组合;变量名有大小区分 A=[1,-2,5,6,-4,9] A =      1    -2     5     6    -4     9 A=[1,-2,5;6,-4,9] A =      1    -2     5      6    -4     9 A=[

    2024年02月03日
    浏览(43)
  • 数学模型与数学建模(急救版80+)常考知识点(二)

    设有随机过程,其中状态空间为  若对任意的正整数,任意 及任意非负整数 ,有                           则称为离散时间的马尔可夫链,简称马尔可夫链或马氏链.其中上式表示的性质为马尔可夫性或无后效性. 无后效性的直观意义是:如果把时刻看作现在,那么 是将

    2024年01月19日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包