【动手深度学习-笔记】注意力机制(四)自注意力、交叉注意力和位置编码

这篇具有很好参考价值的文章主要介绍了【动手深度学习-笔记】注意力机制(四)自注意力、交叉注意力和位置编码。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

紧接上回:【动手深度学习-笔记】注意力机制(三)多头注意力

自注意力(Self-Attention)

在注意力机制下,我们将词元序列输入注意力汇聚中,以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。
像这样的,查询、键和值来自同一组输入的注意力机制,被称为自注意力(self-attention)或者内部注意力(intra-attention)。
给定一个由词元组成的输入序列 x 1 , … , x n , x i ∈ R d \mathbf{x}_1, \ldots, \mathbf{x}_n,\mathbf{x}_i \in \mathbb{R}^d x1,,xnxiRd,该序列的自注意力输出为一个长度相同的序列 y 1 , … , y n \mathbf{y}_1, \ldots, \mathbf{y}_n y1,,yn,其中:
y i = f ( x i , ( x 1 , x 1 ) , … , ( x n , x n ) ) ∈ R d \mathbf{y}_i = f(\mathbf{x}_i, (\mathbf{x}_1, \mathbf{x}_1), \ldots, (\mathbf{x}_n, \mathbf{x}_n)) \in \mathbb{R}^d yi=f(xi,(x1,x1),,(xn,xn))Rd
f f f是注意力汇聚函数, f f f的第一个输入参数 x i \mathbf{x}_i xi作为query,剩下的参数为 x \mathbf{x} x自己和自己组成的键值对。

例子

给出李宏毅老师课上的例子,看看自注意力是怎么工作的。

首先是将词元序列同时作为 Q 、 K 、 V \boldsymbol{Q}、\boldsymbol{K}、\boldsymbol{V} QKV的输入。这里的输入词元序列是 I = [ a 1 , … , a 4 ] , a i ∈ R d \mathbf{I}=[\mathbf{a}_1, \ldots, \mathbf{a}_4],\mathbf{a}_i \in \mathbb{R}^d I=[a1,,a4]aiRd I \mathbf{I} I分别和三个矩阵 W q 、 W k 、 W v \boldsymbol{W}^{q}、\boldsymbol{W}^{k}、\boldsymbol{W}^{v} WqWkWv相乘得到 Q 、 K 、 V \boldsymbol{Q}、\boldsymbol{K}、\boldsymbol{V} QKV,这里的 W q 、 W k 、 W v \boldsymbol{W}^{q}、\boldsymbol{W}^{k}、\boldsymbol{W}^{v} WqWkWv是可学习的参数。
交叉注意力,深度学习笔记,深度学习,人工智能,神经网络

然后这个例子使用了点积注意力评分,对于 Q \boldsymbol{Q} Q中的每一个分量 q i \bold{q}_i qi,把它和 K \boldsymbol{K} K中所有的 k i \bold{k}_i ki相乘,得到注意力权重向量 α i \bold{\alpha}_i αi(图中的灰色部分):
交叉注意力,深度学习笔记,深度学习,人工智能,神经网络
把所有的 q i \bold{q}_i qi得到的权重向量拼起来再通过softmax,得到的就是权重矩阵:
交叉注意力,深度学习笔记,深度学习,人工智能,神经网络
最后将权重矩阵与 V \bold{V} V相乘,得到最终的输出序列 O \bold{O} O,它的形状和输入序列 I \bold{I} I一致:
交叉注意力,深度学习笔记,深度学习,人工智能,神经网络
总结一下,自注意力就是一系列如下的矩阵运算过程,只有 W q 、 W k 、 W v \boldsymbol{W}^{q}、\boldsymbol{W}^{k}、\boldsymbol{W}^{v} WqWkWv是要学习的参数:
交叉注意力,深度学习笔记,深度学习,人工智能,神经网络

Self-Attention vs Convolution

我们比较一下自注意力和卷积这两个架构。

卷积具有固定的感受野(receptive field),感受野的大小通常是人为设计的,对于每个像素,考虑的是感受野范围的信息,学习的是过滤器
而自注意力可以获取到全局的信息,然后经过学习,模型可以自己判断对于每个像素的query,需要考虑到哪些像素的key、多大范围内的key,它同时学习过滤器和感受野的形状

可以说,卷积是自注意力机制的特例,自注意力是卷积的一般化形式

有一篇论文专门从数学角度严格分析了卷积和自注意力的关系
On the Relationship between Self-Attention and Convolutional Layers
有兴趣的可以看看,我这里引用一下论文结论中的一句话:

More generally, fully-attentional models seem to learn a generalization of CNNs where the kernel pattern is learned at the same time as the filters—similar to deformable convolutions.
更一般地说,完全注意力模型似乎学习了CNN的一般化,其中内核模式与过滤器同时学习——类似于可变形卷积

Self-Attention vs RNN

再比较一下自注意力和循环神经网络RNN这两个架构。

RNN的输入输出和自注意力很类似,都是输入一个序列输出一个序列。

RNN的特点在于,对于一个输入序列的某个词元,它只考虑该词元之前输入的词元信息(这里指最一般的单向RNN,双向RNN也是可以考虑双向信息的),且如果是一个很长的序列,那么开头的词元信息就很难保留到末尾的词元;
自注意力可以获取到全局的信息,而且对于一个词元,它和任意位置的词元的关联计算都是一样的,不会有长序列信息丢失的问题。

在运算方面,由于RNN的结构限制,每一个词元输出的计算是不能并行执行的,必须要先等之前输入的词元完成计算;
自注意力,我们上面讲过了,可以很好地表示成矩阵运算的形式,使得各个词元输出的计算可以同时进行。

交叉注意力(Cross Attention)

对于交叉注意,键和值相同但与查询不同,从而引入了它们的相互依赖关系。

位置编码(Position Encoding,PE)

在自注意力机制中,词向量是不带位置信息的,也就是说,将词的顺序打乱,得到的输出是一样的。

所以需要给词向量添加位置信息,表示其顺序关系。

Transformer使用了三角位置编码:
P E ( p o s , 2 i ) = sin ⁡ ( p o s / 1000 0 2 i / d model  ) P E ( p o s , 2 i + 1 ) = cos ⁡ ( p o s / 1000 0 2 i / d model  ) \begin{aligned} P E_{(p o s, 2 i)} &=\sin \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \\ P E_{(p o s, 2 i+1)} &=\cos \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \end{aligned} PE(pos,2i)PE(pos,2i+1)=sin(pos/100002i/dmodel )=cos(pos/100002i/dmodel )
其中 p o s pos pos是词向量在序列中的位置, i i i表示的是词向量内的第 i i i个分量, d m o d e l d_{model} dmodel是词向量的长度。

由上式可知,词向量的偶数维用 sin ⁡ \sin sin编码,奇数维用 cos ⁡ \cos cos编码,这样编码的原因是基于三角函数的和差化积性质
sin ⁡ ( α + β ) = sin ⁡ α cos ⁡ β + cos ⁡ α sin ⁡ β cos ⁡ ( α + β ) = cos ⁡ α cos ⁡ β − sin ⁡ α sin ⁡ β \begin{aligned} \sin (\alpha+\beta)=\sin \alpha \cos \beta+\cos \alpha \sin \beta \\ \cos (\alpha+\beta)=\cos \alpha \cos \beta-\sin \alpha \sin \beta \end{aligned} sin(α+β)=sinαcosβ+cosαsinβcos(α+β)=cosαcosβsinαsinβ
这样一来,这表明位置 α + β α+β α+β的向量可以表示成位置 α α α和位置 β β β的向量组合,这提供了表达相对位置信息的可能性

比如 p o s = 10 pos=10 pos=10可以和 p o s = 1 , p o s = 9 pos=1, pos=9 pos=1,pos=9处的词向量建立联系,或者 p o s = 2 , p o s = 8 pos=2,pos=8 pos=2,pos=8等。

视觉中的二维位置编码

DETR中,为了保留特征的空间信息,没有将二维数据平铺为一维,而是分别对行和列进行位置编码。

参考

10.6. 自注意力和位置编码 — 动手学深度学习 2.0.0-beta1 documentation
位置编码公式详细理解补充_bilibili
让研究人员绞尽脑汁的Transformer位置编码 - 科学空间|Scientific Spaces (kexue.fm)
Jean-Baptiste Cordonnier et al. “On the Relationship between Self-Attention and Convolutional Layers…” Learning (2019): n. pag.文章来源地址https://www.toymoban.com/news/detail-794497.html

到了这里,关于【动手深度学习-笔记】注意力机制(四)自注意力、交叉注意力和位置编码的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习注意力机制系列】—— ECANet注意力机制(附pytorch实现)

    ECANet(Efficient Channel Attention Network) 是一种 用于图像处理任务的神经网络架构,它在保持高效性的同时,有效地捕捉图像中的通道间关系,从而提升了特征表示的能力 。ECANet通过引入通道注意力机制,以及在卷积层中嵌入该机制,取得了优越的性能。本文将对ECANet的核心思

    2024年02月13日
    浏览(49)
  • 【深度学习注意力机制系列】—— SCSE注意力机制(附pytorch实现)

    SCSE注意力模块 (来自论文[1803.02579] Concurrent Spatial and Channel Squeeze Excitation in Fully Convolutional Networks (arxiv.org))。其对SE注意力模块进行了改进,提出了 cSE、sSE、scSE 三个模块变体,这些模块可以 增强有意义的特征,抑制无用特征 。今天我们就分别讲解一下这三个注意力模块。

    2024年02月13日
    浏览(56)
  • 【深度学习注意力机制系列】—— CBAM注意力机制(附pytorch实现)

    CBAM(Convolutional Block Attention Module) 是一种用于增强卷积神经网络(CNN)性能的注意力机制模块。它由Sanghyun Woo等人在2018年的论文[1807.06521] CBAM: Convolutional Block Attention Module (arxiv.org)中提出。CBAM的主要目标是 通过在CNN中引入通道注意力和空间注意力 来提高模型的感知能力,从

    2024年02月13日
    浏览(40)
  • 【深度学习注意力机制系列】—— SKNet注意力机制(附pytorch实现)

    SKNet(Selective Kernel Network) 是一种用于图像分类和目标检测任务的深度神经网络架构,其核心创新是 引入了选择性的多尺度卷积核(Selective Kernel)以及一种新颖的注意力机制 ,从而在不增加网络复杂性的情况下提升了特征提取的能力。SKNet的设计旨在 解决多尺度信息融合的

    2024年02月13日
    浏览(52)
  • 【深度学习】注意力机制

    注意力机制(Attention Mechanism)是一种在计算机科学和机器学习中常用的技术,可以使模型在处理序列数据时更加准确和有效。在传统的神经网络中,每个神经元的输出只依赖于前一层的所有神经元的输出,而在注意力机制中,每个神经元的输出不仅仅取决于前一层的所有神经

    2024年02月02日
    浏览(41)
  • 《动手学深度学习 Pytorch版》 10.6 自注意力和位置编码

    在注意力机制中,每个查询都会关注所有的键-值对并生成一个注意力输出。由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention),也被称为内部注意力(intra-attention)。本节将使用自注意力进行序列编码,以及使用序列的顺序作为补充信息。 给定一个由

    2024年02月06日
    浏览(44)
  • 深度学习——常见注意力机制

    SENet属于通道注意力机制。2017年提出,是imageNet最后的冠军 SENet采用的方法是对于特征层赋予权值。 重点在于如何赋权 1.将输入信息的所有通道平均池化。 2.平均池化后进行两次全连接,第一次全连接链接的神经元较少,第二次全连接神经元数和通道数一致 3.将Sigmoid的值固定

    2024年02月14日
    浏览(33)
  • 深度学习(5)---自注意力机制

     1. 一般情况下在简单模型中我们输入一个向量,输出结果可能是一个数值或者一个类别。但是在复杂的模型中我们一般会输入一组向量,那么输出结果可能是一组数值或一组类别。  2. 一句话、一段语音、一张图等都可以转换成一组向量。  3. 输入一组向量,一般输出结

    2024年01月23日
    浏览(44)
  • 【深度学习实验】注意力机制(一):注意力权重矩阵可视化(矩阵热图heatmap)

    ​    注意力机制 作为一种模拟人脑信息处理的关键工具,在深度学习领域中得到了广泛应用。本系列实验旨在通过理论分析和代码演示,深入了解注意力机制的原理、类型及其在模型中的实际应用。 本文将介绍将介绍 注意力权重矩阵可视化 (矩阵热图heatmap)   本系

    2024年02月05日
    浏览(45)
  • 深度学习笔记之Seq2seq(二)基于Seq2seq注意力机制的动机

    上一节介绍了 Seq2seq text{Seq2seq} Seq2seq 网络常用的基本结构以及在 机器翻译 任务中,关于 目标函数 与 预测概率 的描述。本节依然以 机器翻译 任务为例,对 Seq2seq text{Seq2seq} Seq2seq 中的 注意力机制 ( Attention ) (text{Attention}) ( Attention ) 进行描述。 关于 机器翻译 任务的 Seq2

    2024年02月09日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包