self-attention为什么要除以根号d_k

1年前作者：想念@思恋分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了self-attention为什么要除以根号d_k。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

self-attention的公式为
$\frac{QK}{\sqrt{d_{k}}})V$

个人理解，除以 $\sqrt{d_{k}}$ 的原因有两点：
$d_{k}$ 是词向量/隐藏层的维度
1、首先要除以一个数，防止输入softmax的值过大，导致偏导数趋近于0；
2、选择根号d_k是因为可以使得q*k的结果满足期望为0，方差为1的分布，类似于归一化。

公式分析，首先假设q和k都是服从期望为0，方差为1的独立的随机变量。
Assume： $X=q_{i}$ ， $Y=k_{i}$ ，那么：
1、 $E (X Y) = E (X) E (Y) = 0 * 0 = 0$
2、 $D(XY)=E(X^{2}Y^{2})-[E(XY)]^{2}$
$E(X^{2})E(Y^{2})-[E(X)E(Y)]^{2}$
$E(X^{2}-0^{2})E(Y^{2}-0^{2})-[E(X)E(Y)]^{2}$
$E(X^{2}-[E(X)]^{2})E(Y^{2}-[E(Y)]^{2})-[E(X)E(Y)]^{2}$
$E(X^{2})-[E(X)]^{2}][E(Y^{2})-[E(Y)]^{2}]-[E(X)E(Y)]^{2}$
$D(X)D(Y)-[E(X)E(Y)]^{2}$
$= 1 * 1 - 0 * 0$
$= 1$
3、 $D(\frac{QK}{\sqrt{d_{k}}})=\frac{d_{k}}{(\sqrt{d_{k}})^{2}}=1$
需要注意的是， $D(QK)=D(\sum_{i=0}^{d_{k}}q_{i}k_{i})=d_{k}*1=d_{k}$

附：AI工具箱
链接：https://hxmbzkv9u5i.feishu.cn/docx/Mv4Dd8TEYoUmTAxfpLtcUoOKnZc?from=from_copylink文章来源地址https://www.toymoban.com/news/detail-409357.html

到了这里，关于self-attention为什么要除以根号d_k的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【Transformer】自注意力机制Self-Attention
\\\"Transformer\\\"是一种深度学习模型，首次在\\\"Attention is All You Need\\\"这篇论文中被提出，已经成为自然语言处理（NLP）领域的重要基石。这是因为Transformer模型有几个显著的优点：自注意力机制（Self-Attention）：这是Transformer最核心的概念，也是其最大的特点。通过自注意力机制，模
2024年02月13日
浏览(6)
【深度学习】Transformer，Self-Attention，Multi-Head Attention
必读文章： https://blog.csdn.net/qq_37541097/article/details/117691873 论文名：Attention Is All You Need Query（Q）表示当前时间步的输入信息，它与Key（K）进行点积操作，用于计算注意力权重。 Key（K）表示序列中所有时间步的信息，与Query（Q）进行点积操作，用于计算注意力权重。 Value（
2024年02月12日
浏览(6)
自注意力(Self-Attention)与Multi-Head Attention机制详解
自注意力机制属于注意力机制之一。与传统的注意力机制作用相同，自注意力机制可以更多地关注到输入中的关键信息。self-attention可以看成是multi-head attention的输入数据相同时的一种特殊情况。所以理解self attention的本质实际上是了解multi-head attention结构。对于一个mul
2024年02月02日
浏览(9)
层层剖析，让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理
本文基于李宏毅老师对 Self-Attention 的讲解，进行理解和补充，并结合Pytorch代码，最终目的是使得自己和各位读者更好的理解 Self-Attention 李宏毅Self-Attention链接: https://www.youtube.com/watch?v=hYdO9CscNes PPT链接见视频下方通过本文的阅读，你可以获得以下知识：什么是Self-Attention，为
2024年02月02日
浏览(10)
相对位置编码之RPR式：《Self-Attention with Relative Position Representations》论文笔记
😄 额，本想学学XLNet的，然后XLNet又是以transformer-XL为主要结构，然后transformer-XL做了两个改进：一个是结构上做了segment-level的循环机制，一个是在attention机制里引入了相对位置编码信息来避免不同segment的同一位置采用相同的绝对位置编码的不合理。但无奈看到相对位置编码
2024年02月17日
浏览(10)
Transformer的Q、K、V和Mutil-Head Self-Attention（超详细解读）
目录一.什么是Q、K、V 二.Mutil-Head Self-Attention Transformer大行其道，在众多领域取得了不可忽视的成就。如今大火的语言大模型LLM也都是基于Transformer，但是Transformer中的Q、K、V和多头注意力到底是什么呢？这里简单做个学习记录，进行再一次认识和掌握。 Transformer中的Q、K和
2024年02月06日
浏览(10)
NLP入门：word2vec & self-attention & transformer & diffusion的技术演变
这一段时间大模型的相关进展如火如荼，吸引了很多人的目光；本文从nlp领域入门的角度来总结相关的技术路线演变路线。 1、introduction 自然语言处理（Natural Language Processing），简称NLP，是通过统计学、数学模型、机器学习等相关技术研究人类语言的特征，对其进行数学的表
2024年02月11日
浏览(7)
【读点论文】Separable Self-attention for Mobile Vision Transformers，通过引入隐变量将Q矩阵和K矩阵的算数复杂度降低成线性复杂度，分步计算注意力。
移动视觉transformer(MobileViT)可以在多个移动视觉任务中实现最先进的性能，包括分类和检测。虽然这些模型的参数较少，但与基于卷积神经网络的模型相比，它们具有较高的延迟。MobileViT的主要效率瓶颈是transformer中的多头自我注意(MHA)，相对于令牌(或补丁)的数量k，它需要
2023年04月16日
浏览(7)
Netty为什么高效，为什么这么受欢迎？
上篇文章通过 Java NIO 的处理流程与 Netty 的总体流程比较，并结合 Netty 的源码，可以更加清晰地理解Netty。本文将结合源码详细解析Netty的高效和强大功能的设计原理，学习 Netty 是如何实现其卓越的性能和功能特性，也希望可以在日后工作中利用到 Netty 的设计思想。我们先看
2024年02月12日
浏览(19)
Redis—Redis介绍（是什么/为什么快/为什么做MySQL缓存等）
一、Redis是什么 Redis 是一种基于内存的数据库，对数据的读写操作都是在内存中完成，因此读写速度非常快，常用于缓存，消息队列、分布式锁等场景。 Redis 提供了多种数据类型来支持不同的业务场景，比如 String(字符串)、Hash(哈希)、 List (列表)、Set(集合)、
2024年02月10日
浏览(12)