multi-head_seft-attention（多头自注意力）

1年前作者：aglo分类：Toy博客阅读(6)违法举报

这篇具有很好参考价值的文章主要介绍了multi-head_seft-attention（多头自注意力）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

对比

相比于single-head，multi-head就是将 $q^i$ 分成了 $h$ 份
multi-head_seft-attention（多头自注意力）,自然语言处理

multi-head_seft-attention的计算过程

将 $q^i$ 分成了 $h$ 份
计算过程

对于每个Head，我们可以提取出他的 $b_{11}$ 到 $b_{m1}$ ，以 $Head_1$ 举例

将输入序列进行embedding后，变为向量 $a_1$ , $a_2$ , $a_3$ , $a_4$
分别乘 $W_1$ , $W_2$ , $W_3$ 后，提取 $q^1$ 、 $k^1$ 、 $v^1$ ，将 $q^1$ 分成了 $h$ 份，其他两个也一样
$q^{11}$ query分别和自己的 $k^{11}$ 以及其他token的key相乘，得到m个相似度分数，再经过softmax处理，得到新的m个分数。
将处理后的权重得分分别于 $v^{11}$ 、… 、 $v^{m1}$ 相乘，结果再相加，得到 $b_{11}$ ，其他以此类推，直到 $b_{m1}$

multi-head_seft-attention（多头自注意力）,自然语言处理

在这之后，我们将对应位置的 $b$ ，concat起来

先按列concat，再按行concat
- 所有head中的第一个 $b_{11}$ 、 $b_{12}$ 等，我们把它concat起来，组成一个大 $b_1$
- 对于第m个位置，我们将所有head中的 $b_{mi}$ concat起来，组成一个大 $b_m$
$W^o$ 代表进行全连接，得到一个最终的结果[ $b_1$ 、… 、 $b_m$ ]

m就是token的个数
d_model就是每个token的维度

文章来源地址https://www.toymoban.com/news/detail-639218.html

到了这里，关于multi-head_seft-attention（多头自注意力）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Python 基于pytorch实现多头自注意力机制代码；Multiheads-Self-Attention代码实现
多头自注意力机制（Multi-Head Self-Attention）是一种注意力机制的变体，用于增强模型在处理序列数据时的建模能力。它在自注意力机制的基础上引入了多个头（Attention Head），每个头都可以学习到不同的注意力权重分布，从而能够捕捉到不同的关系和特征。多头自注意力机制可
2024年04月26日
浏览(7)
学习Transformer前言（Self Attention Multi head self attention）
一直在做项目，也比较懒没有挤出时间去学习新的东西，感觉停滞很久了，好长一段时间都没有新的知识输入，早就需要就去学习transformer了，因此先来学习注意力机制，本文为个人的一个笔记总结。主要是基于李宏毅老师的一个课程视频笔记，论文原文，加上B站UP主的霹雳
2024年02月02日
浏览(7)
深入理解Transformer，兼谈MHSA（多头自注意力）、Cross-Attention（交叉注意力）、LayerNorm、FFN、位置编码
Transformer其实不是完全的Self-Attention（SA，自注意力）结构，还带有Cross-Attention（CA，交叉注意力）、残差连接、LayerNorm、类似1维卷积的Position-wise Feed-Forward Networks（FFN）、MLP和Positional Encoding（位置编码）等本文涵盖Transformer所采用的MHSA（多头自注意力）、LayerNorm、FFN、位置编
2024年04月12日
浏览(23)
多维时序 | MATLAB实现TSOA-TCN-Multihead-Attention多头注意力机制多变量时间序列预测
预测效果基本介绍 MATLAB实现TSOA-TCN-Multihead-Attention多头注意力机制多变量时间序列预测。模型描述 MATLAB实现TSOA-TCN-Multihead-Attention凌日优化时间卷积神经网络融合多头自注意力机制的多变量时间序列预测，用于处理时间序列数据；适用平台：Matlab 2023及以上 1.data为数据集，格
2024年02月05日
浏览(11)
【深度学习】Transformer，Self-Attention，Multi-Head Attention
必读文章： https://blog.csdn.net/qq_37541097/article/details/117691873 论文名：Attention Is All You Need Query（Q）表示当前时间步的输入信息，它与Key（K）进行点积操作，用于计算注意力权重。 Key（K）表示序列中所有时间步的信息，与Query（Q）进行点积操作，用于计算注意力权重。 Value（
2024年02月12日
浏览(7)
transfomer中Multi-Head Attention的源码实现
本专栏主要是深度学习/自动驾驶相关的源码实现,获取全套代码请参考 Multi-Head Attention是一种注意力机制,是transfomer的核心机制,就是图中黄色框内的部分. Multi-Head Attention的原理是通过将模型分为多个头，形成多个子空间，让模型关注不同方面的信息。每个头独立进行注意力运
2024年01月17日
浏览(6)
区间预测 | MATLAB实现基于QRCNN-GRU-Multihead-Attention多头注意力卷积门控循环单元多变量时间序列区间预测
效果一览基本介绍 1.Matlab实现基于CNN-GRU-Multihead-Attention-KDE卷积神经网络结合门控循环单元多头注意力多变量时间序列区间预测； 2.多图输出、点预测多指标输出(MAE、MAPE、RMSE、MSE、R2)，区间预测多指比输出（区间覆盖率PICP、区间平均宽度百分比PINAW），多输入单输出，含点
2024年02月07日
浏览(8)
多维时序 | Matlab实现GWO-TCN-Multihead-Attention灰狼算法优化时间卷积网络结合多头注意力机制多变量时间序列预测
效果一览基本介绍 1.Matlab实现GWO-TCN-Multihead-Attention灰狼算法优化时间卷积网络结合多头注意力机制多变量时间序列预测（完整源码和数据） 2.运行环境为Matlab2023b； 3.excel数据集，输入多个特征，输出单个变量，考虑历史特征的影响，多变量时间序列预测，main.m为主程序，运
2024年01月24日
浏览(13)
多维时序 | Matlab实现LSTM-Mutilhead-Attention长短期记忆神经网络融合多头注意力机制多变量时间序列预测模型
预测效果基本介绍 1.Matlab实现LSTM-Mutilhead-Attention长短期记忆神经网络融合多头注意力机制多变量时间序列预测模型（完整源码和数据) 2.运行环境Matlab2023及以上，excel数据集，多列输入，单列输出，方便替换数据，考虑历史特征的影响； 3.多指标评价，评价指标包括：R2、MA
2024年02月20日
浏览(16)
深度学习 - 51.推荐场景下的 Attention And Multi-Head Attention 简单实现 By Keras
目录一.引言二.计算流程 1.Attention 结构 2.Multi-Head Attention 结构三.计算实现 1.Item、序列样本生成 2.OwnAttention Layer 实现 2.1 init 初始化 2.2 build 参数构建 2.3 call 逻辑调用 3.OwnAttention Layer 测试四.总结 Attention And Multi-Head Attention 一文中我们简单介绍了 Attention 与 Multi-Head Attenti
2024年02月07日
浏览(12)