【李宏毅机器学习】注意力机制

1年前作者：INGg__分类：Toy博客阅读(6)违法举报

这篇具有很好参考价值的文章主要介绍了【李宏毅机器学习】注意力机制。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

输出

我们会遇到不同的任务，针对输出的不一样，我们对任务进行划分

给多少输出多少

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

给一堆向量，输出一个label，比如说情感分析

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

还有一种任务是由机器决定的要输出多少个label，seq2seq的任务就是这种，翻译也是

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

Sequence Labeling

如果要考虑时序信息，每次可以选取前后固定长度的信息输入到fc层，但是运算量很大需要的参数也很多

新的方法能考虑整个input sequence

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

fc专注处理某一个位置的信息，self-attention来考虑整个sequence的信息

模型细节

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

每个b都是考虑整个sequence来产生的

那么是如何产生的？

我们需要找到一些相关的向量来帮助决定 $a^1$ ，用 $\alpha$ 来表示相关的重要性

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

那么怎么决定 $\alpha$ 呢，有两种方式

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

用 $a^1$ 分别与其他的向量分别进行计算相关性

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

一般而言，也会跟自己计算相关性

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

然后接一个softmax

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

根据attention的分数，也就是计算出来的每一个 $\alpha$ 值来抽取重要的信息

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

转换为矩阵运算形式：

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

多头注意力

多头注意力是自注意力的一个进阶的版本

多头注意力的关键在于Q是有不同的多个进行询问的，这样带来的好处与卷积也比较类似，我们采用不同的Q来负责不同种类的相关性

计算方式上，与自注意力机制比较类似，每个计算过程中只关注对应的（比如计算1的时候只把1拿出来）

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

位置编码

有时位置的距离也比较重要，我们需要存储位置的信息

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

For Image

横着来看做一个vector，众多vector作为输入，输入进model

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能文章来源地址https://www.toymoban.com/news/detail-671656.html

到了这里，关于【李宏毅机器学习】注意力机制的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【深度学习注意力机制系列】—— SENet注意力机制（附pytorch实现）
深度学习中的注意力机制（Attention Mechanism）是一种模仿人类视觉和认知系统的方法，它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制，神经网络能够自动地学习并选择性地关注输入中的重要信息，提高模型的性能和泛化能力。卷积神经网络
2024年02月14日
浏览(11)
【深度学习注意力机制系列】—— SCSE注意力机制（附pytorch实现）
SCSE注意力模块（来自论文[1803.02579] Concurrent Spatial and Channel Squeeze Excitation in Fully Convolutional Networks (arxiv.org)）。其对SE注意力模块进行了改进，提出了 cSE、sSE、scSE 三个模块变体，这些模块可以增强有意义的特征，抑制无用特征。今天我们就分别讲解一下这三个注意力模块。
2024年02月13日
浏览(11)
【深度学习注意力机制系列】—— ECANet注意力机制（附pytorch实现）
ECANet（Efficient Channel Attention Network）是一种用于图像处理任务的神经网络架构，它在保持高效性的同时，有效地捕捉图像中的通道间关系，从而提升了特征表示的能力。ECANet通过引入通道注意力机制，以及在卷积层中嵌入该机制，取得了优越的性能。本文将对ECANet的核心思
2024年02月13日
浏览(9)
【深度学习注意力机制系列】—— CBAM注意力机制（附pytorch实现）
CBAM（Convolutional Block Attention Module）是一种用于增强卷积神经网络（CNN）性能的注意力机制模块。它由Sanghyun Woo等人在2018年的论文[1807.06521] CBAM: Convolutional Block Attention Module (arxiv.org)中提出。CBAM的主要目标是通过在CNN中引入通道注意力和空间注意力来提高模型的感知能力，从
2024年02月13日
浏览(9)
【深度学习】注意力机制
注意力机制（Attention Mechanism）是一种在计算机科学和机器学习中常用的技术，可以使模型在处理序列数据时更加准确和有效。在传统的神经网络中，每个神经元的输出只依赖于前一层的所有神经元的输出，而在注意力机制中，每个神经元的输出不仅仅取决于前一层的所有神经
2024年02月02日
浏览(14)
《动手学深度学习 Pytorch版》 10.6 自注意力和位置编码
在注意力机制中，每个查询都会关注所有的键－值对并生成一个注意力输出。由于查询、键和值来自同一组输入，因此被称为自注意力（self-attention），也被称为内部注意力（intra-attention）。本节将使用自注意力进行序列编码，以及使用序列的顺序作为补充信息。给定一个由
2024年02月06日
浏览(10)
深度学习——常见注意力机制
SENet属于通道注意力机制。2017年提出，是imageNet最后的冠军 SENet采用的方法是对于特征层赋予权值。重点在于如何赋权 1.将输入信息的所有通道平均池化。 2.平均池化后进行两次全连接，第一次全连接链接的神经元较少，第二次全连接神经元数和通道数一致 3.将Sigmoid的值固定
2024年02月14日
浏览(10)
深度学习（5）---自注意力机制
1. 一般情况下在简单模型中我们输入一个向量，输出结果可能是一个数值或者一个类别。但是在复杂的模型中我们一般会输入一组向量，那么输出结果可能是一组数值或一组类别。 2. 一句话、一段语音、一张图等都可以转换成一组向量。 3. 输入一组向量，一般输出结
2024年01月23日
浏览(10)
机器学习的注意力机制学习笔记（三）
自注意力机制（Self-Attention）是一种用于建模序列数据的注意力机制，最常用于自然语言处理领域中的序列建模任务，如机器翻译和语言生成。自注意力机制的核心思想是，通过计算序列中各个位置之间的注意力权重，来动态地为每个位置
2024年02月12日
浏览(8)
机器学习的注意力机制学习笔记（二）
内积注意力机制（Dot Product Attention Mechanism）是一种计算注意力权重的方法，常用于自注意力机制中。在内积注意力机制中，注意力权重的计算基于查询（query）和键（key）之间的内积（点积）。这种方法的计算简单高效，常用于序列建模任务，如机器
2024年02月12日
浏览(5)