【李宏毅机器学习】注意力机制

这篇具有很好参考价值的文章主要介绍了【李宏毅机器学习】注意力机制。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

输出

我们会遇到不同的任务,针对输出的不一样,我们对任务进行划分

给多少输出多少

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

给一堆向量,输出一个label,比如说情感分析

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

还有一种任务是由机器决定的要输出多少个label,seq2seq的任务就是这种,翻译也是

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

Sequence Labeling

如果要考虑时序信息,每次可以选取前后固定长度的信息输入到fc层,但是运算量很大需要的参数也很多

新的方法能考虑整个input sequence

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

fc专注处理某一个位置的信息,self-attention来考虑整个sequence的信息

模型细节

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

每个b都是考虑整个sequence来产生的

那么是如何产生的?

我们需要找到一些相关的向量来帮助决定 a 1 a^1 a1,用 α \alpha α来表示相关的重要性

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

那么怎么决定 α \alpha α呢,有两种方式

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

a 1 a^1 a1分别与其他的向量分别进行计算相关性

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

一般而言,也会跟自己计算相关性

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

然后接一个softmax

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

根据attention的分数,也就是计算出来的每一个 α \alpha α值来抽取重要的信息

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

转换为矩阵运算形式:

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

多头注意力

多头注意力是自注意力的一个进阶的版本

多头注意力的关键在于Q是有不同的多个进行询问的,这样带来的好处与卷积也比较类似,我们采用不同的Q来负责不同种类的相关性

计算方式上,与自注意力机制比较类似,每个计算过程中 只关注对应的(比如计算1的时候只把1拿出来)

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

位置编码

有时位置的距离也比较重要,我们需要存储位置的信息

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能

For Image

横着来看做一个vector,众多vector作为输入,输入进model

【李宏毅机器学习】注意力机制,动手学习深度学习,机器学习,人工智能文章来源地址https://www.toymoban.com/news/detail-671656.html

到了这里,关于【李宏毅机器学习】注意力机制的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习注意力机制系列】—— ECANet注意力机制(附pytorch实现)

    ECANet(Efficient Channel Attention Network) 是一种 用于图像处理任务的神经网络架构,它在保持高效性的同时,有效地捕捉图像中的通道间关系,从而提升了特征表示的能力 。ECANet通过引入通道注意力机制,以及在卷积层中嵌入该机制,取得了优越的性能。本文将对ECANet的核心思

    2024年02月13日
    浏览(43)
  • 【深度学习注意力机制系列】—— SCSE注意力机制(附pytorch实现)

    SCSE注意力模块 (来自论文[1803.02579] Concurrent Spatial and Channel Squeeze Excitation in Fully Convolutional Networks (arxiv.org))。其对SE注意力模块进行了改进,提出了 cSE、sSE、scSE 三个模块变体,这些模块可以 增强有意义的特征,抑制无用特征 。今天我们就分别讲解一下这三个注意力模块。

    2024年02月13日
    浏览(53)
  • 【深度学习注意力机制系列】—— CBAM注意力机制(附pytorch实现)

    CBAM(Convolutional Block Attention Module) 是一种用于增强卷积神经网络(CNN)性能的注意力机制模块。它由Sanghyun Woo等人在2018年的论文[1807.06521] CBAM: Convolutional Block Attention Module (arxiv.org)中提出。CBAM的主要目标是 通过在CNN中引入通道注意力和空间注意力 来提高模型的感知能力,从

    2024年02月13日
    浏览(37)
  • 【深度学习注意力机制系列】—— SENet注意力机制(附pytorch实现)

    深度学习中的注意力机制(Attention Mechanism)是一种模仿人类视觉和认知系统的方法,它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。 卷积神经网络

    2024年02月14日
    浏览(36)
  • 【深度学习】注意力机制

    注意力机制(Attention Mechanism)是一种在计算机科学和机器学习中常用的技术,可以使模型在处理序列数据时更加准确和有效。在传统的神经网络中,每个神经元的输出只依赖于前一层的所有神经元的输出,而在注意力机制中,每个神经元的输出不仅仅取决于前一层的所有神经

    2024年02月02日
    浏览(38)
  • 《动手学深度学习 Pytorch版》 10.6 自注意力和位置编码

    在注意力机制中,每个查询都会关注所有的键-值对并生成一个注意力输出。由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention),也被称为内部注意力(intra-attention)。本节将使用自注意力进行序列编码,以及使用序列的顺序作为补充信息。 给定一个由

    2024年02月06日
    浏览(41)
  • 深度学习——常见注意力机制

    SENet属于通道注意力机制。2017年提出,是imageNet最后的冠军 SENet采用的方法是对于特征层赋予权值。 重点在于如何赋权 1.将输入信息的所有通道平均池化。 2.平均池化后进行两次全连接,第一次全连接链接的神经元较少,第二次全连接神经元数和通道数一致 3.将Sigmoid的值固定

    2024年02月14日
    浏览(29)
  • 深度学习(5)---自注意力机制

     1. 一般情况下在简单模型中我们输入一个向量,输出结果可能是一个数值或者一个类别。但是在复杂的模型中我们一般会输入一组向量,那么输出结果可能是一组数值或一组类别。  2. 一句话、一段语音、一张图等都可以转换成一组向量。  3. 输入一组向量,一般输出结

    2024年01月23日
    浏览(40)
  • 机器学习的注意力机制学习笔记(二)

            内积注意力机制(Dot Product Attention Mechanism)是一种计算注意力权重的方法,常用于自注意力机制中。         在内积注意力机制中,注意力权重的计算基于查询(query)和键(key)之间的内积(点积)。这种方法的计算简单高效,常用于序列建模任务,如机器

    2024年02月12日
    浏览(31)
  • 机器学习的注意力机制学习笔记(三)

                     自注意力机制(Self-Attention)是一种用于建模序列数据的注意力机制,最常用于自然语言处理领域中的序列建模任务,如机器翻译和语言生成。         自注意力机制的核心思想是,通过计算序列中各个位置之间的注意力权重,来动态地为每个位置

    2024年02月12日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包