关于深度学习中Attention的一些简单理解

这篇具有很好参考价值的文章主要介绍了关于深度学习中Attention的一些简单理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Attention 机制

Attention应用在了很多最流行的模型中,Transformer、BERT、GPT等等。

Attention就是计算一个加权平均;通过加权平均的权值来自计算每个隐藏层之间的相关度;

示例

Attention 机制

Attention应用在了很多最流行的模型中,Transformer、BERT、GPT等等。

Attention就是计算一个加权平均;通过加权平均的权值来自计算每个隐藏层之间的相关度;

示例

比如翻译:

我爱2022 北京 冬奥会。

I love the 2022 Beijing Winter Games.

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

此时,如果我们看到Games这个单词,本意是游戏

但是,考虑到了北京的权重,那么它的翻译成 比赛

如果再考虑 2022 和 Winter的权重时候,它就翻译成了  冬奥会

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

传统方法的问题

RNN

比如RNN,虽然建立了隐藏层来表示时序的关联,但是,会受到短时节点(前一个节点)的影响,而且不能够关联距离很长距离的内容

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

Encoder-Decoder

Encoder-Decoder模型可以看出两个RNN的组合。先编码,通过C把编码传过去,再解码。但是因为不管多长都是由一个C 来表示编码,就导致精度下降。

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

Attention的改进

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

通过不同时刻,建立了不同的C,来表示。所以,每个C就是不同时刻的注意力。

但是,这种方式不方便并行计算。所以,就去掉了顺序结构,变成了 Self-attention。

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

参考资料:

【【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓】

https://www.bilibili.com/video/BV1xS4y1k7tn/?share_source=copy_web&vd_source=91d02e058149c97e25d239fb93ebef76文章来源地址https://www.toymoban.com/news/detail-721378.html

到了这里,关于关于深度学习中Attention的一些简单理解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • (六)人工智能应用--深度学习原理与实战--理解张量与运算图

    Tensorflow名称中的Tensor即张量,不仅仅是Tensorflow,几乎所有的深度学习平台都以张量为基本的数据结构。简单来说,张量就是多维数组,本质上是一种数据容器,它可以有任意维度,比如矩阵就是二维张量(二维数组)。 深度学习中使用张量来表示数据,计算图是由张量和张量

    2024年02月15日
    浏览(37)
  • TensorFlow人工智能开源深度学习框架简单认识

    TensorFlow是一个使用数据流图进行数值计算的开源深度学习框架。它由Google Brain团队开发,并于2015年开源发布。TensorFlow的核心概念是使用图表示计算任务,其中节点表示操作,边表示数据流动。 TensorFlow被广泛用于机器学习和深度学习任务。它的特点包括: 强大的计算能力:

    2024年01月21日
    浏览(37)
  • 关于视觉3d目标检测学习像素深度的一点理解

    在真实世界的一个物体,可以通过相机矩阵将其投影到像素坐标系上 但是,在像素坐标系上的像素,由于相机的原理,导致它的深度信息已经没有了,所以原理上是没法得到其真实深度的(即3d位置) 那么现在的深度学习方法又为什么能预测出物体的深度呢? 个人理解: 大概

    2024年01月25日
    浏览(40)
  • 深度学习9:简单理解生成对抗网络原理

    目录 生成算法 生成对抗网络(GAN) “生成”部分 “对抗性”部分 GAN如何运作? 培训GAN的技巧? GAN代码示例 如何改善GAN? 结论 您可以将生成算法分组到三个桶中的一个: 鉴于标签,他们预测相关的功能(朴素贝叶斯) 给定隐藏的表示,他们预测相关的特征(变分自动编

    2024年02月10日
    浏览(29)
  • 【人工智能】关于人类大脑模型的一些数学公式

    关于人类大脑建模的数学公式主要涉及到神经元网络、激活函数、学习算法等方面。这里是一些常见的数学公式(使用Markdown和LaTeX语法)。 神经网络的万能逼近定理(Universal Approximation Theorem)是关于在一定条件下神经网络能够逼近任意连续函数的定理。有多个版本的定理针

    2024年02月07日
    浏览(51)
  • 人工智能_机器学习065_SVM支持向量机KKT条件_深度理解KKT条件下的损失函数求解过程_公式详细推导_---人工智能工作笔记0105

    之前我们已经说了KKT条件,其实就是用来解决 如何实现对,不等式条件下的,目标函数的求解问题,之前我们说的拉格朗日乘数法,是用来对 等式条件下的目标函数进行求解. KKT条件是这样做的,添加了一个阿尔法平方对吧,这个阿尔法平方肯定是大于0的,那么 可以结合下面的文章去

    2024年02月04日
    浏览(27)
  • 关于微服务治理的一些理解

    根本意义 其主要目的还是为了解耦,提高灵活性和可扩展性! 参考:https://zhuanlan.zhihu.com/p/462078779 相比单体 单体架构的性能高于微服务架构,微服务的负载能力低于单体架构. 微服务通信之间存在网络IO消耗 ; 单体模块紧耦合,扩展性差; 微服务的敏捷性高,每一个人负责

    2024年02月13日
    浏览(26)
  • 关于yolov8的一些理解

    YOLOv8 是 ultralytics 公司在 2023 年 1月 10 号开源的 YOLOv5 的下一个重大更新版本。是一款强大、灵活的目标检测和图像分割工具,它提供了最新的 SOTA 技术。 Github: yolov8 提供了一个全新的SOTA模型。基于缩放系数也提供了N/S/M/L/X不同尺度的模型,以满足不同部署平台和应用场景的

    2023年04月25日
    浏览(32)
  • 关于Java注解的一些理解 小结

    目录 1. 常用注解和理解 2. 自定义注解 2.1 案例背景 2.2 设计思路 3 总结 注解在我的理解下,就是代码中的特殊标记,这些标记可以在 编译、类加载、运行时 被读取,并执行相对应的处理。 可能有些抽象,简单来说注解其实在开发中是非常常见的,比如我们在使用各种框架时

    2023年04月23日
    浏览(32)
  • 深度学习10:Attention 机制

    目录 Attention 的本质是什么 Attention 的3大优点 Attention 的原理 Attention 的 N 种类型 Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「 从关注全部到关注重点 」。   Attention 机制很像人类看图片的逻辑,当我们看一张图片的时候,我们并没有看

    2024年02月11日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包