关于深度学习中Attention的一些简单理解

10月前作者：Jackie_Yongzhi Huang 分类：Toy博客阅读(39) 违法举报

这篇具有很好参考价值的文章主要介绍了关于深度学习中Attention的一些简单理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Attention 机制

Attention应用在了很多最流行的模型中，Transformer、BERT、GPT等等。

Attention就是计算一个加权平均；通过加权平均的权值来自计算每个隐藏层之间的相关度；

示例

Attention 机制

Attention应用在了很多最流行的模型中，Transformer、BERT、GPT等等。

Attention就是计算一个加权平均；通过加权平均的权值来自计算每个隐藏层之间的相关度；

示例

比如翻译：

我爱2022 北京冬奥会。

I love the 2022 Beijing Winter Games.

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

此时，如果我们看到Games这个单词，本意是游戏，

但是，考虑到了北京的权重，那么它的翻译成比赛；

如果再考虑 2022 和 Winter的权重时候，它就翻译成了 冬奥会。

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

传统方法的问题

RNN

比如RNN，虽然建立了隐藏层来表示时序的关联，但是，会受到短时节点（前一个节点）的影响，而且不能够关联距离很长距离的内容。

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

Encoder-Decoder

Encoder-Decoder模型可以看出两个RNN的组合。先编码，通过C把编码传过去，再解码。但是因为不管多长都是由一个C 来表示编码，就导致精度下降。

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

Attention的改进

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

通过不同时刻，建立了不同的C，来表示。所以，每个C就是不同时刻的注意力。

但是，这种方式不方便并行计算。所以，就去掉了顺序结构，变成了 Self-attention。

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

关于深度学习中Attention的一些简单理解,人工智能,深度学习,人工智能,Attention

参考资料：

【【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓】

https://www.bilibili.com/video/BV1xS4y1k7tn/?share_source=copy_web&vd_source=91d02e058149c97e25d239fb93ebef76文章来源地址https://www.toymoban.com/news/detail-721378.html

到了这里，关于关于深度学习中Attention的一些简单理解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

(六)人工智能应用--深度学习原理与实战--理解张量与运算图

Tensorflow名称中的Tensor即张量，不仅仅是Tensorflow，几乎所有的深度学习平台都以张量为基本的数据结构。简单来说，张量就是多维数组，本质上是一种数据容器，它可以有任意维度，比如矩阵就是二维张量(二维数组)。深度学习中使用张量来表示数据，计算图是由张量和张量

2024年02月15日
浏览(51)
TensorFlow人工智能开源深度学习框架简单认识

TensorFlow是一个使用数据流图进行数值计算的开源深度学习框架。它由Google Brain团队开发，并于2015年开源发布。TensorFlow的核心概念是使用图表示计算任务，其中节点表示操作，边表示数据流动。 TensorFlow被广泛用于机器学习和深度学习任务。它的特点包括：强大的计算能力：

2024年01月21日
浏览(54)
关于视觉3d目标检测学习像素深度的一点理解

在真实世界的一个物体，可以通过相机矩阵将其投影到像素坐标系上但是，在像素坐标系上的像素，由于相机的原理，导致它的深度信息已经没有了，所以原理上是没法得到其真实深度的(即3d位置) 那么现在的深度学习方法又为什么能预测出物体的深度呢？个人理解：大概

2024年01月25日
浏览(54)
深度学习9:简单理解生成对抗网络原理

目录生成算法生成对抗网络（GAN） “生成”部分 “对抗性”部分 GAN如何运作？培训GAN的技巧？ GAN代码示例如何改善GAN？结论您可以将生成算法分组到三个桶中的一个：鉴于标签，他们预测相关的功能（朴素贝叶斯）给定隐藏的表示，他们预测相关的特征（变分自动编

2024年02月10日
浏览(40)
【人工智能】关于人类大脑模型的一些数学公式

关于人类大脑建模的数学公式主要涉及到神经元网络、激活函数、学习算法等方面。这里是一些常见的数学公式（使用Markdown和LaTeX语法）。神经网络的万能逼近定理（Universal Approximation Theorem）是关于在一定条件下神经网络能够逼近任意连续函数的定理。有多个版本的定理针

2024年02月07日
浏览(68)
人工智能_机器学习065_SVM支持向量机KKT条件_深度理解KKT条件下的损失函数求解过程_公式详细推导_---人工智能工作笔记0105

之前我们已经说了KKT条件,其实就是用来解决如何实现对,不等式条件下的,目标函数的求解问题,之前我们说的拉格朗日乘数法,是用来对等式条件下的目标函数进行求解. KKT条件是这样做的,添加了一个阿尔法平方对吧,这个阿尔法平方肯定是大于0的,那么可以结合下面的文章去

2024年02月04日
浏览(43)
关于微服务治理的一些理解

根本意义其主要目的还是为了解耦，提高灵活性和可扩展性！参考：https://zhuanlan.zhihu.com/p/462078779 相比单体单体架构的性能高于微服务架构，微服务的负载能力低于单体架构. 微服务通信之间存在网络IO消耗；单体模块紧耦合，扩展性差；微服务的敏捷性高，每一个人负责

2024年02月13日
浏览(37)
关于yolov8的一些理解

YOLOv8 是 ultralytics 公司在 2023 年 1月 10 号开源的 YOLOv5 的下一个重大更新版本。是一款强大、灵活的目标检测和图像分割工具，它提供了最新的 SOTA 技术。 Github: yolov8 提供了一个全新的SOTA模型。基于缩放系数也提供了N/S/M/L/X不同尺度的模型，以满足不同部署平台和应用场景的

2023年04月25日
浏览(39)
关于Java注解的一些理解小结

目录 1. 常用注解和理解 2. 自定义注解 2.1 案例背景 2.2 设计思路 3 总结注解在我的理解下，就是代码中的特殊标记，这些标记可以在编译、类加载、运行时被读取，并执行相对应的处理。可能有些抽象，简单来说注解其实在开发中是非常常见的，比如我们在使用各种框架时

2023年04月23日
浏览(42)
深度学习10：Attention 机制

目录 Attention 的本质是什么 Attention 的3大优点 Attention 的原理 Attention 的 N 种类型 Attention（注意力）机制如果浅层的理解，跟他的名字非常匹配。他的核心逻辑就是「从关注全部到关注重点」。 Attention 机制很像人类看图片的逻辑，当我们看一张图片的时候，我们并没有看

2024年02月11日
浏览(42)