一、说明
本文是“已实施的变压器”系列的一篇。它从零开始引入了多头注意力机制。注意力是变压器背后的支柱和力量,因为它为序列提供了上下文。
在变压器模型中,注意力为每个序列提供上下文。这有助于模型了解不同单词如何相互关联,以创建有意义的句子。根据维基百科的描述,“注意力层可以访问所有以前的状态,并根据学习的相关性度量来权衡它们,提供有关遥远令牌的相关信息。
要了解它是如何工作的,最好对点积有一个很好的理解。有关详细信息,请参阅点积的简单介绍。有关矩阵和张量的更多信息,请参阅张量的简单介绍。
二、何为多头注意力
根据“注意力就是你所需要的一切”:文章来源:https://www.toymoban.com/news/detail-594830.html
注意函数可以描述为将查询和一组键值对映射到输出,其中查询、键、值和输出都是向量。输出计算为值的加权总和,其中文章来源地址https://www.toymoban.com/news/detail-594830.html
到了这里,关于【NLP】多头注意力概念(01)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!