transformer structure注意力机制的各种变体
第二种变体:
如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量
第三种变体:
additive attention
它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数
在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数
文章来源:https://www.toymoban.com/news/detail-814714.html
此外还有许多其他的变体,可执行查找了解。文章来源地址https://www.toymoban.com/news/detail-814714.html
到了这里,关于Transformer and Pretrain Language Models3-2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!