接上文: 【NLP】多头注意力概念(01)
五、计算注意力
将 Q、K 和 V 拆分为它们的头部后,现在可以计算 Q 和 K 的缩放点积。上面的等式表明,第一步是执行张量乘法。但是,必须先转置 K。文章来源:https://www.toymoban.com/news/detail-577943.html
展望未来,每个张量的seq_length形状将通过其各自的张量来识别,以确保清晰度、Q_length、K_length或V_length:文章来源地址https://www.toymoban.com/news/detail-577943.html
- Q 的形状为 (batch_size、n_heads、Q_length、d_key)
到了这里,关于【NLP】多头注意力概念(02)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!