论文:https://arxiv.org/pdf/2108.12409.pdf
代码:https://github.com/ofirpress/attention_with_linear_biases
发表:2021
长度外推
参考:https://spaces.ac.cn/archives/9431#ALIBI
长度外推性是一个训练和预测的长度不一致的问题。具体来说,不一致的地方有两点:
1、预测的时候用到了没训练过的位置编码(不管绝对还是相对);
2、预测的时候注意力机制所处理的token数量远超训练时的数量。文章来源:https://www.toymoban.com/news/detail-808085.html
第1点:可能大家都容易理解,没训练过的就没法保证能处理好,这是DL中很现实的现象,哪怕是Sinusoidal或文章来源地址https://www.toymoban.com/news/detail-808085.html
到了这里,关于LLM:ALiBi - 给注意力加上线性偏置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!