【论文阅读随笔】RoPE/旋转编码:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

这篇具有很好参考价值的文章主要介绍了【论文阅读随笔】RoPE/旋转编码:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.目的:通过绝对位置编码的方式实现相对位置编码

  • 绝对位置编码比较简单,加或乘一个有次序的数
  • 实现相对位置编码,也即意味着,要蕴含位置差的信息:
    • 假设m是某个token的位置信息,n是另一个token的位置信息,要有类似 m − n m-n mn的信息,比较容易想到复数乘法会产生 m − n m-n mn,以及复数乘法和复数内积的性质。

2.理解RoPE,在我看来有几个需要注意的点:

  • 最重要的是 e i m θ e^{im\theta} eimθ 的构造,给二维的 q ⃗ \vec q q k ⃗ \vec k k 乘这个量(也即对 q ⃗ \vec q q k ⃗ \vec k k 做了旋转),旋转后再对二者进行内积便会产生 m − n m-n mn的相对位置信息,也就达成了相对位置编码的目的
  • 二维向量和复数平面存在一一对应的关系
  • 二维扩展到 2 ∗ N 2*N 2N维:既然二维的向量旋转后,再做内积有 m − n m-n mn的相对位置信息,那就直接把 q ⃗ \vec q q k ⃗ \vec k k 都分成2维一组,这样 q ⃗ \vec q q k ⃗ \vec k k 做内积时,就让分好的组与组之间做内积,就自然让各位置携带相对位置信息了
  • 向量旋转有两种计算方式,一种是复数乘取实部,另一种是通过构造旋转矩阵计算

3.本文相关复数概念:

3.1.复数乘法的几何意义

  • 两个复数相乘,得到的复数的模长是原来两个复数的模长的乘积,得到的复数的幅角是原来两个复数的幅角的相加。

3.2.复数内积 VS. 复数乘法

  • 复数内积: ⟨ ( a + b i ) , ( c + d i ) ⟩ = a c + b d {\left \langle (a+bi),(c+di)\right \rangle }=ac+bd (a+bi),(c+di)=ac+bd(不含i)
  • 复数乘法: ( a + b i ) ( c + d i ) = ( a c − b d ) + ( b c − a d ) i (a+bi)(c+di)=(ac-bd) + (bc-ad)i (a+bi)(c+di)=(acbd)+(bcad)i
  • 复数内积的结果跟复数乘法的实部相差了一个正负号,复数内积等于复数乘以另一个复数的共轭后取实部:
    • ⟨ ( a + b i ) , ( c + d i ) ⟩ = R E [ ( a + b i ) ( c + d i ) ∗ ] {\left \langle (a+bi),(c+di)\right \rangle }=RE[(a+bi)(c+di)^*] (a+bi),(c+di)=RE[(a+bi)(c+di)]
    • 也即: ⟨ ( a + b i ) , ( c + d i ) ⟩ = R E [ ( a + b i ) ( c − d i ) ] {\left \langle (a+bi),(c+di)\right \rangle }=RE[(a+bi)(c-di)] (a+bi),(c+di)=RE[(a+bi)(cdi)]

4.REF:

[1].https://zhuanlan.zhihu.com/p/642884818 (这篇讲的很清楚了)
[2].https://zhuanlan.zhihu.com/p/669797102
[3].https://zhuanlan.zhihu.com/p/647109286
[4].https://kexue.fm/archives/8265
[5].https://zhuanlan.zhihu.com/p/641865355
[6].https://zhuanlan.zhihu.com/p/646598747
[7].学习报告:向量与复数的联系
[8].复向量的内积,想不明白?
[9].https://arxiv.org/pdf/2104.09864.pdf文章来源地址https://www.toymoban.com/news/detail-838622.html

到了这里,关于【论文阅读随笔】RoPE/旋转编码:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读——CRNet: Channel-Enhanced Remodeling-Based Network for Salient Object Detection in Optical

    这篇是老师发的,主要是用来解决遥感显著性检测的边缘问题 期刊 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING 年份 2023 论文地址 https://ieeexplore.ieee.org/abstract/document/10217013 代码地址 https://github.com/hilitteq/CRNet.git CRNet:一种基于网格增强重构的光学遥感图像显著目标检测网络 除了它

    2024年02月03日
    浏览(47)
  • 论文阅读 Vision Transformer - VIT

    通过将图像切成patch线形层编码成token特征编码的方法,用transformer的encoder来做图像分类 解决问题: transformer输入限制: 由于自注意力+backbone,算法复杂度为o(n²),token长度一般要512才足够运算 解决:a) 将图片转为token输入 b) 将特征图转为token输入 c)√ 切patch转为token输入 tra

    2024年02月01日
    浏览(40)
  • [异构图-论文阅读]Heterogeneous Graph Transformer

    这篇论文介绍了一种用于建模Web规模异构图的异构图变换器(HGT)架构。以下是主要的要点: 摘要和引言 (第1页) 异构图被用来抽象和建模复杂系统,其中不同类型的对象以各种方式相互作用。 许多现有的图神经网络(GNNs)主要针对同构图设计,无法有效表示异构结构。

    2024年02月06日
    浏览(48)
  • 论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)

    资源地址 Attention is all you need.pdf(0积分) - CSDN 图1——Transformer结构图 图2——Attention结构图 Background 中说,ByteNet和ConvS2S都使用了CNN结构作为基础模块去计算input和output之间的潜在联系,其中,关联来自两个任意输入或输出位置的信号所需的计算量,伴随着distance的增长而增长,

    2024年01月16日
    浏览(44)
  • 论文阅读笔记AI篇 —— Transformer模型理论+实战 (一)

    资源地址 Attention is all you need.pdf(0积分) - CSDN Abstract 中强调 Transformer摒弃了循环和卷积网络结构 ,在English-to-German翻译任务中,BLEU得分为28.4, 在English-to-French的翻译任务中的BLEU得分为41.0,用8张GPU训练了3.5天,与各文献中的best models相比,这是非常小的训练成本。 Introductio

    2024年01月18日
    浏览(43)
  • 论文阅读笔记AI篇 —— Transformer模型理论+实战 (四)

    参考文章或视频链接 [1] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (一)》- CSDN [2] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)》- CSDN [3] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (三)》- CSDN 如果说钢铁侠中的 J.A.R.V.I.S. (贾维斯)是一个AGI通用人工智能的

    2024年01月24日
    浏览(42)
  • 论文阅读笔记AI篇 —— Transformer模型理论+实战 (三)

    精读的过程要把每个细节都钻研透,不留有死角。各种维度参数已经在“理论+实战(二)”中说清楚了,若之后还有疑问我再补上。 三、参考文章或视频链接 [1] 【超强动画,一步一步深入浅出解释Transformer原理!】 3.1 参考文章或视频链接 [1] What’s the difference between Attent

    2024年01月23日
    浏览(47)
  • 【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

    系列文章链接 数据解读参考:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:Anomaly Transformer.pdf 代码链接:https://github.com/thuml/Anomaly-Transformer 视频讲解(原

    2024年02月14日
    浏览(35)
  • 论文阅读 Attention is all u need - transformer

    提出一个仅需要self attention + linear组合成encoder+decoder的模型架构 2.2.1 对比seq2seq,RNN Self Attention 输入token转为特征输入 shape [n(序列长度), D(特征维度)] 输入 进入attention模块 输出 shape [n(序列长度), D1(特征维度)] 此时每个D1被N个D做了基于attention weight的加权求和 进入MLP 输出 sha

    2024年02月01日
    浏览(38)
  • Swin-transformer论文阅读笔记(Swin Transformer: Hierarchical Vision Transformer using Shifted Windows)

    论文标题:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文作者:Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo 论文来源:ICCV 2021,Paper 代码来源:Code 目录 1. 背景介绍 2. 研究现状 CNN及其变体 基于自注意的骨干架构 自注意/Transformer来补充CN

    2024年02月07日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包