Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era

这篇具有很好参考价值的文章主要介绍了Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Abstract&Introduction&Related Work

  • 研究任务
    基础模型架构
  • 已有方法和相关工作
    • RNN,CNN,Transformer
    • 稀疏注意力(Beltagy等人,2020年;Kitaev等人,2020年;Guo等人,2022年)、近似全注意力矩阵(Wang等人,2020年;Ma等人,2021年;Choromanski等人,2020年)、将分块注意力与门控结合(Ma等人,2023年)FlashAttention(Dao等人,2022a年)MLP-Mixer,Attention Free Transformer(AFT)(Zhai等人,2021年)用计算效率更高的替代方法替换了点积自注意力,可以看作是一个多头注意力,其中每个特征维度对应一个头
  • 面临挑战
    • 训练以及推理开销太高
  • 创新思路
    • 提出了一种新的注意力机制,改变了线性注意力的结果
    • 受到AFT的启发,RWKV采取了类似的方法,但通过修改交互权重来简化它,使其可以转换成RNN。同时,也对RNN风格的递归组件进行了修改,以增加上下文长度,例如Recurrent Memory Transformer和Linear Recurrent Units,还提出了像S4(Gu等人,2022年)及其变体这样的状态空间模型(SSM)
  • 实验结论
    • RWKV利用线性注意机制、时间混合和token偏移等技术,捕捉和传播顺序信息,具有稳定梯度和较深层次的优势,具有高效处理顺序数据的能力。
    • RWKV模型能够在时间顺序模式下进行递归推理,与自注意力相比,在处理长序列时具有恒定的速度和内存占用。设计结合了注意力机制和RNN更新方式,通过时间相关的softmax运算和层归一化等技术确保梯度稳定性和学习能力。
    • 模型采用自定义CUDA内核、FFN与R门、小初始化嵌入和自定义初始化等附加优化,提高了计算效率和训练稳定性。

经典注意力机制:
Attn ⁡ ( Q , K , V ) t = ∑ i = 1 T e q t ⊤ k i v i ∑ i = 1 T e q t ⊤ k i . \operatorname{Attn}(Q,K,V)_t=\large\frac{\sum_{i=1}^Te^{q_t^\top k_i}v_i}{\sum_{i=1}^Te^{q_t^\top k_i}}. Attn(Q,K,V)t=i=1Teqtkii=1Teqtkivi.

AFT把注意力机制改成:
Attn ⁡ + ( W , K , V ) t = ∑ i = 1 t e w t , i + k i v i ∑ i = 1 t e w t , i + k i , \operatorname{Attn}^+(W,K,V)_t=\large\frac{\sum_{i=1}^te^{w_{t,i}+k_i}v_i}{\sum_{i=1}^te^{w_{t,i}+k_i}}, Attn+(W,K,V)t=i=1tewt,i+kii=1tewt,i+kivi,

{ w t , i } ∈ R T × T \{w_{t,i}\}\in R^{T\times T} {wt,i}RT×T是学习到的位置偏移,矩阵中每个元素是一个标量

RWKV

受AFT的启发,我们让RWKV中的每个 w t , i w_t, i wt,i成为一个channel-wise time decay vector,乘以从当前时间向后追溯的相对位置: w t , i = − ( t − i ) w , w_{t,i}=-(t-i)w, wt,i=(ti)w, 维度为d,d是通道数
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能

RWKV与其他模型的结构对比:

Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能
RWKV的模型结构
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能
RWKV架构由一系列堆叠的残差块组成,每个残差块由一个时间混合和一个通道混合子块组成,具有递归结构
递归在RWKV中有两种表述方式:

  1. 作为当前输入和上一个时间步骤的输入之间的线性插值(我们称之为时间偏移混合或token偏移技术,如图3中的对角线所示)这可以针对输入embedding的每个线性投影(例如时间混合中的R、K、V,以及通道混合中的R、K)进行独立调整,并且作为时间依赖的WKV的更新,其公式化在方程式14中。 WKV计算与AFT(Zhai等人,2021年)类似,但现在W是一个通道-wise向量,乘以相对位置,而不是AFT中的成对矩阵。还引入了一个向量U,用于单独关注当前token,以弥补W可能出现的退化问题。
    Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能

在其中,WKV计算wkvt扮演了Transformer中Attn(Q, K, V)的角色,而不会产生二次成本,因为交互是在标量之间进行的。直观地说,随着时间t的增加,向量 o t o_t ot 依赖于一个较长的历史,由逐渐增加的项的总和来表示。对于目标位置t,RWKV在位置间隔 [ 1 , t ] [1,t] [1t]内执行加权求和,然后与接受度 σ ( r ) σ(r) σ(r) 相乘。因此,交互在给定时间步内是乘性的,而在不同时间步内是加性的
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能

Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能
time-mixing的公式与模型示意图:
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能
各个模型的复杂度对比:
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能

Experiments

Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能

Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能

Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era,NLP,读paper,transformer,深度学习,人工智能

Conclusions

RWKV是一种利用基于时间混合组件潜力的新型RNN模型。RWKV引入了几个关键策略,使其能够捕捉局部性和长程依赖,并解决当前架构的局限性:

  1. 通过标量公式将二次的QK注意力替换为线性成本
  2. 重新构造递归和顺序归纳偏置以实现有效的训练并行化和高效的推理
  3. 使用自定义初始化增强训练动态

我们在各种NLP任务上对所提出的架构进行了基准测试,显示出与SoTA相当的性能,同时减少了成本。进一步的实验涉及表达能力、可解释性和扩展性,展示了模型的能力,并揭示了RWKV与其他LLM之间的行为相似之处。

RWKV为在顺序数据中建模复杂关系提供了一个可扩展和高效的新途径。虽然已经提出了许多替代Transformer的方法,并声称具有类似的特点,但RWKV是首个用数百亿参数预训练模型来支持这些主张的研究

Limitations

尽管提出的RWKV模型在训练和推理期间展现出了有希望的效率,但也应该意识到并解决一些限制,以便在未来的研究中加以应对。首先,RWKV的线性注意力确实带来了显著的效率提升,但它也可能限制了模型在需要回忆极其详细信息的非常长上下文任务中的性能。这是因为相比标准Transformer的二次注意力维持的完整信息,RWKV通过单个向量表示在许多时间步上传递信息。换句话说,模型的循环结构本质上限制了它“回顾”之前的标记的能力,与传统的自注意机制相对立。虽然学习的时间衰减有助于防止信息丢失,但与完整的自注意力相比,它在机制上存在一定的限制。

这项工作的另一个限制是与标准Transformer模型相比,prompt engineering的重要性增加了。RWKV中使用的线性注意力机制限制了从prompt中传递到模型继续部分的信息。因此,精心设计的提示可能对模型在任务中表现良好至关重要

Remark

是个好工作,但是跟RetNet一样,个人对其超长距离建模能力保持怀疑,希望后续工作能增加到万级别tokens来证明一下模型的真正实力?文章来源地址https://www.toymoban.com/news/detail-616979.html

到了这里,关于Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Paper Note】Video Swin Transformer

    文章链接:https://arxiv.org/abs/2106.13230 代码链接:https://github.com/SwinTransformer/Video-Swin-Transformer 本文提出的Video Swin Transformer,严格遵循原始Swin Transformer的层次结构,但将局部注意力计算的范围从空间域扩展到时空域。由于局部注意力是在非重叠窗口上计算的,因此原始Swin Tran

    2023年04月23日
    浏览(21)
  • HF宣布在transformers库中引入首个RNN模型:RWKV,一个结合了RNN与Transformer双重优点的模型

    RWKV是一个结合了RNN与Transformer双重优点的模型架构。由香港大学物理系毕业的彭博首次提出。简单来说,RWKV是一个RNN架构的模型,但是可以像transformer一样高效训练。今天,HuggingFace官方宣布在transformers库中首次引入RNN这样的模型,足见RWKV模型的价值。 同时,在LM-Sys官方的匿

    2024年02月05日
    浏览(35)
  • C. Word on the Paper

    time limit per test 1 second memory limit per test 256 megabytes input standard input output standard output On an 8×88×8 grid of dots, a word consisting of lowercase Latin letters is written vertically in one column, from top to bottom. What is it? Input The input consists of multiple test cases. The first line of the input contains a single integer t�

    2024年02月13日
    浏览(36)
  • EMNLP -- Call for Main Conference Papers

            以下内容链接:Call for Main Conference Papers - EMNLP 2023         目录         审核流程:         与 ARR 的交叉提交政策         注意:         注意:         重要日期          强制性摘要提交         提交方向         论文提交信息      

    2024年02月06日
    浏览(25)
  • 【Paper Reading】CenterNet:Keypoint Triplets for Object Detection

    首先是借鉴Corner Net 表述了一下基于Anchor方法的不足: anchor的大小/比例需要人工来确认 anchor并没有完全和gt的bbox对齐,不利于分类任务。 但是CornerNet也有自己的缺点 CornerNet 只预测了top-left和bottom-right 两个点,并没有关注整体的信息,因此缺少一些全局的信息 上述的点导致

    2024年02月14日
    浏览(27)
  • Call for Papers丨第三届GLB@KDD‘23 Workshop

    鉴于介绍新数据集和Benchmark研究往往需要不同于常规论文的评审标准,计算机视觉和自然语言处理领域,以及最近的NeurIPS会议,都有专门致力于建立新Benchmark数据集和任务的Conference Track。然而在图机器学习领域,我们还没有类似的发表渠道。 Workshop on Graph Learning Benchmarks(

    2024年02月04日
    浏览(31)
  • 【Call for papers】2023年CCF-A会议截稿日期汇总(持续更新)

    中国计算机学会推荐的CCF-A类会议截稿日期列表 | CCF-A Conferences Deadline List 中国计算机学会(CCF)推荐国际学术会议共分10个类别,分别是: 计算机体系结构/并行与分布计算/存储系统 、 计算机网络 、 网络与信息安全 、 软件工程/系统软件/程序设计语言 、 数据库/数据挖掘

    2023年04月15日
    浏览(29)
  • 视频目标检测paper(三)《Temporal ROI Align for Video Object Recognition》

            这篇文章作为2021年的AAAI视频目标检测类文章,可以说是现在视频目标检测的最新技术之一了,并且已经集成到了MMtracking框架之中,可以说是集合了计算机视觉,深度学习,目标检测,视频检测等知识综合性较强的文章,以小编现在的水平很难融汇贯通,所以说作

    2024年02月02日
    浏览(41)
  • python小记-for与while

    for循环和while循环是两种常见的循环结构,用于重复执行一段代码块,但它们在使用场景和语法结构上有一些区别: 使用场景: for循环:适用于在已知循环次数的情况下进行循环。for循环通常用于遍历集合类型(如列表、元组、字典等)中的元素,或者在指定范围内循环执行

    2024年02月16日
    浏览(25)
  • How to Write and Publish a Scientific Paper-How to Write the Results

    至此,我们进入了本文的核心- -数据。论文的这一部分称为结果部分。 与流行的信念相反,你不应该通过描述你在材料和方法部分无意中遗漏的方法来开始结果部分。 结果部分通常有两个成分。首先,你应该对实验进行某种整体的描述,提供大概的图景,而不必重复先前在

    2024年02月09日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包