【译】稀疏混合专家模型的崛起: Switch Transformers

这篇具有很好参考价值的文章主要介绍了【译】稀疏混合专家模型的崛起: Switch Transformers。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原作: 塞缪尔·弗兰德

引言:为最强大的语言模型铺平道路的核心技术

 

【译】稀疏混合专家模型的崛起: Switch Transformers

使用 Dall-E 生成的图像

稀疏混合专家模型 (MoE) 已成为最新一代 LLMs 的核心技术,例如 OpenAI 的 GPT-4、Mistral AI 的 Mixtral-8x7 等。简而言之,稀疏MoE是一种非常强大的技术,因为理论上,它允许我们以 O(1) 的计算复杂度扩展任何模型的容量!

然而,正如通常的情况一样,问题在于细节,要让稀疏的 MoE 正常工作就需要确保这些细节完全正确。

在本文中,我们将深入探讨稀疏MoE领域的一个核心贡献,即Switch Transformer(Fedus等人,2022年),它首次展示了利用这项技术实现了令人印象深刻的扩展特性,在Transformer模型的训练中实现了7倍以上的加速。我们将讨论以下内容:

  • 硬路由:仅针对每个token执行单个专家模型所带来的有利扩展特性,
  • Switch Transformer 架构:MoE 如何适应更广泛的 Transformer 架构背景,
  • token动态路由:如何使用容量因子来权衡计算效率和建模精度,以及
  • 实验结果:Switch Transformer的令人印象深刻的扩展特性。

 让我们开始吧。

 硬路由

回顾一下,MoE 的关键思想是使用专家的线性组合 E(x) 对给定输入 x 的输出 y 进行建模,每个专家的权重由门控 G(x) 控制,

【译】稀疏混合专家模型的崛起: Switch Transformers

其中门控是输入x与可学习的权重矩阵W相乘后的softmax函数:

【译】稀疏混合专家模型的崛起: Switch Transformers

因此,在训练 MoE 模型时,学习目标有两个:

  1. 专家将学习将给定的输入处理成最佳的输出(即预测)
  2. 门控将通过学习矩阵W来将正确的训练样本分配给正确的专家

MoE 的这种原始表述可以追溯到30多年前 Geoffrey Hinton 在 90 年代的原创作品,如今已被称为软路由(soft routing)。之所以称为“软”,是因为尽管不同的专家可能具有非常不同的权重(其中一些几乎不明显),我们仍然将所有专家的输出组合在最终结果中,无论他们的贡献多么小。

相比之下,在硬路由(hard routing)中,我们只对由门控决定的单个最合适的专家进行向前传递,也就是说,我们近似地

【译】稀疏混合专家模型的崛起: Switch Transformers

其中I是使G取得最大值的索引。

这种方法的动机是在计算成本上进行建模精度的权衡:如果一个专家的权重只有0.01,那么是否真的值得对该专家进行向前传递呢?

顺便说一句,硬路由实际上是 top-k 路由的一种特殊情况,最初由 Shazeer 等人 (2017) 提出,其中 k=1。虽然Shazeer等人假设k=1在实践中可能效果不,因为这会严重限制通过专家反向传播的梯度,但Switch Transformer证明并非如此

(注意,“gate”和“router”这些术语通常可以互换使用——在稀疏MoE的背景下,它们实际上意味着相同的东西。)

【译】稀疏混合专家模型的崛起: Switch Transformers
(Fedus 等人 2022)

具有 5 个专家和 3 个token的硬路由插图,每个token都有一个 3 维嵌入。此处,路由器将token 1 分配给专家 1,将token 2 分配给专家 4,将token3 分配给专家 2。图片来自 Fedus et al 2022。

Switch Transformer架构

在常规的(密集)Transformer块中,我们将一个前馈神经网络(FFN)层堆叠在一个自注意力层之上,并在它们之间添加残差连接。在高层次上,自注意力层选择模型关注的输入,而FFN层处理该输入并将输出传递到下一个块,依此类推。例如,BERT-Large是一个将24个这些Transformer块堆叠起来的Transformer模型。

这是这个密集的 Transformer 块的可视化效果:

【译】稀疏混合专家模型的崛起: Switch Transformers
(Fedus 等人 2022)

密集的变压器块。图片来源:Fedus 等人 2022。

在 Switch Transformer 中,我们用多个 FFN“专家”替换单个 FFN 模块,并让硬路由器向专家分配token,如下所示:

【译】稀疏混合专家模型的崛起: Switch Transformers
(Fedus 等人 2022)

Switch Transformer 中的稀疏Transformer块。图片来源:Fedus 等人 2022。

最重要的是,这两种架构具有相同的计算复杂度,但与前者相比,后者实际上具有4倍的建模容量(即神经元数量)!这要归功于稀疏 MoE 的硬路由:虽然我们现在有4个FFN而不是一个,但对于任何给定的token,只有其中一个会处于活动状态。

token动态路由和容量因子

到目前为止,我们只考虑了路由器如何在专家之间分配token,但没有具体说明这些专家位于何处。在实践中,我们通常将专家分布在多台机器上,这是一种模型并行化形式,也称为专家并行化。

专家并行化有一个重要的物理限制:我们不能将比专家所在机器的内存允许的更多token路由到该专家!

【译】稀疏混合专家模型的崛起: Switch Transformers
(Fedus 等人 2022)

token动态路由作为容量因子的函数。如果因子为 1,我们就必须丢弃一个token(红色箭头)。在容量因子为1.5的情况下,我们需要添加过多的填充(白色矩形)。来自 Fedus 等人 2022

在这种背景下,我们将专家容量定义为

capacity = f x T/E

其中T是token数量,E是专家总数,f是一个被称为容量因子的自由超参数。(如果我们使用k>1的top-k路由,则还会在方程的右侧添加k的因子——然而,在这里我们考虑的是使用硬路由的Switch Transformer,所以我们将使用k=1。)

例如,对于T=6,E=3和f=1,我们允许路由器向每个专家发送最多 2 个token,如上图左侧面板所示。如果我们发送更多token,我们就需要丢弃额外的token,如果我们发送较少token,我们就需要对输入进行填充,以确保一致性——毕竟,在GPU上可以运行的计算图必须是静态的,不能是动态的。

因此,容量因子f引入了一个权衡:如果太大,我们会通过过多的填充浪费计算资源(即上图中的白色矩形);如果太小,我们会因为token丢失而牺牲模型性能(如上图中的红色箭头所示)。

在Switch Transformer论文中,作者发现较低的容量因子可以获得更好的性能,例如,将 f 从 2.0 降低到 1.0,在 100k 步后,对数困惑度从 -1.554 提高到 -1.561。这表明我们因丢弃token而遭受的惩罚并不像计算资源利用不足所带来的惩罚那么严重。或者更简单地说:最好优化资源利用率,即使以丢弃token为代价。

Switch Transformer的可扩展性特征

最重要的是,只需增加专家数量,Switch Transformer可以以近似恒定的计算复杂度进行扩展。这是因为更多的专家不会导致更多的专家向前传递——得益于硬路由——而且与整个模型架构相比,添加更多专家时需要由门控完成的额外计算可以忽略不计,特别是与计算量大的 Transformer 块相比。

下图显示了通过用128个稀疏专家替换单个FFN模块,作者能够达到与T5语言模型相同的性能,但速度快了7倍!所有这些模型都在相同的机器上进行训练,使用32个TPUv3核心,并且每个训练样本具有相等的FLOPs。

【译】稀疏混合专家模型的崛起: Switch Transformers
(Fedus 等人 2022)

Switch Transformer通过硬路由实现了7倍的加速,同时保持了恒定的计算复杂度。

乍一看,这似乎像是魔法。在相同的FLOPs下,怎么可能更快呢?这就好像一辆汽车以相同的速度行驶,却比原来快7倍到达目的地!

答案就是,Switch Transformer 利用了稀疏性,特别是稀疏 MoE。虽然我们通过增加专家数量增加了建模容量,但由于硬路由,我们保持了恒定的FLOPs,也就是说,在每个训练迭代中我们并没有执行所有的专家,而是只选择适合每个token的最佳专家进行计算。

最后

 让我们回顾一下:

  • 稀疏MoE是一项突破性的技术,因为它使我们能够以近似O(1)的计算复杂度扩展建模容量,并实现了Google的Switch Transformer、OpenAI的GPT-4、Mistral AI的Mixtral-8x7b等重大突破。
  • 硬路由意味着我们只对最合适的专家运行向前传递,而不是所有专家,从而节省了FLOPs。
  • Switch Transformer 用使用硬路由的稀疏 MoE 层替换了 T5 Transformer 中的 FFN 层
  • 容量因子决定了每个专家允许的token数量,是在token丢弃和机器利用率之间权衡的一个手段。实验证明,即使以牺牲token为代价,最大化机器利用率也是正确的目标。
  • 由于其良好的可扩展性特征,与T5(密集)Transformer模型相比,Switch Transformer在训练速度上实现了7倍的加速。

虽然Switch Transformer已经在语言模型领域取得了突破,但我相信我们才刚刚开始看到它对行业的全面影响。稀疏 MoE 带来的强大扩展特性有可能为跨领域的应用带来巨大的建模改进,而不仅仅局限于LLMs。这是机器学习领域激动人心的时刻!文章来源地址https://www.toymoban.com/news/detail-828169.html

到了这里,关于【译】稀疏混合专家模型的崛起: Switch Transformers的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PFL-MoE:基于混合专家的个性联邦学习

    文章链接:PFL-MoE: Personalized Federated Learning Based on Mixture of Experts 发表会议:APWeb-WAIM 2021(CCF-C) 过去几年,深度学习在AI应用领域(CV、NLP、RS)中快速发展,这离不开海量数据集的支持。这些数据集通常是来自不同组织、设备或用户的数据集合。 分布式机器学习(distributed m

    2024年02月07日
    浏览(45)
  • KDD‘23 | AlphaMix: 高效专家混合框架(MoE)显著提高上证50选股表现

    原创 QuantML QuantML  2024-04-18 09:17   上海 Content 本文提出了一个名为AlphaMix的新型 三阶段专家混合(Mixture-of-Experts, MoE)框架,旨在模拟现实世界交易公司中高效的自底向上的交易策略设计工作流程,以进行量化投资。 主要贡献 提出了AlphaMix,这是首个针对量化投资的专家混

    2024年04月23日
    浏览(64)
  • AI大模型崛起,向量数据库登场

    引言 AI大模型的兴起 2.1 深度学习与大模型 2.2 大模型的挑战 向量数据库的概念与应用 3.1 向量表示与相似度计算 3.2 向量数据库的优势与应用场景 大模型与向量数据库的结合 4.1 向量数据库在大模型中的作用 4.2 大模型与向量数据库的相互促进 技术进展与未来展望 5.1 近期技

    2024年02月15日
    浏览(50)
  • 图像处理与计算机视觉:AI大模型的崛起

    在过去的几年里,人工智能(AI)技术的发展取得了巨大的进步,尤其是在图像处理和计算机视觉领域。随着深度学习和大型模型的兴起,我们已经看到了一系列令人印象深刻的成果,例如图像识别、自动驾驶、语音助手等。本文将涵盖图像处理与计算机视觉领域的核心概念、算

    2024年02月19日
    浏览(39)
  • 数据分析专家能力模型

    招式:懂商业(业务能力) 外功更偏重于技能,首先需要懂招式,即懂商业,数据分析最终是为业务服务的,无论是互联网企业准求的用户增长和UJM分解,还是传统企业追求的降本增效和精细化运营,最终都是为了更好的识别业务问题,寻求解决方案,提出落地建议。如果不

    2024年04月28日
    浏览(26)
  • 中外人工智能专家共话大语言模型与 AI 创新

    🍉 CSDN 叶庭云 : https://yetingyun.blog.csdn.net/ 智源社区活动, 中外人工智能专家共话大语言模型与 AI 创新 。 对谈书目: 《大模型时代》,龙志勇、黄雯 著,中译出版社 2023 年 5 月出版。 《为什么伟大不能被计划》,[美]肯尼斯·斯坦利、[美]乔尔·雷曼 著,中译出版社 2023

    2024年02月14日
    浏览(62)
  • 深入了解 Transformers – Part 1: 介绍 Transformer 模型

    动动发财的小手,点个赞吧! 自从最新的Large Language Models(LLaM)发布以来,如OpenAI的GPT系列、开源模型Bloom或谷歌发布的LaMDA等,Transformer展现出了巨大的潜力,成为了深度学习的前沿架构楷模。 尽管已经有几篇文章介绍了 transformer 及其背后的数学原理,但在 本文 [1] 中,我

    2024年02月04日
    浏览(34)
  • DiT:Transformers 与扩散模型强强联手

    出品人: Towhee 技术团队 王翔宇、顾梦佳 扩散模型在图像生成领域有着难以撼动的地位,而其通常都选择了卷积 U-Net作为主干模型。那么在其他领域大杀四方的 Transformers 在扩散模型中是否还有用武之地呢?基于这一想法,DiT(Diffusion Transformer) 利用transformer结构探索了一种

    2024年02月21日
    浏览(36)
  • 剪枝基础与实战(3): 模型剪枝和稀疏化训练流程

      相关论文:Learning Efficient Convolutional Networks through Network Slimming (ICCV 2017) 考虑一个问题,深度学习模型里面的卷积层出来之后的特征有非常多,这里面会不会 存在一些没有价值的特征 及其相关的连接?又如何去判断一个特征及其连接是否有价值? 先给出答案: 在 Batch Norm

    2024年02月12日
    浏览(48)
  • 【AIGC入门一】Transformers 模型结构详解及代码解析

    Transformers 开启了NLP一个新时代,注意力模块目前各类大模型的重要结构。作为刚入门LLM的新手,怎么能不感受一下这个“变形金刚的魅力”呢? 目录 Transformers ——Attention is all You Need 背景介绍 模型结构 位置编码 代码实现: Attention Scaled Dot-product Attention Multi-head Attention Po

    2024年01月16日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包