论文笔记|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

这篇具有很好参考价值的文章主要介绍了论文笔记|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ICLR 2017

摘要

神经网络吸收信息的能力受到其参数数量的限制。条件计算,即网络的某些部分在每个示例的基础上处于活动状态,在理论上已被提出作为一种在不按比例增加计算量的情况下大幅增加模型容量的方法。然而,在实践中,存在重大的算法和性能挑战。在这项工作中,我们解决了这些挑战,最终实现了条件计算的承诺,模型容量提高了 1000 倍以上,而现代 GPU 集群的计算效率仅略有损失。我们引入了稀疏门控专家混合层(MoE),由多达数千个前馈子网络组成。可训练的门控网络确定用于每个示例的这些专家的稀疏组合。我们将 MoE 应用于语言建模和机器翻译的任务,其中模型容量对于吸收训练语料库中的大量可用知识至关重要。我们提出了模型架构,其中具有多达 1370 亿个参数的 MoE 在堆叠的 LSTM 层之间以卷积方式应用。在大型语言建模和机器翻译基准上,这些模型以较低的计算成本取得了比最先进模型更好的结果。

动机

使用条件计算方法实现在增加模型容量的同时,减少计算的开销。实现了稀疏门控专家混合层。

模型结构

经典的moe结构表示: y = ∑ i = 1 n G ( x ) i E i ( x ) y=\sum_{i=1}^{n}G(x)_i E_i(x) y=i=1nG(x)iEi(x)

如果专家组数量很大,使用分层moe。

路由网络

  • Softmax Gating: 最简单和原始的方法 G σ ( x ) = S o f t m a x ( x ⋅ W g ) G_{\sigma}(x) = Softmax(x\cdot W_g) Gσ(x)=Softmax(xWg)

  • Noisy Top-K Gating: 添加噪声,平衡训练 G ( x ) = S o f t m a x ( K e e p T o p K ( H ( x ) , k ) ) G(x) = Sof tmax(KeepT opK(H(x), k)) G(x)=Softmax(KeepTopK(H(x),k))
    H ( x ) i = ( x ⋅ W g ) i + S t a n d a r d N o r m a l ( ) ⋅ S o f t p l u s ( ( x ⋅ W n o i s e ) i ) H(x)_i = (x · W_g)_i + StandardN ormal() · Sof tplus((x · W_{noise})_i) H(x)i=(xWg)i+StandardNormal()Softplus((xWnoise)i)
    K e e p T o p K ( v , k ) i = { v i , if  v i  is in the top k elements of v − ∞ , otherwise. KeepTopK(v, k)_i = \begin{cases} v_i, & \text{if}\ v_i\ \text{is in the top k elements of v} \\ -\infty ,&\text{otherwise.} \end{cases} KeepTopK(v,k)i={vi,,if vi is in the top k elements of votherwise.

平衡专家利用

作者观察到,门控网络倾向于收敛到一种状态,即它总是为相同的少数专家产生较大的权重。这种不平衡是自我强化的,因为受青睐的专家训练得更快,因此更容易被门控网络选择。
bengio也提到了这个问题,解决方法是使用了两个损失。其中一个控制每个example的稀疏性,我们不需要它,因为它是由 k 的固定值强制执行的。第三个损失鼓励了门值的多样性。在我们的实验中,我们发现随着专家的专业化,门值自然会多样化(良性循环),并且我们不需要强制门值的多样性。

We take a soft constraint approach:定义了重要性损失,一个专家的重要性定义为batch数据中该专家的gate值的加和。这个额外的损失鼓励全部的专家有相同的重要性。
I m p o r t a n c e ( X ) = ∑ x ∈ X G ( x ) Importance(X) = \sum_{x\in X} G(x) Importance(X)=xXG(x)
L i m p o r t a n c e ( X ) = w i m p o r t a n c e ⋅ C V ( I m p o r t a n c e ( X ) ) 2 L_{importance}(X) = w_{importance} · CV (Importance(X))^2 Limportance(X)=wimportanceCV(Importance(X))2
CV:离散系数

虽然这种方法可以使得样本均匀的分给不同的专家,但是,专家的gate weight也是不均匀的,会造成在分布式硬件上内存和性能问题,因此引入了另外的损失:load loss

两个损失的图解参考:【手撕LLM-sMoE】离GPT4又近了一步

总结

  • sMoE 的经典工作之一
  • 辅助loss是有效的设计

参考:
https://zhuanlan.zhihu.com/p/335024684
【手撕LLM-sMoE】离GPT4又近了一步
源码文章来源地址https://www.toymoban.com/news/detail-790230.html

到了这里,关于论文笔记|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记--Learning Political Polarization on Social Media Using Neural Networks

    标题:Learning Political Polarization on Social Media Using Neural Networks 作者:LORIS BELCASTRO, RICCARDO CANTINI, FABRIZIO MAROZZO, DOMENICO TALIA AND PAOLO TRUNFIO 日期:2020 期刊:IEEE   文章提出了一种基于神经网络对政治两极化观点进行分析的方法IOM-NN, 基于两组case的分析结果表明该方法相比于传统

    2024年02月03日
    浏览(57)
  • 论文笔记:Adjusting for Autocorrelated Errors in Neural Networks for Time Series

    2021 NIPS 原来的时间序列预测任务是根据 预测 论文提出用一阶自回归误差 预测 一阶差分,类似于ResNet的残差思路? 记 为pred,最终的预测结果  

    2024年02月14日
    浏览(43)
  • SRM : A Style-based Recalibration Module for Convolutional Neural Networks论文笔记

    整体结构图: Style Pooling风格池部分: Style Integration风格集成部分 1.提出了一个基于风格的重新校准模块(SRM),他通过利用中间特征映射的风格来自适应地重新校准。 2.SRM首先通过样式池从特征图的每个通道中提取样式信息,然后通过独立于通道的样式集成估计每个通道的重校

    2024年02月11日
    浏览(48)
  • 【论文笔记】FasterNet:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks

    为了设计快速神经网络,许多工作都集中在减少浮点运算(FLOPs)的数量上。然而,作者观察到FLOPs的这种减少不一定会带来延迟的类似程度的减少。这主要源于每秒低浮点运算(FLOPS)效率低下。 为了实现更快的网络,作者重新回顾了FLOPs的运算符,并证明了如此低的FLOPS主

    2024年02月07日
    浏览(47)
  • 论文笔记--Distilling the Knowledge in a Neural Network

    标题:Distilling the Knowledge in a Neural Network 作者:Hinton, Geoffrey, Oriol Vinyals, Jeff Dean 日期:2015 期刊:arxiv   文章提出了一种将大模型压缩的新的思路:蒸馏distillation。通过蒸馏,可以将很大的模型压缩为轻量级的模型,从而提升推理阶段的速率。   随着模型的参数量越来越

    2024年02月15日
    浏览(51)
  • 【论文导读】- Variational Graph Recurrent Neural Networks(VGRNN)

    Variational Graph Recurrent Neural Networks(VGRNN) 原文地址:Variational Graph Recurrent Neural Networks(VGRNN):https://arxiv.org/abs/1908.09710 源码: https://github.com/VGraphRNN/VGRNN Representation learning over graph structured data has been mostly studied in static graph settings while efforts for modeling dynamic graphs are still scant

    2024年02月08日
    浏览(53)
  • 论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks

    作者:Zihan Chen, Ziyue Wang, Junjie Huang*, Wentao Zhao, Xiao Liu, Dejian Guan 解决的问题:虽然视觉不可感知性是对抗性示例的理想特性,但传统的对抗性攻击仍然会产生 可追踪的对抗扰动。 代码:https://github.com/jjhuangcs/AdvINN 类型:黑盒 目标攻击, 作者利用可逆神经网络(AdvINN)方法进行

    2024年02月12日
    浏览(41)
  • On the Robustness of Backdoor-based Watermarkingin Deep Neural Networks

    关于深度神经网络中基于后门的数字水印的鲁棒性 ABSTRACT 在过去的几年中,数字水印算法已被引入,用于保护深度学习模型免受未经授权的重新分发。我们调查了最新深度神经网络水印方案的鲁棒性和可靠性。我们专注于基于后门的水印技术,并提出了两种简单而有效的攻击

    2024年02月01日
    浏览(46)
  • 论文阅读《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何写论文、读(分享汇报)论文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》进行实践。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的论文,主要关注卷积神经网络(CNN)的模型缩

    2024年02月03日
    浏览(49)
  • 论文解读:SuperGlue: Learning Feature Matching with Graph Neural Networks

    SuperGlue: Learning Feature Matching with Graph Neural Networks 发表时间:2020 论文地址:https://arxiv.org/abs/1911.11763 项目地址:http://github.com/magicleap/SuperGluePretrainedNetwork。 本文介绍了一种通过联合寻找对应和拒绝非匹配点来匹配两组局部特征的神经网络。通过求解一个可微最优传输问题来估

    2024年02月08日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包