论文阅读|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

这篇具有很好参考价值的文章主要介绍了论文阅读|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ICLR 2017

摘要

神经网络吸收信息的能力受到其参数数量的限制。条件计算,即网络的某些部分在每个示例的基础上处于活动状态,在理论上已被提出作为一种在不按比例增加计算量的情况下大幅增加模型容量的方法。然而,在实践中,存在重大的算法和性能挑战。在这项工作中,我们解决了这些挑战,最终实现了条件计算的承诺,模型容量提高了 1000 倍以上,而现代 GPU 集群的计算效率仅略有损失。我们引入了稀疏门控专家混合层(MoE),由多达数千个前馈子网络组成。可训练的门控网络确定用于每个示例的这些专家的稀疏组合。我们将 MoE 应用于语言建模和机器翻译的任务,其中模型容量对于吸收训练语料库中的大量可用知识至关重要。我们提出了模型架构,其中具有多达 1370 亿个参数的 MoE 在堆叠的 LSTM 层之间以卷积方式应用。在大型语言建模和机器翻译基准上,这些模型以较低的计算成本取得了比最先进模型更好的结果。

动机

使用条件计算方法实现在增加模型容量的同时,减少计算的开销。实现了稀疏门控专家混合层。

模型结构

经典的moe结构表示: y = ∑ i = 1 n G ( x ) i E i ( x ) y=\sum_{i=1}^{n}G(x)_i E_i(x) y=i=1nG(x)iEi(x)

如果专家组数量很大,使用分层moe。

路由网络

  • Softmax Gating: 最简单和原始的方法 G σ ( x ) = S o f t m a x ( x ⋅ W g ) G_{\sigma}(x) = Softmax(x\cdot W_g) Gσ(x)=Softmax(xWg)

  • Noisy Top-K Gating: 添加噪声,平衡训练 G ( x ) = S o f t m a x ( K e e p T o p K ( H ( x ) , k ) ) G(x) = Sof tmax(KeepT opK(H(x), k)) G(x)=Softmax(KeepTopK(H(x),k))
    H ( x ) i = ( x ⋅ W g ) i + S t a n d a r d N o r m a l ( ) ⋅ S o f t p l u s ( ( x ⋅ W n o i s e ) i ) H(x)_i = (x · W_g)_i + StandardN ormal() · Sof tplus((x · W_{noise})_i) H(x)i=(xWg)i+StandardNormal()Softplus((xWnoise)i)
    K e e p T o p K ( v , k ) i = { v i , if  v i  is in the top k elements of v − ∞ , otherwise. KeepTopK(v, k)_i = \begin{cases} v_i, & \text{if}\ v_i\ \text{is in the top k elements of v} \\ -\infty ,&\text{otherwise.} \end{cases} KeepTopK(v,k)i={vi,,if vi is in the top k elements of votherwise.

平衡专家利用

作者观察到,门控网络倾向于收敛到一种状态,即它总是为相同的少数专家产生较大的权重。这种不平衡是自我强化的,因为受青睐的专家训练得更快,因此更容易被门控网络选择。
bengio也提到了这个问题,解决方法是使用了两个损失。其中一个控制每个example的稀疏性,我们不需要它,因为它是由 k 的固定值强制执行的。第三个损失鼓励了门值的多样性。在我们的实验中,我们发现随着专家的专业化,门值自然会多样化(良性循环),并且我们不需要强制门值的多样性。

We take a soft constraint approach:定义了重要性损失,一个专家的重要性定义为batch数据中该专家的gate值的加和。这个额外的损失鼓励全部的专家有相同的重要性。
I m p o r t a n c e ( X ) = ∑ x ∈ X G ( x ) Importance(X) = \sum_{x\in X} G(x) Importance(X)=xXG(x)
L i m p o r t a n c e ( X ) = w i m p o r t a n c e ⋅ C V ( I m p o r t a n c e ( X ) ) 2 L_{importance}(X) = w_{importance} · CV (Importance(X))^2 Limportance(X)=wimportanceCV(Importance(X))2
CV:离散系数

虽然这种方法可以使得样本均匀的分给不同的专家,但是,专家的gate weight也是不均匀的,会造成在分布式硬件上内存和性能问题,因此引入了另外的损失:load loss

两个损失的图解参考:【手撕LLM-sMoE】离GPT4又近了一步

总结

  • sMoE 的经典工作之一
  • 辅助loss是有效的设计

参考:
https://zhuanlan.zhihu.com/p/335024684
【手撕LLM-sMoE】离GPT4又近了一步
源码文章来源地址https://www.toymoban.com/news/detail-783078.html

到了这里,关于论文阅读|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何写论文、读(分享汇报)论文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》进行实践。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的论文,主要关注卷积神经网络(CNN)的模型缩

    2024年02月03日
    浏览(44)
  • [论文阅读笔记25]A Comprehensive Survey on Graph Neural Networks

    这是一篇GNN的综述, 发表于2021年的TNNLS. 这篇博客旨在对GNN的基本概念做一些记录. 论文地址: 论文 对于图像数据来说, CNN具有平移不变性和局部连接性, 因此可以在欧氏空间上良好地学习. 然而, 对于具有图结构的数据(例如社交网络 化学分子等)就需要用GNN来学习. 最早期的GN

    2024年02月11日
    浏览(57)
  • 《论文阅读27》SuperGlue: Learning Feature Matching with Graph Neural Networks

    研究领域: 图像特征点匹配 论文:SuperGlue: Learning Feature Matching with Graph Neural Networks CVPR 2020 veido 论文code  [参考] [参考] [参考]    SuperGlue:使用图神经网络学习特征匹配 本文介绍了SuperGlue,一种神经网络,通过 共同寻找对应点和拒绝不匹配点 来匹配两组本地特征。分配估

    2024年02月05日
    浏览(46)
  • 【论文阅读】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    论文链接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 单位 :兰州大学信息科学与工程学院,青海省物联网重点实验室,青海师范大学 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    浏览(50)
  • 【论文阅读】A Survey on Dynamic Neural Networks for Natural Language Processing

    A Survey on Dynamic Neural Networks for Natural Language Processing 发表单位:University of California, San Diego 作者:Canwen Xu, Julian McAuley 发表会议: EACL 2023 论文地址:http://arxiv.org/abs/2202.07101 发布时间:2022.2.15(v1) 2023.2.24 (v2) 掌握主要内容 有效缩小大型Transformer模型是自然语言处理最新进展的主

    2024年02月03日
    浏览(44)
  • 论文阅读《Block-NeRF: Scalable Large Scene Neural View Synthesis》

    论文地址:https://arxiv.org/pdf/2202.05263.pdf 复现源码:https://github.com/dvlab-research/BlockNeRFPytorch   Block-NeRF是一种能够表示大规模环境的神经辐射场(Neural Radiance Fields)的变体,将 NeRF 扩展到渲染跨越多个街区的城市规模场景。该方法将场景分解为单独训练的 NeRF,使渲染时间与

    2024年02月03日
    浏览(42)
  • EEG-GNN论文阅读和分析:《EEG Emotion Recognition Using Dynamical Graph Convolutional Neural Networks》

    下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊。 数据集 1、脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1、EEG-SEED数据集作者的—基线论文阅读和分析 2、图神经网络EEG论文阅读和分析:《

    2024年02月07日
    浏览(51)
  • 图神经网络EEG论文阅读和分析:《EEG-Based Emotion Recognition Using Regularized Graph Neural Networks》

    下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊。 数据集 1、脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1、EEG-SEED数据集作者的—基线论文阅读和分析 2、图神经网络EEG论文阅读和分析:《

    2024年02月09日
    浏览(42)
  • 【论文阅读】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相较于传统的视觉里程计,端到端的方法可以认为是把特征提取、匹配、位姿估计等模块用深度学习模型进行了替代。不同于那种用深度学习模型取代里程计框架一部分的算法,端到端的视觉里程计是直接将整个任务替换为深度学习,输入依然是图像流,结果也依然是位姿,

    2024年03月18日
    浏览(53)
  • 【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

    Github: https://github.com/LiheYoung/Depth-Anything 2024年 TikTok 实习生的工作 这篇论文提出了一个使用的方案,用于鲁棒的单目深度估计,Depth Anything 论文的模型结构没有创新(Transformer),主要贡献在于 探索了简单有效的数据扩展方式(如何有效利用大量的无标签数据 从预训练模型继

    2024年04月22日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包