MoE:LLM终身学习的可能性

这篇具有很好参考价值的文章主要介绍了MoE:LLM终身学习的可能性。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文分享自华为云社区《DTSE Tech Talk | 第47期:MoE:LLM终身学习的可能性》,作者:华为云社区精选。

在DTSE Tech Talk的第47期直播《MoE:LLM终身学习的可能性》中,昇思MindSpore技术专家吕老师与各位开发者分享有关于LLM lifelong learning的概念,帮助大家了解持续学习的特性与理论知识,同时也详细介绍了MoE的发展史,让我们更为直观的去理解其中技术要点。

Continual lifelong learning(终身学习)

终身学习系统被定义为一种能够从连续的信息中学习的自适应算法,随着时间的推移,这些信息逐步可用,并且所要学习的任务数量(例如,分类任务中的成员类)不是预先定义的。关键的是,新信息的容纳应该在没有灾难性遗忘或干扰的情况下发生。

持续学习的目标与特性

持续学习的目标是在模型持续输入学习新数据的同时避免旧知识的遗忘,以下是其性质与定义。

参考文献:Continual Lifelong Learning in Natural Language Processing: A Survey-2020年发表

性质 定义
知识记忆(knowledge retention) 模型不易产生遗忘灾难
前向迁移(forward transfer) 利用旧知识学习新任务
后向迁移(backward transfer) 新任务学习后提升旧任务
在线学习(online learning) 连续数据流学习
无任务边界(no task boudaries 不需要明确的任务或数据定义
固定模型容量(fixed model capacity) 模型大小不随任务和数据变化

LLM的性质:

 文章来源地址https://www.toymoban.com/news/detail-745965.html

参考文献:A Survey-2020年发表

 

性质   说明
知识记忆(knowledge retention) LLM预训练后,具备世界知识,小规模finetune不易对LLM造成遗忘灾难。但大规模数据续训会造成。
前向迁移(forward transfer) 基于世界知识的Zero shot、few shot、finetune。
后向迁移(backward transfer) - Finetune后会可能会造成部分任务的性能下降。二次finetune会损失首次finetune性能。
在线学习(online learning) × 离线预训练、微调。
无任务边界(No task boudaries) Unsupervised预训练、微调,不区分任务。
固定模型容量(Fixed model capacity) LLM预训练后大小不变。

以上可以看出LLM实际上已经满足了大部分持续学习的性质,百亿千亿级别的大模型经过充足的预训练后,具备大量世界知识以及涌现能力,基于此进行终身学习成为可能。

常见的LLM终身学习方法有Rehearsal(排练), Regularization(正则), Architectural(结构改造)等方式在LLM的参数量和训练模式下其实都不太适用。而LLM本身为了增大参数量和减少推理成本的混合专家方法(Mixture of Experts, MoE) 似乎成了LLM终身学习的新途径。

MoE的简介

MoE即混合专家模型,英文叫Mixture of Experts, 发展至今已有30多年历史。MoE是一种模型设计策略,它通过将多个模型直接结合在一起,以获得更好的预测性能。在大模型中,MoE方案可以有效的提高模型的容量和效率。

一般来说,大模型的MoE有一个门控机制和一套门控输出机制来合并和平衡专家的选择,用于决定每个专家对最终预测的;有一套专家模型选择机制,会根据门控机制的输出选择一部分专家模型进行预测。这样可以较少计算量,并使模型能够针对不同的输入选择最合适的专家模型。

MoE示意图

图中多个Export Network用于学习不同数据,一个Gating Network用于分配每个个Expert的输出权重。对于一个输入样本c,第i个expert的输出为,Ground truth是

则损失函数为:

将提前,使得每个专家模型单独计算损失函数,鼓励不同专家模型的竞争,使得每个数据样尽可能被一个专家处理。专家模型的竞争、合作,以及Gating Network的分发方式,也成为了MoE演进过程中不断更迭出新的方向。2017年MoE已初见成型。

Sparse MoE

Google Brain的Shazeer,Noam,等人提出使用稀疏的MoE结构来将模型容量做大的方法,即:训练时使用海量的专家模型,推理时激活少数专家模型。

Sparse MoE示例图

如上图所示,模型共有n个Expert,Gating Network选择少数Expert进行计算。此外,在训练过程中前期编号的expert会更容易被gating network选择,导致只有少数几个expert有用,这被称为Expert Balancing问题。这时的Sparse MoE目标方向是将模型做大,以及经济高效地进行训练推理。同年,能够并行训练的Transformer的出现将所有人的目光都汇聚了过去。

Transformer MoE

当模型参数量到了千亿这个级别以后,再想向上扩展变得愈发困难,经济实用的MoE又被重启。还是Google,提出了GShard[4],首个将MoE思想拓展到Transformer的工作,而后Siwtch Transformer[5]、GLaM[6]等工作持续改进着Transformer MoE的结构,也将LLM的参数量从千亿推向了万亿级别。

Gshard:首个MoE+Transformer模型

Gshard的论文最早于2020.6.30发表(Gshard Scaling Giant Models with Conditional),Transformer的encoder和decoder中,每隔一个(every other)FFN层,替换成position-wise MoE层。

Switch Transformer号称拥有万亿级别的Transformer类模型

2021年1月,Google大脑团队发布文章“Switch Transformer:scaling to trillion parameter models with simple and efficient sparsity”,其简化了MoE的routing算法,并且gating network 每次只 route 到 1 个 expert。

GlaM:降本增效,精度更为精确

同年,Google的GlaM模型表明,Transformer和MoE风格的层可以组合在一起生成一个模型,在29个基准测试中平均超过GPT-3模型的精度,而使用3倍少的能耗进行训练和2倍少的计算进行推理。

PanGu-Sigma

Pangu-sigma[8]是今年3月华为诺亚方舟实验室基于Pangu-alpha模型进行MoE扩充实现的Lifelong-MoE模型。其提出了随机路由专家(RRE)方法,使得Gating Network也可以随着Expert进行裁剪。下图是PanGu-Sigma的示意图:

这里着重讲一下RRE的设计。前面提到既然可学习的Gating Network很难裁剪,那么可以简单粗暴地使用手动Gating地方式。RRE就是这样地思路,只是为了缓解过于粗暴的领域区分(持续学习的性质之一就是无任务边界,手动Gating一定程度上违背了这一点),RRE做了双层的设计:

  • 第一层,根据任务分配给不同的专家组(多个expert构成一个专家组,供一个task/domain使用)。
  • 第二层,使用组内随机Gating,让专家组的expert可以负载均衡。

这样带来的好处是显而易见的,只要对专家组进行裁切,可以完全剥离出某个领域的子模型进行推理部署,同时也可以不断地更新迭代新的专家组,实现Lifelong-learning。下图是预训练好的MoE模型进行子模型抽取的示意图。

以上两个工作,是Lifelong-MoE的两个典型工作,也分别延续了两家公司LLM的能力。但值得额外一提的是,MoE LLM实际上从训练起点分为了两派,分别是from scratch和from pretrained,而GPT4据称是from scratch的8个Expert集合,某种意义上可能更像是回到了ensemble阶段,更多是为了业务效果而非LLM的持续演进。

MoE存在问题

Lifelong-MoE看起来很好用,但是万事皆无完美,但MoE方法本身还是有一些问题,下面进行简单的介绍,也算是后续演进方向的探讨。

  • MoE结构复杂度

Transformer的MoE会对FFN层进行MoE扩展,但是Transformer结构本身还有Multihead Attention结构,这使得MoE扩展会变成Transformer结构的侵入式改造,而不管是训练前并行化的侵入式改造,还是训练完成后进行子模型的抽取,都会因为复杂的结构而需要投入大量人力。

  • Expert balancing

总会有一部分任务或领域占据所有数据的大部分,也一定会有长尾数据,使用等参数量、随机Gating的方式进行强制的均衡分配,实际上也是在伤害模型对现实世界的拟合。神经网络特点决定的嬴者通吃。Gating Network可学习会很自然的朝着几个拟合较好的Expert进行数据分配,这一点仍需要大量的尝试和研究,也许可以缓解,也许可以解决。

  • 分布式通信问题

当下的LLM预训练必然是要使用分布式并行切分的,而MoE结构和普通的Dense模型的差异在于,其需要额外的AllToAll通信,来实现数据的路由(Gating)和结果的回收。而AllToAll通信会跨Node(服务器)、跨pod(路由),进而造成大量的通信阻塞问题。

点击关注,第一时间了解华为云新鲜技术~

 

到了这里,关于MoE:LLM终身学习的可能性的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 解决idea打不开的两种可能性

    1. 打开 【C:UsersAdministratorAppDataRoamingJetBrainsIntelliJIdea2021.3】文件,找到idea64.exe.vmoptions 文件。           因为登录 windows 的用户名和 IDEA 版本可能不同,所以你的目录可能跟我的有点差别; 2. 使用记事本打开 idea64.exe.vmoptions 文件,注释或者删除以【-javaagent:】开头的那一

    2024年02月12日
    浏览(47)
  • ChatGPT无限可能性:自然语言生成的奥秘

    💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 数字化时代:跨越语言和文化障碍 冰岛是北大西洋中部的一个岛国,拥有充满活力的科技产业和蓬勃发展的旅游业。然而,虽然其大约 370,000 名公民中的大多数人会说英语或其他第二语言,但它与美国和欧洲的融合使

    2024年02月06日
    浏览(44)
  • 大数据驱动的智能家居:未来生活的可能性

    随着科技的不断发展,我们的生活也在不断变化。智能家居就是这种变革的一种体现。智能家居通过互联网和智能设备为我们的生活带来了更多的便利和舒适感。然而,智能家居的发展还面临着许多挑战。这篇文章将探讨大数据在智能家居中的应用和未来发展趋势。 智能家居

    2024年04月28日
    浏览(34)
  • “智慧时代的引领者:探索人工智能的无限可能性“

    目录 一.背景 二.应用 2.1金融领域 2.2医疗领域 2.3教育领域 三.发展 四.总结: 人工智能(Artificial Intelligence,简称AI),是指通过计算机程序模拟人类智能的一种技术。它是计算机科学、工程学、语言学、哲学等多学科交叉的产物。通过计算机程序来模拟人类智能,实现自主思

    2024年02月08日
    浏览(66)
  • 蜻蜓优化算法与人工智能的结合:未来的可能性

    蜻蜓优化算法(Hummingbird Optimization Algorithm, HOA)是一种基于自然界现象的优化算法,它模仿了蜻蜓在寻找食物和逃跑时的行为,以解决复杂的优化问题。在过去的几年里,人工智能(AI)技术的发展取得了显著的进展,许多优化算法已经成为解决复杂问题的重要工具。然而,蜻蜓优

    2024年02月22日
    浏览(47)
  • 超越HTTP/1.1:探索HTTP/2的无尽可能性

    HTTP/2 是一个应用层传输协议,是 HTTP 协议的第二个主要版本。HTTP2 主要是基于 google 的 SPDY 协议,SPDY 的关键技术被 HTTP2 采纳了,因此 SPDY 的成员全程参与了 HTTP2 协议制定过程 HTTP/2 由互联网工程任务组(IETF)的Hypertext Transfer Protocol Bis (httpbis)工作小组进行开发的,是自199

    2024年03月12日
    浏览(57)
  • 百度文心一言可以完胜ChatGPT的4点可能性

    文心一言 , 百度全新一代知识增强大 语言模型 ,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作, 高效便捷 地帮助人们获取信息、知识和灵感。 但说实话,很多人拿他与 ChatGPT 相对比,结果我就不说了。今天,我通过 个人的感受 来说一下,如果百度

    2024年02月02日
    浏览(49)
  • 在NISQ小型计算机上执行大型并行量子计算的可能性

    Steve White提出了密度矩阵重整化群(DMRG)的基本思想,即纠缠是一种有价值的资源,可以用来精确或近似地描述大量子系统。后来,这一思想被理解为优化矩阵积状态(MPS)的算法,支持将张量网络用作波函数的变分参数化,其中纠缠是一个量化的资源。这种方法允许将计算

    2024年02月05日
    浏览(48)
  • 介绍Phi-3:微软重新定义小型语言模型(SLM)的可能性

      每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与

    2024年04月28日
    浏览(30)
  • eBPF技术:开启下一代系统观测与网络安全的可能性

    导言:在当今数字化时代,系统观测和网络安全成为了企业和组织中至关重要的领域。而eBPF(extended Berkeley Packet Filter)技术作为一种创新的工具和框架,正在迅速崭露头角。本文将深入探讨eBPF技术的原理、优势和应用领域,以展示其在开启下一代系统观测与网络安全中的潜

    2024年04月25日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包