多任务学习经典品读:MMoE模型篇

这篇具有很好参考价值的文章主要介绍了多任务学习经典品读:MMoE模型篇。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

moe模型,大数据,算法,python,神经网络,机器学习

作者 | 知乎博主@青枫拂岸  

整理 | NewBeeNLP

今天带来是Google发表于KDD2018,针对于多任务推荐的经典模型MMOE。

  • 论文:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

  • 地址: https://dl.acm.org/doi/10.1145/3219819.3220007

由于本论文的创新偏向于模型结构和设计,而非模型策略的优化。故本篇讲解将主要聚焦于此。

一、为什么需要多任务建模

一般来讲,单任务建模一般聚焦于ctr,无论是电商场景还是新闻推荐场景下,但是久而久之,则会发生一些问题,如新闻领域的标题党,电商场景下的点击未购买,在这样的情况下,是否可以通过多任务模型来避免此类问题的发生呢?

什么是多任务模型:多任务学习旨在构建单个模型来同时学习多个目标和任务。

如同时预测新闻的ctr和阅读时长,电商场景的ctr和购买转化率。

但是,通常任务之间的关系会极大地影响多任务模型的预测质量。即传统的多任务模型对任务关系比较敏感。文中3.2-3.3小节进行实验得出结论。

因此,学习task-specific objectives和inter-task relationships之间的权衡也非常重要。

It is therefore important to study the modeling tradeoffs between task-specific objectives and inter-task relationships.

二、相关工作

文中阐述多任务学习的框架主要采用 shared-bottom结构,即不同任务共用下层的隐藏层,再通过建立顶部不同的塔,来对应不同的任务。这样做的好处是减少参数,但是劣势是 训练过程中出现不同任务之间的优化冲突(optimizationn confilicts)。

所以也有一些其他结构,如:两个任务的参数不在公用,但是参数之间使用L2范数限制。亦或者是每个任务学习隐层embedding再进行组合。通过张量分解模型(tensor factorization model)获得不同任务的隐层层参数。具体可参考原文2.1小节涉及论文。

相对于shared-bottom结构,其他方法产生大量参数,但的确解决了任务优化冲突问题,但是这些方法都面临着一个绕不开的工业问题—— 真实环境大规模服务

本文借鉴了MoE model, 提出Multi-gate Mixture-of-Experts model (MMOE) 模型,对比shared-bottom,在模型表达能力和训练难度上都更加优秀,在真实环境中更加有效。

三、模型架构

moe模型,大数据,算法,python,神经网络,机器学习

Shared-bottom Multi-task Model

如上图a所示,假设有K个任务,上层则会有K个塔(图中K=2),每个塔的函数为 , k=1,2,...,K。shared-bottom 层作为底部共享层,表示为函数 。对于不同的任务输出为

Original Mixture-of-Experts (MoE) Model

公式为

其中 , 为来自专家 的可能性。 是专家网络 i∈1,2,...,n。 代表gating网络,就是融合下层expert网络的一种集成方式。更为具体地说,  产生n个experts上的概率分布,从而输出所有expert网络结果的权重和,类似于机器学习中的模型融合方法。

虽然MoE最初是作为多个单独模型的集成方法开发的,但Eigen等人和Shazeer等人将其转化为基本构建块——MoE层。MoE层具有与MoE模型相同的结构,但接受前一层的输出作为输入并输出到后续layer。然后在端到端中对整个模型进行训练。即把MoE作为大模型的一小部分。

图中的b为One-gate Mixture-of-Experts (OMoE) model,即只有一个gating 网络。接下来的实验对比使用的便是OMoE。

Multi-gate Mixture-of-Experts (MMoE) Model

如图c所示,本文提出的模型结构,与Shared-bottom多任务模型相比,该模型旨在捕获任务差异,而不需要更多的模型参数。关键是用MoE 代替了 Shared-bottom,并且对于每一个任务task都加了一个单独的gating 网络。例如对于任务k有公式

where

gating 网络使用DNN+ReLU+softmax实现:

其中 是可训练矩阵,n是专家网络的个数,d是特征维度。

每个gating网络都可以根据训练来 选择 对应输入的expert网络权重。在多任务学习情况下灵活的进行参数共享是具有优势的。

假设在极端条件下,gating网络智能选择一个expert 网络输出,则每个门网络实际上将输入空间线性地划分为n个区域(n为任务个数),每个区域对应一个expert,即每个expert 网络负责一个任务,模型退化为单任务模型的组合。

总之,MMoE能够通过确定不同门导致的分离如何相互重叠,以复杂的方式对任务关系进行建模。

如果任务相关性较小,则共享expert将受到惩罚,这些任务的控制网络将学习如何使用不同的expert。因此模型考虑到了捕捉到任务的相关性和区别。与shared-bottom模型相比,MMoE只有几个额外的选通网络,并且选通网络中的模型参数数量可以忽略不计。

四、实验部分

人工构造数据集

真实数据中无法轻易改变两个任务的相关性,为了探究任务相关性对于模型结果的影响,要进行人工构造数据集,具体可参考文中3.2节,其中相关性的衡量采用Pearson 相关系数。

模型设置

输入维度100,划分为8个expert网络,每个expert 网络 的hidden size为16。顶层2个任务,towner 网络hidden size=8,故参数为 1000×16(每个expert 特征Embedding化参数) ×8(expert个数) + 16*8(每个towner参数)*2(task个数)。

实验效果

moe模型,大数据,算法,python,神经网络,机器学习

实验结论
  1. 对于所有模型,在相关性较高的数据上的表现都优于在相关性较低的数据上的表现。

  2. MMoE 模型在具有不同相关性的数据上的性能差距远小于 OMoE 模型和 Shared-Bottom 模型。当我们比较 MMoE 模型和 OMoE 模型时,这种趋势尤为明显:在两个任务相同的极端情况下,MMoE 模型和 OMoE 模型之间的性能几乎没有差异;然而,当任务之间的相关性降低时,OMoE 模型的性能有明显的退化,而对 MMoE 模型的影响很小。因此,使用特定于任务的门来模拟低相关性情况下的任务差异至关重要。

  3. 就平均性能而言,两种 MoE 模型在所有场景中都优于 Shared-Bottom 模型。这表明 MoE 结构本身带来了额外的好处。根据这一观察,MoE 模型比 Shared-Bottom 模型具有更好的可训练性。

模型可训练性(Trainability)

对于大型网络模型,我们更关心模型是否可训练,例如 设置不同模型的超参数设置和模型行初始化是否对模型足够鲁棒。

故文章自然地研究模型相对于数据和模型初始化中的随机性的鲁棒性。在每个设置下重复实验多次。每次数据都是从相同的分布但不同的随机种子生成的,并且模型的初始化也不同,观察不同任务的loss变化情况。

实验结果

moe模型,大数据,算法,python,神经网络,机器学习

结论:

  1. shared-bottom模型的方差比基于MoE的模型波动大很多。这意味着shared-bottom模型通常比基于MoE的模型具有更多的低质量局部极小值。

  2. 其次,当任务相关性为1时,OMoE模型的性能方差与MMoE模型的性能方差具有相似的鲁棒性,但当任务相关性降至0时,OMoE的鲁棒性明显下降。MMoE和OMoE之间的唯一区别在于是否存在多门结构。 这验证了多门结构在解决任务差异冲突导致的较差的局部极小值方面的有效性

  3. 所有三个模型的最低loss是可比较的。因为神经网络在理论上是通用的逼近器。有了足够的模型容量,应该存在一个“正确的shared-bottom模型,可以很好地学习两个任务。但是,当前是200个独立运行的实验的分布。文章指出对于更大和更复杂的模型(例如,当shared-bottom网络是一个RNN时),可能 获得“正确”模型的可能会随着任务关系的重要性变得更低。故得出结论: 显式地建模任务关系仍然是可取的

五、大规模服务

模型部署在Google Inc.上,拥有数亿用户的内容平台。业务场景是,根据与用户当前的消费行为,推荐下一步消费的相关物品列表。

对于两个任务分别设置为:

  • 针对参与度的相关目标 如点击率和参与时间(click through rate and engagement time)

  • 针对满意度相关指标 如喜欢程度(like rate)

训练数据包括数千亿用户的隐性反馈,如点击和喜欢。如果单独训练,每个任务的模型需要学习数十亿个参数。因此,与单独学习多个目标相比,Shared-Bottom架构具有更小模型尺寸的优势。事实上这种Shared-Bottom模型已经在生产中使用。

利用100亿数据量 设置batch_size=1024,展示经过200w step、400w step和600wstep的结果。

moe模型,大数据,算法,python,神经网络,机器学习

可以看到MMoE的效果最好。

moe模型,大数据,算法,python,神经网络,机器学习

针对不通任务下,gating网络得到的不通Expert网络的系数分布

六、结论

提出了一种新的多任务模型范式 MMoE 有点如下:

  • 更好的处理了任务相关性较小的场景。

  • 同样任务关联性下,效果相对于常用Shared-Bottom模型更好,loss更低。

  • 模型有更好的计算优势,gating网络通常重量较轻,并且Expert网络在所有任务中共享。此外,该模型还可以通过将选通网络作为稀疏的top-k gating来实现更高的计算效率。

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)文章来源地址https://www.toymoban.com/news/detail-637031.html

到了这里,关于多任务学习经典品读:MMoE模型篇的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用PyTorch实现混合专家(MoE)模型

    Mixtral 8x7B 的推出在开放 AI 领域引发了广泛关注,特别是混合专家(Mixture-of-Experts:MoEs)这一概念被大家所认知。混合专家(MoE)概念是协作智能的象征,体现了“整体大于部分之和”的说法。MoE模型汇集了各种专家模型的优势,以提供更好的预测。它是围绕一个门控网络和一

    2024年01月17日
    浏览(40)
  • 用 llama.cpp 跑通 mixtral MoE 模型

    这里是 用 llama.cpp 跑通 mixtral MoE 模型 视频的笔记哦。 安装 huggingface_hub: pip install huggingface_hub -U 下载模型 huggingface-cli download TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf —local_dir $PWD —local_dir_use_symlinks=False 编译 llama.cpp LLAMA_CUBLAS=1 make -j10 运行 ./main -m ~/auto

    2024年02月03日
    浏览(31)
  • 排序算法经典模型: 梯度提升决策树(GBDT)的应用实战

    目录 一、Boosting训练与预测 二、梯度增强的思想核心 三、如何构造弱学习器和加权平均的权重 四、损失函数 五、梯度增强决策树 六、GBDT生成新特征 主要思想 构造流程 七、梯度增强决策树以及在搜索的应用 7.1 GDBT模型调参 7.1.1 框架层面参数 n_estimators subsample 7.1.2 分类/回

    2024年01月25日
    浏览(32)
  • 比亚迪发布璇玑AI大模型;微软推出Copilot Pro;国内首个MoE模型上线

    比亚迪发布璇玑 AI 大模型 1 月 16 日,在 2024 比亚迪梦想日活动上,比亚迪正式发布了整车智能化架构「璇玑」及「璇玑 AI 大模型」。 比亚迪产品规划及汽车新技术研究院院长杨冬生称,「璇玑」是行业首个智电融合的智能化架构,让汽车拥有了智能化的「大脑」和「神经网

    2024年01月18日
    浏览(58)
  • 深度学习04-CNN经典模型

    卷积神经网络(CNN)是深度学习中非常重要的一种网络结构,它可以处理图像、文本、语音等各种类型的数据。以下是CNN的前4个经典模型 LeNet-5 LeNet-5是由Yann LeCun等人于1998年提出的,是第一个成功应用于手写数字识别的卷积神经网络。它由7层神经网络组成,包括2层卷积层、

    2024年02月06日
    浏览(38)
  • 经典机器学习算法之GBDT算法

    本篇文章旨在让完全不懂的小伙伴对该算法有一个初步认识与理解,只适用于小白 GBDT(Gradient Boosting Decision Trees,梯度提升决策树)是一种迭代的 决策树算法 ,由多棵决策树组成,所有树的 结论累加 起来作为最终答案,我们根据其名字来展开推导过程是一种集成学习方法

    2024年02月11日
    浏览(49)
  • 生成模型经典算法-VAE&GAN(含Python源码例程)

    深度学习是一种人工智能的技术,其最大的特点是能够对复杂的数据进行分析和处理。在深度学习中,生成模型和判别模型是两个重要的概念,它们可以帮助我们更好地理解深度学习的工作原理并实现不同的任务。 生成模型和判别模型的区别在于,生成模型是通过学习输入数

    2024年02月06日
    浏览(33)
  • 用通俗易懂的方式讲解大模型分布式训练并行技术:MOE并行

    前面的文章中讲述了数据并行、流水线并行、张量并行、序列并行、自动并行等多种并行技术。但现在的模型越来越大,训练样本越来越多,每个样本都需要经过模型的全部计算,这就导致了训练成本的平方级增长。 而当我们希望在牺牲极少的计算效率的情况下,把模型规模

    2024年02月02日
    浏览(63)
  • MoE模型性能还能更上一层楼?一次QLoRA微调实践

    编者按:最近,混合专家(Mixture of Experts,MoE)这种模型设计策略展现出了卓越的语言理解能力,如何在此基础上进一步提升 MoE 模型的性能成为业界热点。 本文作者使用一种名为 QLoRA 的方法,通过量化和 LoRA 技术对 MoE 模型 Mixtral-8x7B 进行微调,以期大幅提高其性能。 作者详细

    2024年02月01日
    浏览(33)
  • 机器学习十大经典算法

    机器学习算法是计算机科学和人工智能领域的关键组成部分,它们用于从数据中学习模式并作出预测或做出决策。本文将为大家介绍十大经典机器学习算法,其中包括了线性回归、逻辑回归、支持向量机、朴素贝叶斯、决策树等算法,每种算法都在特定的领域发挥着巨大的价

    2024年02月14日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包