FedAT:异步更新联邦学习方法

这篇具有很好参考价值的文章主要介绍了FedAT:异步更新联邦学习方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文章链接:FedAT: A Communication-Efficient Federated Learning Method with Asynchronous Tiers under Non-IID Data

发表会议: SC’21 (International Conference for High Performance Computing, Networking, Storage, and Analysis) 高性能计算,体系结构领域顶级会议,CCF-A

1.背景介绍

联邦学习(Federated Learning,FL)涉及在大规模分布式设备上训练模型,同时保持本地训练数据私有化。这种形式的协作学习需要考虑模型的收敛速度,准确性,客户端之间平衡问题和通信成本多方面的新权衡。
新的挑战包括:

  1. 落伍者问题,其中客户端由于数据或(计算和网络)资源异构性而滞后,
  2. 通信瓶颈,其中大量客户端将其本地更新传送到中央服务器并使服务器瓶颈。
  • 现有的线性优化方法大多只关注一维的权衡空间进行优化。
  • 现有的解决方案使用异步模型更新或基于分层的同步机制来处理掉队问题。
    然而,异步方法很容易造成网络通信瓶颈,而分级可能会引入偏差,因为分级更倾向于响应延迟更短的更快的层。

联邦学习模式

传统联邦学习,在一个集中式服务器的协调下,一个共享的模型从多个分布式客户端联邦中学习得到。由于安全和隐私的原因,FL部署中的不同客户端不会彼此共享数据。每个客户端使用其(分散的)本地数据来训练本地模型,而集中式服务器则聚合本地模型的学习梯度来训练全局模型

FedAT:异步更新联邦学习方法,联邦学习,联邦学习,异步更新,模型收敛,分层更新
FL通常涉及大量的客户端,这些客户端具有高度异构的硬件资源(CPU、内存和网络资源)和Non-i.i.d数据。数据资源和数据的异构性对FL算法提出了独特的挑战。此外,随着客户端数量的增加,客户端如何与服务器通信成为一个重要的设计选择。


通信方式比较

主流的通信方式有同步通信(联邦平均,FedAvg)和异步通信(FedAsync)。

通讯方式 优点 缺点
同步通信 稳定性高: 同步通信确保所有参与方在更新模型时保持同步,保持数据一致
收敛性保证:当参与方的数据分布和损失函数是一致的时候,可以稳定收敛
通信开销高: 同步通信需要等待所有参与方完成计算
并行性受限: 所有参与方必须等待其他参与方的反馈
异步通信 系统鲁棒:当系统中存在掉线者(stragglers),异步通信系统更鲁棒
通信开销低,并行性高:可以独立更新模型,无需等待
存在通信瓶颈:特别是服务器需要向参与的多方用户更新模型
收敛性不稳定: 异步通信中参与方的更新顺序是不确定的

2.内容摘要

本文提出了一种新的基于异步层的联邦学习方法:FedATFedAT协同地结合了同步层内训练和异步跨层训练。通过分层桥接同步和异步训练,FedAT通过提高收敛速度和测试精度使掉队效应最小化。FedAT使用一种感知掉队者的、加权的聚合启发式来引导和平衡训练,以进一步提高准确度。
FedAT使用Encoded Polyline Algorithm压缩上行和下行链路通信,将通信成本降至最低。结果表明,与最先进的FL算法相比,FedAT算法的预测性能提高了21.09%,通信成本降低了8.5倍。

FedAT

为了克服两种通信方式的不足,本文设计了FedAT,利用分层机制结合同步和异步进行FL训练。

FedAT中,客户机根据它们的响应延迟(即客户机完成一轮训练所用的时间)划分到不同的逻辑层种。 FedAT中的所有逻辑层同时参与全局训练,每一层以自己的速度进行。 单个层内的客户端以同步方式更新与该特定层相关联的模型,而每一层作为一个逻辑的、粗粒度的训练实体,异步更新一个全局模型。 可简单的概括为“层内同,层间异”。

更快的层,每轮响应延迟更短,推动全局模型训练更快地收敛;
较慢的层通过将模型更新异步发送到服务器,从而参与到全局训练中,进一步提高模型的预测性能。
FedAT:异步更新联邦学习方法,联邦学习,联邦学习,异步更新,模型收敛,分层更新
如果将异步更新的层模型平等地聚合到全局模型中,可能会导致有偏差的训练(倾向于更快的层),因为性能更好的层往往比性能较低的层更频繁地更新全局模型。为了解决这一问题,本文提出了一种新的加权聚合启发式算法,将更高的权重分配给较慢的层。

此外,为了最小化异步训练带来的通信成本,FedAT使用Encoded Polyline Algorithm压缩客户机和服务器之间传输的模型数据。简而言之,FedAT分层机制异步层间模型更新加权聚合方法Encoded Polyline Algorithm这四个部分协同起来,在最大限度提高收敛速度和预测性能的同时,最小化通信成本。


实验结果

FedAT:异步更新联邦学习方法,联邦学习,联邦学习,异步更新,模型收敛,分层更新

上表显示了所有数据集的预测性能和测试准确度的方差结果。当每个训练过程收敛在全局迭代预算内之后,报告最佳测试准确度。对于2类CIFAR10数据集,FedAT比最佳基线FL方法FedAvg高7.44%,比最差基线方法FedAsync高18.78%。

使用与TiFL相同的分层方案,FedAT在所有实验中均实现了比TiFL更高的准确性。这是因为(1)局部约束迫使局部模型更接近服务器模型,(2)FedAT新的加权聚合启发式算法可以更有效地吸引来自较慢层的离散客户端,从而获得更好的预测性能。FedAvg具有与TiFL最接近的预测性能,因为它们都遵循相同的同步更新策略。另一方面,FedAsync的表现最差,因为它只是在一轮中从一个客户端聚合权重,并且没有有效的方法来处理掉队者。

从图所示的收敛时间轴图中也可以清楚地注意到性能差异。FedAT收敛到最优解的速度比所有其他三个比较方法都快。


3.文章总结

本文提出了一种新的同步-异步训练模型,该模型最大限度地提高了预测性能,并将通信成本降至最低。FedAT综合了以下模块:(1)处理掉队者的分层策略;(2)异步方案更新层间全局模型,提高预测性能;(3)一种新的加权聚集启发式算法,FL服务器使用它来平衡来自异构、分散层的模型参数;(4)基于多线段编码的压缩算法,以最小化通信成本。

本文证明FedAT具有可证明的性能保证。并且通过实验验证了理论分析。实验表明,与最先进的FL方法相比,FedAT实现了最高的预测性能,收敛速度最快,并且通信效率高。文章来源地址https://www.toymoban.com/news/detail-737494.html

到了这里,关于FedAT:异步更新联邦学习方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记: 深度学习速度模型构建的层次迁移学习方法 (未完)

    摘要 : 分享对论文的理解, 原文见 Jérome Simon, Gabriel Fabien-Ouellet, Erwan Gloaguen, and Ishan Khurjekar, Hierarchical transfer learning for deep learning velocity model building, Geophysics, 2003, R79–R93. 这次的层次迁移应该指从 1D 到 2D 再到 3D. 深度学习具有使用最少的资源 (这里应该是计算资源, 特别是预测

    2024年02月10日
    浏览(31)
  • 深度学习模型的Android部署方法

    将python中训练的深度学习模型(图像分类、目标检测、语义分割等)部署到Android中使用。 1、下载Pytorch Android库。 在Pytorch的官网pytorch.org上找到最新版本的库。下载后,将其解压缩到项目的某个目录下。 2、配置项目gradle文件 配置项目的gradle文件,向项目添加Pytorch Android库的

    2024年02月10日
    浏览(33)
  • 深度学习提高模型准确率方法

    我们已经收集好了一个数据集,建立了一个神经网络,并训练了模型,在测试和验证阶段最后得到的准确率不高不到90%。或者没有达到业务的期望(需要100%)。 下面列举一些提高模型性能指标的策略或技巧,来提高模型的准确率。 使用更多数据 最简单的方法就是增加数据集

    2024年02月03日
    浏览(35)
  • 机器学习:10种方法解决模型过拟合

    本文介绍机器学习/深度学习建模过程防止模型过拟合的10种有效方法: 增加训练数据集 交叉验证 正则化 合适的特征选择 降低模型复杂度 集成方法 早停法Early Stopping 数据增强 Dropout 监控训练过程 增加更多的训练数据有助于防止过拟合,主要是因为更多的数据能够提供更全

    2024年02月08日
    浏览(56)
  • AI大模型学习的十种方法

    在当前技术环境下,AI大模型学习不仅要求研究者具备深厚的数学基础和编程能力,还需要对特定领域的业务场景有深入的了解。通过不断优化模型结构和算法,AI大模型学习能够不断提升模型的准确性和效率,为人类生活和工作带来更多便利。 系统化理论知识建构 : 对于

    2024年04月27日
    浏览(25)
  • 强化学习9——免模型预测算法介绍(蒙特卡洛方法和时步差分方法)

    对于大部分情况来说,环境是未知的,也就是说状态转移概率未知,对于这种情况的算法称为 免模型预测 算法。免模型算法与环境不断交互学习,但是需要大量的运算。 蒙特卡罗方法通过重复随机抽选,之后运用统计概率此方法来从抽样结果中归纳我们想要得到的数值估计

    2024年02月02日
    浏览(31)
  • 新手小白学习SWAT模型【建模方法、实例应用、高级进阶】

    目录 第一部分:SWAT模型实践部分 第二部分:SWAT模型【进阶部分】 更多推荐 【专家】: 刘老师【副教授】,北京重点高校资深专家,和美国SWAT软件开发方长期合作,拥有丰富的科研及工程技术经验,长期从事流域面源污染模拟及控制等领域的研究,具有资深的技术底蕴和

    2024年02月15日
    浏览(47)
  • 机器学习基础知识之多模型性能对比评价方法

    在进行预测或分类对比实验时,通常需要比较两个或两个以上的模型性能,因此,下面将介绍两个常用的多模型性能对比评价方法,一种是交叉验证t检验,该方法主要用于同一个数据集上两个模型的性能比较,另一种是Friedman检验与Nemenyi后续检验,这一方法主要用于同一组数

    2024年02月06日
    浏览(31)
  • 深度学习技巧应用37-模型训练过程中训练曲线的观察方法与超参数随机搜索方法

    大家好,我是微学AI,今天给大家介绍一下深度学习技巧应用37-模型训练过程中训练曲线的观察方法与超参数随机搜索方法。观察训练曲线可以帮助了解模型性能和诊断问题,如过拟合或欠拟合。超参数随机搜索是一种自动选择最优超参数组合的方法,通过在给定空间内随机

    2024年02月20日
    浏览(28)
  • 【通义千问】大模型Qwen GitHub开源工程学习笔记(5)-- 模型的微调【全参数微调】【LoRA方法】【Q-LoRA方法】

    本文介绍了使用微调技术进行自然语言生成的方法。通过使用transformers库中的AutoModelForCausalLM和AutoTokenizer,可以在多节点环境下进行微调。 你需要将所有样本放到一个列表中并存入json文件中。每个样本对应一个字典,包含id和conversation,其中后者为一个列表。示例如下所示:

    2024年01月23日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包