文章链接:FedAT: A Communication-Efficient Federated Learning Method with Asynchronous Tiers under Non-IID Data
发表会议: SC’21 (International Conference for High Performance Computing, Networking, Storage, and Analysis) 高性能计算,体系结构领域顶级会议,CCF-A
1.背景介绍
联邦学习(Federated Learning,
FL
)涉及在大规模分布式设备上训练模型,同时保持本地训练数据私有化。这种形式的协作学习需要考虑模型的收敛速度,准确性,客户端之间平衡问题和通信成本多方面的新权衡。
新的挑战包括:
- 落伍者问题,其中客户端由于数据或(计算和网络)资源异构性而滞后,
- 通信瓶颈,其中大量客户端将其本地更新传送到中央服务器并使服务器瓶颈。
- 现有的线性优化方法大多只关注一维的权衡空间进行优化。
- 现有的解决方案使用异步模型更新或基于分层的同步机制来处理掉队问题。
然而,异步方法很容易造成网络通信瓶颈,而分级可能会引入偏差,因为分级更倾向于响应延迟更短的更快的层。
联邦学习模式
传统联邦学习,在一个集中式服务器的协调下,一个共享的模型从多个分布式客户端联邦中学习得到。由于安全和隐私的原因,FL部署中的不同客户端不会彼此共享数据。每个客户端使用其(分散的)本地数据来训练本地模型,而集中式服务器则聚合本地模型的学习梯度来训练全局模型。
FL通常涉及大量的客户端,这些客户端具有高度异构的硬件资源(CPU、内存和网络资源)和Non-i.i.d
数据。数据资源和数据的异构性对FL算法提出了独特的挑战。此外,随着客户端数量的增加,客户端如何与服务器通信成为一个重要的设计选择。
通信方式比较
主流的通信方式有同步通信(联邦平均,FedAvg)和异步通信(FedAsync)。
通讯方式 | 优点 | 缺点 |
---|---|---|
同步通信 | 稳定性高: 同步通信确保所有参与方在更新模型时保持同步,保持数据一致 收敛性保证:当参与方的数据分布和损失函数是一致的时候,可以稳定收敛 |
通信开销高: 同步通信需要等待所有参与方完成计算 并行性受限: 所有参与方必须等待其他参与方的反馈 |
异步通信 | 系统鲁棒:当系统中存在掉线者(stragglers),异步通信系统更鲁棒 通信开销低,并行性高:可以独立更新模型,无需等待 |
存在通信瓶颈:特别是服务器需要向参与的多方用户更新模型 收敛性不稳定: 异步通信中参与方的更新顺序是不确定的 |
2.内容摘要
本文提出了一种新的基于异步层的联邦学习方法:
FedAT
。FedAT
协同地结合了同步层内训练和异步跨层训练。通过分层桥接同步和异步训练,FedAT
通过提高收敛速度和测试精度使掉队效应最小化。FedAT
使用一种感知掉队者的、加权的聚合启发式来引导和平衡训练,以进一步提高准确度。FedAT
使用Encoded Polyline Algorithm
压缩上行和下行链路通信,将通信成本降至最低。结果表明,与最先进的FL算法相比,FedAT
算法的预测性能提高了21.09%,通信成本降低了8.5倍。
FedAT
为了克服两种通信方式的不足,本文设计了FedAT
,利用分层机制结合同步和异步进行FL训练。
在FedAT
中,客户机根据它们的响应延迟(即客户机完成一轮训练所用的时间)划分到不同的逻辑层种。 FedAT
中的所有逻辑层同时参与全局训练,每一层以自己的速度进行。 单个层内的客户端以同步方式更新与该特定层相关联的模型,而每一层作为一个逻辑的、粗粒度的训练实体,异步更新一个全局模型。 可简单的概括为“层内同,层间异”。
更快的层,每轮响应延迟更短,推动全局模型训练更快地收敛;
较慢的层通过将模型更新异步发送到服务器,从而参与到全局训练中,进一步提高模型的预测性能。
如果将异步更新的层模型平等地聚合到全局模型中,可能会导致有偏差的训练(倾向于更快的层),因为性能更好的层往往比性能较低的层更频繁地更新全局模型。为了解决这一问题,本文提出了一种新的加权聚合启发式算法,将更高的权重分配给较慢的层。
此外,为了最小化异步训练带来的通信成本,FedAT
使用Encoded Polyline Algorithm
压缩客户机和服务器之间传输的模型数据。简而言之,FedAT
将分层机制、异步层间模型更新、加权聚合方法和Encoded Polyline Algorithm
这四个部分协同起来,在最大限度提高收敛速度和预测性能的同时,最小化通信成本。
实验结果
上表显示了所有数据集的预测性能和测试准确度的方差结果。当每个训练过程收敛在全局迭代预算内之后,报告最佳测试准确度。对于2类CIFAR10数据集,FedAT
比最佳基线FL方法FedAvg
高7.44%,比最差基线方法FedAsync
高18.78%。
使用与TiFL相同的分层方案,FedAT
在所有实验中均实现了比TiFL更高的准确性。这是因为(1)局部约束迫使局部模型更接近服务器模型,(2)FedAT
新的加权聚合启发式算法可以更有效地吸引来自较慢层的离散客户端,从而获得更好的预测性能。FedAvg
具有与TiFL最接近的预测性能,因为它们都遵循相同的同步更新策略。另一方面,FedAsync
的表现最差,因为它只是在一轮中从一个客户端聚合权重,并且没有有效的方法来处理掉队者。
从图所示的收敛时间轴图中也可以清楚地注意到性能差异。FedAT
收敛到最优解的速度比所有其他三个比较方法都快。
3.文章总结
本文提出了一种新的同步-异步训练模型,该模型最大限度地提高了预测性能,并将通信成本降至最低。FedAT
综合了以下模块:(1)处理掉队者的分层策略;(2)异步方案更新层间全局模型,提高预测性能;(3)一种新的加权聚集启发式算法,FL服务器使用它来平衡来自异构、分散层的模型参数;(4)基于多线段编码的压缩算法,以最小化通信成本。文章来源:https://www.toymoban.com/news/detail-737494.html
本文证明FedAT
具有可证明的性能保证。并且通过实验验证了理论分析。实验表明,与最先进的FL方法相比,FedAT
实现了最高的预测性能,收敛速度最快,并且通信效率高。文章来源地址https://www.toymoban.com/news/detail-737494.html
到了这里,关于FedAT:异步更新联邦学习方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!