高级分布式系统-第15讲分布式机器学习--联邦学习-Toy模板网

这篇具有很好参考价值的文章主要介绍了高级分布式系统-第15讲分布式机器学习--联邦学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

高级分布式系统汇总：高级分布式系统目录汇总-CSDN博客

联邦学习

两种常见的架构：客户-服务器架构和对等网络架构

高级分布式系统-第15讲分布式机器学习--联邦学习,分布式,机器学习,人工智能,高级分布式系统,神经网络

联邦学习在传统的分布式机器学习基础上的变化。

传统的分布式机器学习：在数据中心或计算集群中使用并行训练，因为有高速通信连接，所以通信开销相对很小，计算开销将会占主导地位。

联邦学习：通信需要依靠互联网，甚至是无线网络，所以通信代价是占主导地位的。

减少通信轮次的方法

 增加并行度：加入更多的参与方，让它们在通信轮次间各自独立地进行模型训练。

 增加每一个参与方中的计算：每一个参与方可以在两个通信轮次之间进行更复杂的计算。

高级分布式系统-第15讲分布式机器学习--联邦学习,分布式,机器学习,人工智能,高级分布式系统,神经网络

最经典的联邦学习算法——FedAvg

1、服务器初始化训练模型，并随机选择所有客户端中的一部分将模型广播给被选择的用户。

2、被选择的客户端先将接受到的模型作为初始化模型，在利用本地数据进行训练，然后将结果上传给服务器。

3、服务器聚合收到的模型，然后再随机选择所有客户端中的一部分，将模型广播给被选择的用户。

4、重复2和3，直至模型收敛。

高级分布式系统-第15讲分布式机器学习--联邦学习,分布式,机器学习,人工智能,高级分布式系统,神经网络

FedAvg存在的两个缺陷：

 设备异质性：不同的设备间的通信和计算能力是有差异的。在FedAvg中，被选中的客户端在本地都训练相同的epoch，虽然作者指出提升epoch可以有效减小通信成本，但较大的epoch下，可能会有很多设备无法按时完成训练。无论是直接drop掉这部分客户端的模型还是直接利用这部分未完成的模型来进行聚合，都将对最终模型的收敛造成不好的影响。

 数据异质性：不同设备中数据可能是非独立同分布的。如果数据是独立同分布的，那么本地模型训练较多的epoch会加快全局模型的收敛；如果不是独立同分布的，不同设备在利用非IID的本地数据进行训练并且训练轮数较大时，本地模型将会偏离初始的全局模型。