《Communication-Efficient Learning of Deep Networks from Decentralized Data》

这篇具有很好参考价值的文章主要介绍了《Communication-Efficient Learning of Deep Networks from Decentralized Data》。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Communication-Efficient Learning of Deep Networks from Decentralized Data

这篇文章算是联邦学习的开山之作吧,提出了FedAvg的算法,文中对比了不同客户端本地训练次数,客户端训练数据集划分的影响。

0. Abstract

现代移动设备可以获取大量适合学习模型的数据,然而,这些丰富的数据通常是隐私敏感的、数量很大的,这可能导致无法记录到数据中心并使用传统方法进行培训。本文提倡一种替代方案,将训练数据分布在移动设备上,并通过聚合本地计算的更新来学习共享模型,称为联合学习。
本文在五种模型四个数据集下测试了联邦学习的效果。

1. Introduction

每个客户端都有一个从未上传到服务器的本地训练数据集。相反,每个客户端计算一个对服务器维护的当前全局模型的更新,并且只有这个更新才会被通信。

主要贡献
1)确定了移动设备上分散数据的训练问题作为一个重要的研究方向;
2)选择一个简单实用的算法,可以应用于这一设置;
3)对所提出的方法进行了广泛的实证评估。更具体地说,我们引入了FederatedAveraging算法,它将每个客户端的局部随机梯度下降(SGD)与执行模型平均的服务器相结合。对该算法进行了大量的实验,证明了该算法对不平衡和非iid数据分布具有鲁棒性,并且可以将在分散数据上训练深度网络所需的通信次数减少几个数量级。

联邦学习的理想问题有以下属性:
1)在移动设备上进行的训练比在数据中心中通常可用的代理数据上进行的训练具有明显的优势。
2)这些数据是隐私敏感的或大的(与模型的大小相比),所以最好不要纯粹为了模型训练的目的而将其记录到数据中心(服务于集中收集原则)。
3)对于监督任务,数据上的标签可以从用户交互中自然地推断出来。

隐私安全:与持久数据上的数据中心培训相比,联邦学习具有明显的隐私优势。
联邦优化:我们将联邦学习中隐含的优化问题称为联邦优化,它与分布式优化建立了联系(并形成对比)。联邦优化与典型的分布式优化问题有几个关键的区别:

  1. 非独立同分布:标签分布不均
  2. 不平衡:样本数量不同
  3. 大规模
  4. 通信约束:移动设备经常离线,或者连接速度慢或费用高。

我们的目标是使用额外的计算,以减少训练模型所需的通信轮数。有两种主要的方法可以增加计算量:1)增加并行性,在每个通信轮之间我们使用更多的客户端独立工作;2)增加了每个客户端的计算量,每个客户端在每个通信轮之间执行一个更复杂的计算,而不是执行一个简单的计算,比如梯度计算。我们研究了这两种方法,但我们实现的加速主要是由于在每个客户机上增加了更多的计算量,一旦使用了客户机上的最小并行度。

2. FedAvg

我们在每一轮中选择一个客户端的Cfraction,并计算这些客户端所持有的所有数据的损失梯度。因此,C控制全局批量大小,C = 1对应的是全批量(非随机)梯度下降我们将此基线算法称为FederatedSGD(或federdsgd)。

FedAvg计算量由三个关键参数控制:C,每轮执行计算的客户端的比例; E,每个客户端在每一轮中对其本地数据集进行训练的次数; 和B,用于客户端更新的本地minibatch大小。 我们写b=∞来表示整个局部数据集被视为单个小批处理。 因此,在该算法族的一个端点上,我们可以取b= ∞ \infty 和e=1,这正好对应于FEDSGD。
《Communication-Efficient Learning of Deep Networks from Decentralized Data》,联邦学习,去中心化,联邦学习
θ \theta θ是两个模型的聚合参数,聚合权重一个是 θ \theta θ一个是 1 − θ 1-\theta 1θ,根据实验结果图我们可以发现,如果两个模型的初始模型参数不同,使用平均聚合0.5的结果不是很好,反而单独使用一个模型的权重, θ \theta θ接近0或者1反而更好。但是如果两个模型初始化使用相同的模型参数,那么使用0.5进行聚合的结果就会比较好。

《Communication-Efficient Learning of Deep Networks from Decentralized Data》,联邦学习,去中心化,联邦学习
FedAvg算法分为客户端的服务器两块,客户端就是简单地本地训练,这里训练首先划分了一个batch的大小,batch集合为 B \mathcal{B} B,然后客户端需要迭代E轮,那样客户端就总共需要循环 E ∗ n k B E*\frac{n_k}{B} EBnk次。服务器负责选中随机客户端,并且下发全局模型并且等待客户端返回更新结果,这里的更新权重是以客户端本地的数据量来决定的,客户端本地的数据量越多,FedAvg聚合时所占的权重也就越大。

3. Experiment

实验设置:初步研究包括两个数据集上的三个模型族。前两个是MNIST数字识别任务[26]:
1)一个简单的多层感知器,有2个隐藏层,每个层有200个单元,使用ReLu激活(总共199,210个参数),我们称之为MNIST 2NN。
2)有两个5x5卷积层的CNN(第一个是32个通道,第二个是64个,每个都有2x2 max pooling),全连接层有512个单元,ReLu激活,最后有softmax输出层(总共1663370个参数)。

研究了在客户端上划分MNIST数据的两种方法:IID,数据被洗牌,然后划分为100个客户端,每个客户端接收600个示例,以及Non-IID,按照数字标签对数据排序,将其划分为200个大小为300的分片,并为100个客户端分配2个分片。这是一种病态的非iid数据分区,因为大多数客户机将只有两个数字的示例,这让我们可以探索我们的算法在高度非iid数据上的破坏程度。

对于语言建模,我们从莎士比亚全集[32]构建了一个数据集。生成包含1146个客户机的数据集。对于每个客户,我们将数据分解为一组训练线(角色的前80%的线)和测试线(最后的20%,四舍五入到至少一行)。同样分为IID和non-IID的两组数据,使用的模型为LSTM。

《Communication-Efficient Learning of Deep Networks from Decentralized Data》,联邦学习,去中心化,联邦学习

对于b= ∞ \infty (对于MNIST每轮处理所有600个客户机示例为一个批次),在增加客户机部分方面只有很小的优势。 使用较小的批处理大小b=10显示了使用c≥0.1的显著改进,尤其是在非IID情况下。 基于这些结果,在我们剩下的大部分实验中,我们确定C=0.1,这在计算效率和收敛速度之间取得了很好的平衡。 比较表1中b= ∞ \infty 和b=10列的轮数,可以看到显著的加速,我们接下来将对此进行研究。

《Communication-Efficient Learning of Deep Networks from Decentralized Data》,联邦学习,去中心化,联邦学习

在本节中,我们将C=0.1,并在每一轮中为每个客户机添加更多的计算量,或者减少B,或者增加E,或者两者兼而有之。我们根据这个统计信息对表中每一部分的行进行排序。 我们看到,通过改变e和b来增加u是有效的。
通过实验结果可以看出,增大客户端本地训练迭代次数,减少batch的大小可以有效地加大客户端本地的计算时长,同时也可以带来更大的训练加速,在更少的大轮次内达到收敛的效果。

准确率曲线图
《Communication-Efficient Learning of Deep Networks from Decentralized Data》,联邦学习,去中心化,联邦学习
在CIFAR10数据集上作者还与SGD进行了对比,这里的SGD但就是对集中式机器学习,并以此作为基线。(其实我觉得这有点不公平,这就是分布式机器学习和集中式机器学习对比了,效率肯定吊打单机学习)
《Communication-Efficient Learning of Deep Networks from Decentralized Data》,联邦学习,去中心化,联邦学习
在LSTM上结果相同
《Communication-Efficient Learning of Deep Networks from Decentralized Data》,联邦学习,去中心化,联邦学习

4. Conclusion

我们的实验表明联邦学习是可行的,因为FedAvg使用相对较少的通信轮来训练高质量的模型。文章来源地址https://www.toymoban.com/news/detail-599071.html

到了这里,关于《Communication-Efficient Learning of Deep Networks from Decentralized Data》的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    论文链接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 单位 :兰州大学信息科学与工程学院,青海省物联网重点实验室,青海师范大学 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    浏览(53)
  • Lecture 8 Deep Learning for NLP: Recurrent Networks

    Problem of N-gram Language Model N-gram 语言模型的问题 Cen be implemented using counts with smoothing 可以用平滑计数实现 Can be implemented using feed-forward neural networks 可以用前馈神经网络实现 Problem: limited context 问题:上下文限制 E.g. Generate sentences using trigram model: 例如:使用 trigram 模型生成句子

    2024年02月09日
    浏览(41)
  • 残差网络(ResNet) -深度学习(Residual Networks (ResNet) – Deep Learning)

    在第一个基于cnn的架构(AlexNet)赢得ImageNet 2012比赛之后,每个随后的获胜架构都在深度神经网络中使用更多的层来降低错误率。这适用于较少的层数,但当我们增加层数时,深度学习中会出现一个常见的问题,称为消失/爆炸梯度。这会导致梯度变为0或太大。因此,当我们增加

    2024年02月15日
    浏览(44)
  • 自然语言处理(六): Deep Learning for NLP: Feedforward Networks

    目录 1. Deep Learning 1.2 Feed-forward NN 1.3 Neuron 1.4 Matrix Vector Notation 矩阵向量表示法 1.5 Output Layer 1.6 Learning from Data 1.7 Regularisation 正则化 1.8 Dropout 2. Applications in NLP 2.1 Topic Classification 2.2 Topic Classification - Training 2.3 Topic Classification - Prediction 2.4 Topic Classification - Improvements 2.5

    2023年04月09日
    浏览(42)
  • 自然语言处理(七): Deep Learning for NLP: Recurrent Networks

    目录 1. N-gram Language Models 2. Recurrent Neural Networks 2.1 RNN Unrolled 2.2 RNN Training 2.3 (Simple) RNN for Language Model 2.4 RNN Language Model: Training 2.5 RNN Language Model: Generation 3. Long Short-term Memory Networks 3.1 Language Model… Solved? 3.2 Long Short-term Memory (LSTM) 3.3 Gating Vector 3.4 Simple RNN vs. LSTM 3.5 LSTM: Forget

    2023年04月13日
    浏览(48)
  • On the Robustness of Backdoor-based Watermarkingin Deep Neural Networks

    关于深度神经网络中基于后门的数字水印的鲁棒性 ABSTRACT 在过去的几年中,数字水印算法已被引入,用于保护深度学习模型免受未经授权的重新分发。我们调查了最新深度神经网络水印方案的鲁棒性和可靠性。我们专注于基于后门的水印技术,并提出了两种简单而有效的攻击

    2024年02月01日
    浏览(46)
  • TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING

    本文也是属于LLM系列的文章,针对《TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING》的翻译。 在下游任务上微调大型预训练语言模型已经成为NLP中事实上的学习范式。然而,传统的方法对预训练模型的所有参数进行微调,随着模型大小和任务数量的增长,这变得令人望而却

    2024年02月11日
    浏览(41)
  • The Intersection of Deep Learning and Natural Language Processing

    自从深度学习技术的蓬勃发展以来,它已经成为了人工智能领域的重要技术之一。深度学习的发展也为自然语言处理(NLP)领域提供了强大的支持。在这篇文章中,我们将探讨深度学习与自然语言处理的相互作用,以及它们在实际应用中的表现。 自然语言处理是计算机科学与

    2024年01月17日
    浏览(47)
  • Deep learning of free boundary and Stefan problems论文阅读复现

    在这项工作中,作者提出了一个基于物理信息神经网络的多网络模型,来解决一类一般的正和逆自由边界问题,称为Stefan问题。具体地说,用两个深度神经网络来近似未知解以及任何移动边界。作者提供了三个案例研究(一维一相Stefan问题,一维二相Stefan问题,二维一相Ste

    2024年02月08日
    浏览(49)
  • 论文学习记录之SeisInvNet(Deep-Learning Inversion of Seismic Data)

    目录 1 INTRODUCTION—介绍 2 RELATED WORKS—相关作品 3 METHODOLOGY AND IMPLEMENTATION—方法和执行 3.1 方法 3.2 执行 4 EXPERIMENTS—实验 4.1 数据集准备 4.2 实验设置 4.3 基线模型 4.4 定向比较 4.5 定量比较 4.6 机理研究 5 CONCLUSION—结论           地震勘探是根据地震波在大地中的传播规律来

    2024年01月19日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包