联邦学习综述:挑战、方法和未来方向

这篇具有很好参考价值的文章主要介绍了联邦学习综述:挑战、方法和未来方向。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

联邦学习:挑战、方法和未来方向

IEEE SIGNAL PROCESSING MAGAZINE, 2020

本文可能在基础上拓展了很多新的应用场景和思路,值得参考,联邦学习中可以考虑的点其实有很多。


一、简介

随着移动设备等算力增强,信息传输的隐私问题日渐让人担忧。可以考虑在本地存储和使用模型但是集中训练机器学习模型的方式,比如手机用户的建模和个性化。联邦学习可以使得模型能够直接在远程设备进行训练。

智能手机

例如智能手机的输入法补全功能,用户处于隐私不想公开自己的数据,联邦学习可以在不泄露用户隐私信息的情况下完成该功能的大规模学习,采用所有用户的历史文本信息训练模型。
联邦学习综述:挑战、方法和未来方向

组织机构

比如医院包含很多病人的信息,能够预测健康情况,但是医院的隐私要求很严格,甚至是伦理问题,联邦学习能为这些应用解决问题,能够在保证隐私的情况下多方联合学习。

物联网

像一些无线车辆、智能家居等会有很多传感器,比如自动驾驶车辆需要更新交通数据模型,但是采用本地数据很难建模,因为没有其他设备间的联系,联邦学习可以在保证用户隐私的条件下训练模型,解决此类问题。

目标函数

联邦学习综述:挑战、方法和未来方向
联邦学习综述:挑战、方法和未来方向

二、主要挑战

2.1 交互开销

由于带宽、能源等问题,网络上的交互要比本地计算慢得多,因此提高交互效率很重要,需要考虑的两个方面有:减少交互轮次或者减少每轮交互信息量。

2.2 系统不一致性

随硬件、网络和能源的不同,联邦网络的存储、计算和交互能力也不同,网络的大小或者设备系统限制导致每次只有一部分设备是激活的。或者有些设备在迭代过程中可能关机,退出激活态。因此联邦学习方法必须:考虑参与者数目较少问题、硬件不一致的容错率和对在交互网络中离线设备的鲁棒性。

2.3 数据不一致性

网络中不断产生分布差异很大的数据,比如在输入法补全任务中手机用户有很多使用的语言。设备间的数据不同,可能有一种潜在的统计结构表示不同设备的关系和分布。所以联邦学习可能存在一些问题,学习全局模型时,需要同时通过多任务学习框架学习本地模型,可能用到元学习的方法;从多任务和元学习角度能够使本地模型更加个性化,解决数据异质的问题。

2.4 隐私问题

联邦学习只共享模型更新信息,比如梯度,而不是原始数据。尽管如此,还是会泄露给第三方或者中央服务器信息。即使最近用于增加隐私保护的方法,如SMC和差分隐私等,但是会降低系统效率和模型效果。需要在这些方面进行权衡。

三、近期相关工作研究

3.1 交互效率

交互是联邦网络方法进展中的一个瓶颈,接下来从三个方面介绍:本地模型更新、压缩策略和分散训练。

本地模型更新

随机梯度下降法是分布式机器学习经常使用的方法,但是在交互上也有很多局限性,很多方法被提出增强分布式环境下的通信效率。
很多分布式本地更新的简单方法能够解决这些问题,这些方法采用对偶结构有效的将全局目标分解为子问题,每一轮并行的解决。
联邦学习最常用的方法是联邦平均(FedAvg),通过将本地SGD更新进行平均,尤其是对于非凸问题有很好的效果,但是不能在数据不一致的情况下保证收敛。

压缩策略

即使本地更新策略可以减少交互轮次,但是模型压缩策略如稀疏化或量化都能显著减少交互信息的长度。在联邦环境中,诸如参与设备少、本地数据分布不同和本地更新策略对这些压缩方法都有新的挑战。虽然很多工作都能够保证收敛,适用于分布式数据,但是没有考虑像设备参与度不高或者本地模型更新方法的联邦学习相关问题
联邦学习综述:挑战、方法和未来方向

分散式训练

图中a是星形拓扑网络,b是分散式拓扑网络,分散式因为带宽低、延迟低比中央训练速度快,可以减少和中心服务器的高交互开销,最近一些工作介绍了一些不一致数据的本地更新策略,但是局限于线性模型或者假设所有设备均参与更新
联邦学习综述:挑战、方法和未来方向

3.2 系统不一致性
异步交互

同步交互很简单,能够保证串行计算模型,但是由于设备不同很难实现。异步策略可以减少不一致环境的问题,尤其是公共存储系统。即使异步参数服务器在分布式数据中心和成功,但是对联邦学习来说,延迟可以长达几小时、几天甚至无限期。

动态采样

有一种方法可以动态的在每轮选参与设备,用一个预定义窗口整合尽可能多的设备,选择的设备虽然少但是要有代表性,能表示统计结构。

容错率

在训练迭代完成之前可能有一些设备掉线,一个可行的策略是忽略那些掉线的设备,像FedAvg,会引入偏置,例如那些偏远地区的设备由于网络问题更容易掉线,所以模型会更倾向于那些网络条件好的设备。
代码计算是容差的另外一种方法,其引入算法冗余。例如,梯度编码可以修复真实梯度,但是也在联邦环境中有很多挑战,比如隐私政策和大规模网络下的设备间信息交换。

3.3 统计不一致性
不一致数据建模

借鉴元学习和多任务学习的方法。

  • MOCHA是为联邦背景设计的优化结构,允许通过学习每个设备相关的模型进行个性化,而且能够证明收敛性,但是受限于网络规模,只适用于凸目标。
  • 像星形拓扑一样的贝叶斯网络,即使可以解决非凸函数,但是大规模联邦开销很大。
  • 多任务信息的元学习
  • 多元化解决方案,自适应的选择全局或局部模型
  • 不可知论联邦学习,中央模型的优化对最大最小优化策略的混合客户分布组成的任意目标分布都适用
  • q-FFL,有较高loss的设备给予更高的相对权重,使得最后的准确率分布偏差减小
  • 除了平衡问题,我们注意到像可解释性和问责对联邦学习来说更重要,由于规模和不一致问题可能还有很多挑战。
非独立同分布的数据保证收敛

网络中的数据不是独立同分布的话,像FedAvg等方法在本地数据更新太多时会有偏差,平行SGD也一样。
像之前所说的,系统简单的丢弃那些掉线的设备会导致统计不一致性,FedProx在FedAvg上做了一个小的修改,允许在满足约束的条件下跨多个设备执行部分工作,实际上相当于在FedAvg基础上协调叫本地epoch。但是epoch数在系统限制下调节时不现实的,近似项有两个好处:使得训练较好的本地模型更新更接近原始全局模型,还能安全的联合所选的部分更新的设备模型。因此,FedProx对凸和非凸函数都能保持收敛。但是这些保障收敛的方法都不现实:他们使得带宽增加提高网络负担,将本地数据上传到服务器会有隐私问题。

3.4 隐私
机器学习中的隐私

差分隐私是最常见的,有很强的理论保证,一个数据的改变并不能导致输出分布的变化,所以很难看出某个样本是否在学习过程中被使用。样本级别的隐私保护可以在很多学习任务中完成,基于梯度的学习中,可以随机排列每次迭代的即时输出。
需要在模型准确率和差分隐私之间权衡的话,在结果增加噪声会减少准确率。
还有同态加密方法,但是只能局限于训练线性模型。当用户数据分布不同时,可以采用SFC或者SMC加密,即使SMC不能保证信息泄露,但是可以和其它像差分隐私结合来提高安全保证。对于大规模学习来说,它们会增加交互和计算开销。

隐私联邦学习

隐私可以分为两方面:全局隐私和局部隐私,全局隐私需要在模型更新时保证第三方或者中央服务器不能获取信息,局部隐私要保证更新对服务器来说是安全的。
联邦学习综述:挑战、方法和未来方向

四、未来方向

4.1 交互策略

即使one-shot和分治交互策略在传统数据中心设定中有发掘,但是这些方法没有考虑大型统计异质的网络。

4.2 减少通信

需要很好的衡量准确率和交互方法,最有效的方法是Pareto frontier的改进,准确率有所提高。

4.3 异步新模型

可以研究设备何时被唤醒,什么时候从中心节点获取新的任务和执行本地计算。

4.4 异质性诊断
  • 如何快速推断联邦网络中的异质水平?
  • 是否可以加强诊断确定系统相关异质的数量?
  • 是否能利用现有或新的异质性定义,在经验或者理论上设计具有改进收敛性的联邦优化方法?
4.5 粒度隐私约束

可能需要更细粒度的定义隐私,每个设备甚至设备的数据点都是不同的。开发一个解决混合隐私(设备级别和样本级别)的方法是今后一个研究方向。

4.6 超监督学习

也许在很多联邦网络中的数据都是没有标签或是弱标签的,非监督学习或者其它半监督学习也可能和尺度、异质性和隐私具有相同的挑战性。

4.7 产生式联合学习

实际环境中运行联合学习模型时还存在许多问题,如概念漂移(数据生成模型随时间变化)、日变化(设备一天或者一周不同时间出现不同行为)和冷启动问题(新设备进入网络)等。

4.8 基准

由于联邦学习是一个新兴领域,我们必须保证其以现实世界的环境、假设和数据作为基础,利用现有工具实现是很重要的。文章来源地址https://www.toymoban.com/news/detail-421747.html

到了这里,关于联邦学习综述:挑战、方法和未来方向的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能生成内容(AIGC):概念、发展历史及其机遇、挑战与未来方向

    作者:阿水AI 随着人工智能技术的飞速发展,人工智能生成内容(Artificial Intelligence Generated Content, AIGC)逐渐成为了一个备受关注的领域。那么,什么是AIGC?它的发展历史如何?它有哪些机遇和挑战?又有哪些未来方向呢?在本篇文章中,我们将一步一步的思考这个话题,以

    2024年02月08日
    浏览(35)
  • 人工智能前沿研究综述:对比学习、迁移学习、知识蒸馏的探索与未来展望

    导言         随着人工智能领域的不断发展,对比学习、迁移学习和知识蒸馏等研究方向成为热门话题。本文将全面探讨这些前沿研究的发展、面临的问题、解决过程,以及未来可能的研究趋势。 1. 对比学习的发展与挑战               1.1 发展历程         演

    2024年01月22日
    浏览(37)
  • FedAT:异步更新联邦学习方法

    文章链接:FedAT: A Communication-Efficient Federated Learning Method with Asynchronous Tiers under Non-IID Data 发表会议: SC’21 (International Conference for High Performance Computing, Networking, Storage, and Analysis) 高性能计算,体系结构领域顶级会议,CCF-A 联邦学习(Federated Learning, FL )涉及在大规模分布式设备上

    2024年02月06日
    浏览(31)
  • DQN,DDPG,PPO 等强化学习算法在人工智能中的未来发展方向:从大规模到小规模部署

    作者:禅与计算机程序设计艺术 随着近年来人工智能领域的蓬勃发展,强化学习(Reinforcement Learning, RL)被越来越多的人认可并应用于人工智能领域。如今,RL已经可以处理许多复杂的问题,如自动驾驶、机器人控制等。在过去的一段时间里,我一直想和各位分享一下RL在人工

    2024年02月09日
    浏览(33)
  • 深度学习模型压缩方法综述

    深度学习因其计算复杂度或参数冗余,在一些场景和设备上限制了相应的模型部署,需要借助 模型压缩 、系统优化加速等方法突破瓶颈,本文主要介绍模型压缩的各种方法,希望对大家有帮助。 我们知道,一定程度上, 网络越深,参数越多,模型也会越复杂,但其最终效果

    2024年02月10日
    浏览(27)
  • 医学图像融合的深度学习方法综述

    基于深度学习的图像融合方法是近年来计算机视觉领域的研究热点。 本文从五个方面对这些方法进行了综述: 首先,阐述了基于深度学习的图像融合方法的原理和优点; 其次,从端到端和非端到端两方面对图像融合方法进行了总结,根据深度学习在特征处理阶段的不同任务,

    2024年02月10日
    浏览(43)
  • 一篇综述洞悉医学大型语言模型的原理,应用和挑战

    在过去的一年中,随着 GPT-4、LLaMA、Mistral,PaLM 等先进技术的突飞猛进,大型语言模型(Large Language Models)已经引领全球人工智能进入了一个全新的基础模型时代,这一时代不仅开启了技术创新的新篇章,也彻底重塑了各行各业的运作模式。特别是在医疗领域,这些变革显得

    2024年01月18日
    浏览(40)
  • 【论文导读】- Federated Graph Neural Networks: Overview, Techniques and Challenges(联邦图神经网络:概述、技术和挑战)

    论文地址:https://arxiv.org/abs/2202.07256 With its powerful capability to deal with graph data widely found in practical applications, graph neural networks (GNNs) have received significant research attention. However, as societies become in-creasingly concerned with data privacy, GNNs face the need to adapt to this new normal. This has led to the rapi

    2023年04月16日
    浏览(35)
  • 对未来技术方向的思考

    目录 影响制造业发展的新技术——清华大学 雒建斌 讲座节选 值得关注的精准医疗五大核心技术——北京航空航天大学 王田苗 讲座节选 有望成为万亿市场的七个赛道——北京航空航天大学 王田苗 讲座节选 第四次工业革命正在到来,技术进步驱动全球发展——HW上研院 讲座

    2024年02月06日
    浏览(29)
  • 压缩感知的未来研究方向

    p2范数优化问题 压缩感知理论在图像压缩编码等方面也应该有很广泛的前景, 但由于信号的恢复方法是建立在12范数意义下, 数据之间还有很大的冗余性没有去除, 相比传统的小波变换编码, 压缩感知理论应用于图像压缩的效果还不理想. p2范数的优化是提高基于压缩感知理论的

    2024年02月08日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包