分类目录:《深入理解联邦学习》总目录
在实际中,孤岛数据具有不同分布特点,根据这些特点,我们可以提出相对应的联邦学习方案。下面,我们将以孤岛数据的分布特点为依据对联邦学习进行分类。
考虑有多个数据拥有方,每个数据拥有方各自所持有的数据集 D i D_i Di可以用一个矩阵来表示。矩阵的每一行代表一个用户,每一列代表一种用户特征。同时,某些数据集可能还包含标签数据。如果要对用户行为建立预测模型,就必须要有标签数据。我们可以把用户特征叫做 X X X,把标签特征叫做 Y Y Y。比如,在金融领域,用户的信用是需要被预测的标签 Y Y Y;在营销领域,标签是用户的购买愿望 Y Y Y;在教育领域,则是学生掌握知识的程度等。用户特征 X X X加标签 Y Y Y构成了完整的训练数据 ( X , Y ) (X, Y) (X,Y)。但是,在现实中,往往会遇到这样的情况:各个数据集的用户不完全相同,或用户特征不完全相同。具体而言,以包含两个数据拥有方的联邦学习为例,数据分布可以分为以下三种情况:
- 两个数据集的用户特征 ( X 1 , X 2 , ⋯ ) (X_1, X_2, \cdots) (X1,X2,⋯)重叠部分较大,而用户 ( U 1 , U 2 , ⋯ ) (U_1, U_2, \cdots) (U1,U2,⋯)重叠部分较小
- 两个数据集的用户 ( U 1 , U 2 , ⋯ ) (U_1, U_2, \cdots) (U1,U2,⋯)重叠部分较大,而用户特征 ( X 1 , X 2 , ⋯ ) (X_1, X_2, \cdots) (X1,X2,⋯)重叠部分较小
- 两个数据集的用户 ( U 1 , U 2 , ⋯ ) (U_1, U_2, \cdots) (U1,U2,⋯)与用户特征重叠 ( X 1 , X 2 , ⋯ ) (X_1, X_2, \cdots) (X1,X2,⋯)部分都比较小。
为了应对以上三种数据分布情况,我们把联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习,如下图所示:
横向联邦学习
在两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练,这种方法叫做横向联邦学习。比如有两家不同地区银行,它们的用户群体分别来自各自所在的地区,相互的交集很小。但是,它们的业务很相似,因此,记录的用户特征是相同的。此时,就可以使用横向联邦学习来构建联合模型。GoogIe在2017年提出了一个针对安卓手机模型更新的数据联合建模方案:在单个用户使用安卓手机时,不断在本地更新模型参数并将参数上传到安卓云上,从而使特征维度相同的各数据拥有方建立联合模型的一种联邦学习方案。
横向联邦学习步骤如下:
- 参与方各自从服务器下载最新模型
- 每个参与方利用本地数据训练模型,加密梯度上传给服务器,服务器聚合各参与方的梯度更新模型参数
- 服务器返回更新后的模型给各参与方
- 各参与方更新各自模型
- 重复步骤1~4至模型收敛或达到预期
在传统的机器学习建模中,通常是把模型训练需要的数据集合到一个数据中心然后训练模型再进行预测。在横向联邦学习中,可以看作是基于样本的分布式模型训练,分发全部数据到不同的机器,每台机器从服务器下载模型,然后利用本地数据训练模型,之后返回给服务器需要更新的参数。服务器聚合各机器上的返回的参数,更新模型,再把最新的模型反馈到每台机器。在这个过程中,每台机器下都是相同且完整的模型,且机器之间不交流不依赖,在预测时每台机器也可以独立预测,可以把这个过程看作成基于样本的分布式模型训练。谷歌最初就是采用横向联邦的方式解决安卓手机终端用户在本地更新模型的问题的。
纵向联邦学习
在两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练,这种方法叫做纵向联邦学习。比如有两个不同机构,一家是某地的银行,另一家是同一个地方的电商。它们的用户群体很有可能包含该地的大部分居民,因此用户的交集较大。但是,由于银行记录的都是用户的收支行为与信用评级,而电商则保有用户的浏览与购买历史,因此它们的用户特征交集较小。纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。目前,逻辑回归模型,树型结构模型和神经网络模型等众多机器学习模型已经逐渐被证实能够建立在这个联邦体系上。
联邦迁移学习
在两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况,这种方法叫作联邦迁移学习。比如有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商。由于受到地域限制,这两家机构的用户群体交集很小。同时,由于枳构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。文章来源:https://www.toymoban.com/news/detail-704284.html
参考文献:
[1] 杨强, 刘洋, 程勇, 康焱, 陈天健, 于涵. 联邦学习[M]. 电子工业出版社, 2020
[2] 微众银行, FedAI. 联邦学习白皮书V2.0. 腾讯研究院等, 2021文章来源地址https://www.toymoban.com/news/detail-704284.html
到了这里,关于深入理解联邦学习——联邦学习的分类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!