隐私保护联邦学习之差分隐私原理

这篇具有很好参考价值的文章主要介绍了隐私保护联邦学习之差分隐私原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

什么是隐私

讲差分隐私前,说一下什么是隐私

其实隐私这个定义,各家有各家的说法,而且各人有各人不同的考量。目前普遍比较接受的是:“单个用户的某一些属性” 可以被看做是隐私。这个说法里所强调的是:单个用户。也就是说,如果是一群用户的某一些属性,那么可以不看做隐私。

举个例子:医院说,抽烟的人有更高的几率会得肺癌。这个不泄露任何隐私。但是如果医院说,张三因为抽烟,所以有了肺癌。那么这个就是隐私泄露了。好,那么进一步,虽然医院发布的是趋势,说抽烟的人更高几率得肺癌。然后大家都知道张三抽烟,那么是不是张三就会有肺癌呢?那么这算不算隐私泄露呢?结论是不算,因为张三不一定有肺癌,大家只是通过一个趋势猜测的。

所以,从隐私保护的角度来说,隐私的主体是单个用户,只有牵涉到某个特定用户的才叫隐私泄露,那么我们是不是可以任意发布聚集信息呢?倒是未必。我们设想这样一种情况:医院发布了一系列信息,说我们医院这个月有100个病人,其中有10个感染HIV。假如攻击者知道另外99个人是否有HIV的信息,那么他只需要把他知道的99个人的信息和医院发布的信息比对,就可以知道第100个人是否感染HIV。这种对隐私的攻击行为就是差分攻击。

差分隐私

差分隐私顾名思义就是用来防范差分攻击的。举个简单的例子,假设现在有一个婚恋数据库,2个单身8个已婚,只能查有多少人单身。刚开始的时候查询发现,2个人单身;现在张三跑去登记了自己婚姻状况,再一查,发现3个人单身,所以张三单身。

从群里数据通过差分攻击(查询的方式)推测个体隐私。

差分隐私(Differential Privacy)是Dwork 在2006年针对数据库的隐私泄露问题提出的一种新的隐私定义。主要是通过使用随机噪声来确保,查询请求公开可见信息的结果,并不会泄露个体的隐私信息,即提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会,简单来说,就是保留统计学特征的前提下去除个体特征以保护用户隐私。

怎么实现差分隐私呢,简单的说就是向数据中加入噪声。但差分隐私的优势就在于这个噪声并不是随便加的,而是通过数学方法得到一个平衡,通过对差分隐私参数的调节,可以让用户在隐私保护强度和数据可用性之间寻求一个合适的平衡点。

为了更好的理解差分隐私的定义,这里先介绍一些关于信息量和熵的知识。

KL散度

KL散度(Kullback Leible-Divergence)概念来源于概率论与信息论,又被称作相对熵、互熵。从统计学意义上来说,KL散度可以用来衡量两个分布之间的差异程度,差异越小,KL散度越小。

信息量

任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。如昨天下雨这个已知事件,因为已经发生,既定事实,那么它的信息量就为0。如明天会下雨这个事件,因为未有发生,那么这个事件的信息量就大。

从上面例子可以看出信息量是一个与事件发生概率相关的概念,而且可以得出,事件发生的概率越小,其信息量越大。这也很好理解,狗咬人不算信息,人咬狗才叫信息嘛。

我们已知某个事件的信息量是与它发生的概率有关,那我们可以通过如下公式计算信息量:

高斯噪声的kl散度,深度学习,可信计算技术,概率论

高斯噪声的kl散度,深度学习,可信计算技术,概率论

信息论中熵定义首次被香农提出:无损编码事件信息的最小平均编码长度。通俗理解,如果熵比较大,即对该信息进行编码的最小平均编码长度较长,意味着该信息具有较多可能的状态,即有着较大的信息量/混乱程度/不确定性。从某种角度上看,熵描述了一个概率分布的不确定性。总之,熵就是信息量的期望。

高斯噪声的kl散度,深度学习,可信计算技术,概率论

 

KL散度

用来衡量也是两个随机分布之间距离的度量

高斯噪声的kl散度,深度学习,可信计算技术,概率论

另外需要注意的是

高斯噪声的kl散度,深度学习,可信计算技术,概率论

最大散度 

KL散度是从整体上衡量两个分布的距离,最大散度是两个分布比值的最大值,从两个分布比值的最大值角度衡量了两个分布的差异

高斯噪声的kl散度,深度学习,可信计算技术,概率论

差分隐私

定义

对于任意两个相邻数据集D,D',如果有一个随机化算法M 满足以下条件,则可以认为该算法满足差分隐私。

高斯噪声的kl散度,深度学习,可信计算技术,概率论

其中,默认

高斯噪声的kl散度,深度学习,可信计算技术,概率论

可以简单理解上述定义:在两个相邻数据集上,算法获得同一个集合中输出结果的概率相差不大。其中相差不大的定义则通过隐私预算参数调节,隐私预算越小,对两个数据集输出结果的限制就越小,保护隐私的程度就越强。

差分隐私的公式可以转化为

高斯噪声的kl散度,深度学习,可信计算技术,概率论

上面描述的是严格的差分隐私的定义,为了算法的实用性,Dwork后面引入了松弛的差分隐私,加入一个小常数(称作失败概率)。允许普通的 ϵ -DP 以概率 δ (最好小于 1/|d| )被打破的可能性。

高斯噪声的kl散度,深度学习,可信计算技术,概率论

定义的由来

差分隐私的目的是使经差分隐私算法处理过后的两个相邻数据集的分布尽可能接近,我们可以用最大散度衡量两个分布的差异。

高斯噪声的kl散度,深度学习,可信计算技术,概率论

常用的随机化机制有:

  • 拉普拉斯机制(Laplace mechanism)

  • 指数机制(Exponential mechanism)

  • 高斯机制(Gaussian mechanism)

敏感度

对于相邻数据集D,D′,对于一个随机化函数M:M的敏感度为接收所有可能的输入后,得到输出的最大变化值:

高斯噪声的kl散度,深度学习,可信计算技术,概率论

其中,‖⋅‖表示向量的范数。L1敏感度和L2敏感度分别适用于L1范数和L2范数。

上述的是局部敏感度,全局敏感度就是最大的局部敏感度。

联邦学习与差分隐私

高斯噪声机制

逼近确定性实值函数的一种常见范例:f:dR 的一个常见范例是通过加性噪声对函数 f 的灵敏度进行校准达到 sensitivity Sf ,其灵敏度定义为 dd′ 为相邻输入的绝对距离 |f(d)−f(d′)| 的最大值。例如,高斯噪声机制就是向数据中加入满足均值为0,标准差为σ的高斯噪声。其中σ的选择是比较关键的,通常:

高斯噪声的kl散度,深度学习,可信计算技术,概率论

与此同时要求

高斯噪声的kl散度,深度学习,可信计算技术,概率论

敏感度为:

高斯噪声的kl散度,深度学习,可信计算技术,概率论

基于差分隐私的联邦学习隐私保护方法

目的

高斯噪声的kl散度,深度学习,可信计算技术,概率论

有研究表明,联邦学习中恶意参与方或服务器可以通过客户端本地模型更新中推测出客户端本地数据的属性以及时候存在某条数据等隐私信息(属性推理攻击,成员推理攻击,模型反演攻击等等)。为了保护客户端数据的隐私,可以通过差分隐私方法对本地模型参数进行模糊化处理,使恶意参与方或者中心服务器无法推理出用户的隐私且能完成模型训练的功能。

算法

高斯噪声的kl散度,深度学习,可信计算技术,概率论

为什么裁剪

敏感度是差分隐私算法非常重要的参数,而且通过上面对高斯机制的讲解,我们也发现敏感度是生成对应噪声的重要参数。为了确定全局敏感度,我们必须对模型参数进行裁剪,推导过程如下:

高斯噪声的kl散度,深度学习,可信计算技术,概率论

σ计算

如果对于σ的计算完全按照上述高斯噪声机制的计算法方法,则对于深度学习来说,相当于每个batch满足

高斯噪声的kl散度,深度学习,可信计算技术,概率论

级别的差分隐私,而对于整个数据集来说将满足

高斯噪声的kl散度,深度学习,可信计算技术,概率论

也就是更严格的差分隐私条件,显然这是不合理的。论文《Deep Learning with Differential Privacy》的解决方案是将σ写成如下形式

高斯噪声的kl散度,深度学习,可信计算技术,概率论

联邦学习方法对其进行简单的改动即可

高斯噪声的kl散度,深度学习,可信计算技术,概率论

参考文献

差分隐私(Differential Privacy)定义及其理解 - MaplesWCT - 博客园

交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离) - 知乎

Abadi M, Chu A, Goodfellow I, et al. Deep learning with differential privacy[C]//Proceedings of the 2016 ACM SIGSAC conference on computer and communications security. 2016: 308-318.

Wei K, Li J, Ding M, et al. Federated learning with differential privacy: Algorithms and performance analysis[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 3454-3469.文章来源地址https://www.toymoban.com/news/detail-797695.html

到了这里,关于隐私保护联邦学习之差分隐私原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能隐私保护中的跨隐私数据保护与跨隐私数据治理策略

    作者:禅与计算机程序设计艺术 引言 1.1. 背景介绍 随着人工智能技术的快速发展,各种应用场景及业务需求不断涌现,个人隐私保护问题日益凸显。在众多隐私保护技术中,跨隐私数据保护与跨隐私数据治理策略技术受到越来越多的关注。 1.2. 文章目的 本文旨在阐述跨隐私

    2024年02月09日
    浏览(50)
  • 小程序添加隐私保护指引弹框(包含配置隐私保护指引方法)

    实现效果: 从 2023 年 9 月 15 日起必须用户点击同意隐私保护政策并同步给微信之后,开发者才可以调用微信提供的隐私接口。 9 月 15 号之后涉及隐私的接口将无法使用,严重影响业务逻辑。开发者要做的就是做一个弹窗提示用户阅读隐私保护指引,在用户点击“同意”按钮之

    2024年02月08日
    浏览(51)
  • #互联网生活中的隐私保护:用隐私换便利还是花钱护隐私?# 隐私保护与个人信息安全:在便利与隐私之间的取舍

    近日,一起高校毕业生窃取学校内网数据、收集全校学生个人隐私信息的事件引发了公众对个人信息安全问题的再度关注。这起事件再次提醒我们,在大数据时代,随着算法分发的普及,我们享受便捷权利的同时,个人信息泄露的风险也在不断增加。在面临隐私与便利之间的

    2024年02月13日
    浏览(43)
  • 人工智能隐私保护中的人工智能安全与隐私保护标准

    作者:禅与计算机程序设计艺术 在传统信息安全的基础上,近年来人工智能领域也越来越重视隐私保护。但是由于当前人工智能模型普遍存在缺陷,在实际应用中也会产生隐私泄露等严重问题。所以,对于人工智能系统、服务的安全性和隐私保护要求更高。 随着人工智能技

    2024年02月14日
    浏览(46)
  • 隐私计算:保护数据隐私的利器

    PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。 随着信息时代的发展,个人数据的收集和处理已经成为了许多行业和领域的核心活动之一。然而,随之而来的数据隐私和安全问题也日

    2024年04月08日
    浏览(43)
  • AIGC的隐私安全问题及隐私保护技术

    作者:京东科技 杨博 ChatGPT 才出现两个月,就已经引起了学术界的关注。微软成为ChatGPT母公司OpenAI的合作伙伴,并确认投资百亿美元。同时,微软正计划将 OpenAI 的技术整合到其产品中,包括Bing搜索引擎和其他软件,以增强它们的能力。然而,据Insider报道,微软却警告其员工

    2023年04月24日
    浏览(96)
  • 联邦学习中的差分隐私与同态加密

    PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。 随着数据的爆炸式增长和对个人隐私保护意识的提高,隐私保护在机器学习领域中变得愈发重要。联邦学习作为一种分散式机器学习框

    2024年04月11日
    浏览(32)
  • 机器学习-隐私保护总览

    这段时间有项目在进行,所以对斯坦福Dan Boneh密码学的阅读进度有所放缓,之后会继续更新,这段时间对当前机器学习领域隐私保护的方向做了一点小总结。 近年来,隐私保护机器学习的研究方向大致可以分为三类 : 一是以k -匿名 为代表的基于等价类的方法 。 二是以差分

    2023年04月15日
    浏览(45)
  • 网络安全与隐私保护

            如今,随着科技的不断进步,人类的生活也在不断地改变和进步。从农耕时代到工业时代,再到信息时代,我们的生活方式已经发生了巨大的变化。在信息时代,互联网成为了我们生活中必不可少的一部分。它不仅给我们带来了便利,也给我们带来了威胁。因此,

    2024年02月04日
    浏览(48)
  • 【小程序】隐私保护指引设置

    小程序官方公告:关于小程序隐私保护指引设置的公告 app隐私协议刚处理完,小程序重拳已出击。撸起袖子干吧。 首先看下小程序用户隐私保护指引内容介绍,里面涉及到的,都需要配置用户隐私授权弹窗。包括且不限于摄像头、上传文件、手机号等功能,在此不一一赘述

    2024年02月09日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包