【多方安全计算】差分隐私(Differential Privacy)解读

这篇具有很好参考价值的文章主要介绍了【多方安全计算】差分隐私(Differential Privacy)解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【多方安全计算】差分隐私(Differential Privacy)解读

1. 介绍

差分隐私(Differential privacy)最早于2008年由Dwork 提出,通过严格的数学证明,使用随机应答(Randomized Response)方法确保数据集在输出信息时受单条记录的影响始终低于某个阈值,从而使第三方无法根据输出的变化判断单条记录的更改或增删,被认为是目前基于扰动的隐私保护方法中安全级别最高的方法。

  • 差分隐私保护的是数据源中一点微小的改动导致的隐私泄露问题。
  • 差分隐私,顾名思义就是用来防范攻击者利用差分技术来进行攻击的。一个简单的例子,
    • 假设现在有一个婚恋数据库,2个单身8个已婚,只能查有多少人单身。刚开始的时候查询发现,2个人单身;现在张三跑去登记了自己婚姻状况,再一查,发现3个人单身。
    • 所以攻击者获得了奇怪的知识:张三是单身。这里张三作为一个样本的出现。
  • 而差分隐私需要做到的就是使得攻击者的知识不会因为这些新样本的出现而发生变化。

2. 形式化

为了更形式化地描述差分隐私,我们需要先定义相邻数据集。现给定两个数据集 D 和 D’, 若它们有且仅有一条数据不一样,那我们就称此二者为相邻数据集。

  • 以上面数据集为例:假定有 n 个人,他们是否是单身狗,形成一个集合{a1, a2, a3…an} (其中 ai=0或1)。那么另一个集合当中只有一个人改变了单身状态,形成另一个集合{a’1, a‘2, a’3…a‘n} ,也就是只存在一个 i 使得 ai 不等于 a’i,那么这两个集合便是相邻集合。

那么对于一个随机化算法 A (所谓随机化算法,是指对于特定输入,该算法的输出不是固定值,而是服从某一分布),其分别作用于两个相邻数据集得到的两个输出分布难以区分。差分隐私形式化的定义为:
【多方安全计算】差分隐私(Differential Privacy)解读,多方计算安全,方法介绍,安全,算法

也就是说,如果该算法作用于任何相邻数据集,得到一个特定输出 O 的概率应该是差不多的,那么我们就说这个算法能达到差分隐私的效果。

  • 即,观察者通过观察输出结果很难察觉出数据集一点微小的变化,从而达到保护隐私的目的。

3. 差分隐私的方法

【多方安全计算】差分隐私(Differential Privacy)解读,多方计算安全,方法介绍,安全,算法

3.1 最简单的方法-加噪音

也就是在输入或输出上加入随机化的噪音,以期将真实数据掩盖掉。比较常用的是加拉普拉斯噪音。由于拉普拉斯分布的数学性质正好与差分隐私的定义相契合,因此很多研究和应用都采用了此种噪音。还是以前面那个数据集为例,假设我们想要知道到底有多少人是单身狗,我们只需要计算 ∑ a i \sum ai ai,那么为了掩盖具体数值,实际输出值应为: O = ∑ a i + r l a p O = \sum{ai + r_{lap}} O=ai+rlap;相应地,另一个数据集输出的是: O ′ = ∑ a ′ i + r l a p ′ O' = \sum{a'i + r'_{lap}} O=ai+rlap。这使得观察者分不清最终的输出是由哪个数据集产生的。

3.2 加高斯噪音(Gaussian noise)

其实前面描述的是差分隐私的严格定义。还有一种稍微放宽一点的定义为:
【多方安全计算】差分隐私(Differential Privacy)解读,多方计算安全,方法介绍,安全,算法
其中 δ 是一个比较小的常数。要获取这种差分隐私,我们可以使用高斯噪音(Gaussian noise)。

当然,对输入或输出加噪音会使得最终的输出结果不准确。而且由于噪音是为了掩盖一条数据,所以很多情况下数据的多少并不影响加的噪音的量。

  • 那么在数据量很大的情况下,噪音的影响很小,这时候就可以放心大胆地加噪音了,
  • 但数据量很小的情况下,噪音的影响就显得比较大,会使得最终结果偏离准确值较远而变得不可用。

也有些算法不需要加噪音就能达到差分隐私的效果,听起来很美好,但这种算法通常要求数据满足一定的分布,这一点在现实中通常很难满足。

由于 传统的完全 差分隐私(Pure Differential Privacy)基于最严格的假设:最大背景攻击,即假设攻击者拥有除了某一条记录以外的所有背景信息,而这在实际情况中是十分罕见的。因此完全差分隐私对于隐私性的保护过于严苛,极大影响了数据的可用性,目前实际场景中主要采用的是 带有松弛机制 的近似差分隐私( Approximate Differential Privacy)。

4. 差分隐私的分类

  • 客户端侧采用的差分隐私机制一般被称为本地化(Local)差分隐私
  • 通过可信中间节点进行扰动可以被称为分布式( Distributed)差分隐私
  • 由服务器完成的扰动被称为中心化(Centralized)差分隐私
  • 而融合了上述两种或以上的差分隐私方法则被称为混合( Hybrid )差分隐私

4.1 本地化差分隐私

本地化差分隐私意味着对数据的训练以及对隐私的保护过程全部在客户端就可以实现。直觉来看,这种差分隐私机制显然优于其他方案,因为用户可以全权掌握数据的使用与发布,也无需借助中心服务器,最有潜力实现完全意义上的去中心化联邦学习。

谷歌公司的Abadi等于2016年在传统机器学习中实现了差分隐私,并在当时就提出了在手机、平板电脑等小型设备上训练模型的设想,认为该差分隐私机制凭借轻量化的特点,更加适用于本地化、边缘化场景。

但是,本地化差分隐私本身及其在联邦学习的应用中仍然存在着不少问题。

  • 首先是它所需求的样本量极其庞大,例如前文所述的Snap公司将本地化差分隐私应用到垃圾邮件分类器的训练中,最终收集了用户数亿份样本才达到较高的准确度。谷歌、苹果、微软公司在用户设备上大量部署了本地化差分隐私,用来收集数据并进行模型训练,相较无噪模型的训练需要更多的数据量,往往多达2个数量级。
  • 其次,在高维数据下,本地化差分隐私要取得可用性、隐私性的平衡将会更加困难。
  • 另外,在去中心化的联邦学习场景中,由于没有中心服务器的协调,参与者无法得知来自其他参与者的样本信息,因此很难决定自己所添加随机噪声的大小,噪声的分布不均将会严重降低模型性能。

4.2 中心化差分隐私

差分隐私方法最初被提出时大多采用中心化的形式,通过-一个可信的第三方数据收集者汇总数据,并对数据集进行扰动从而实现差分隐私。B2C架构下的联邦学习同样可以在中心服务器上实现这种扰动。在服务器端收集用户更新后的梯度,通过逐个加噪的方式来隐藏各个节点的贡献;并证明了中心化加噪方案可以实现用户级别的差分隐私而不仅仅是本地化方案的数据点级别,这意味着它不会暴露出任何一个曾参与过训练的用户;最后通过实验证实了这种方法的模型训练效果要优于本地化差分隐私。

中心化差分隐私在实际应用中同样存在缺陷,因为它受限于一个可信的中心化服务器,但是很多场景下服务器并不可信。因此,可以采用分布式差分隐私来作为本地化与中心化的折中,或采用混合差分隐私回避这两者的部分缺陷。

4.3 分布式差分隐私

分布式差分隐私指的是在若干个可信中间节点上先对部分用户发送的数据进行聚合并实施隐私保护,然后传输加密或扰动后的数据到服务器端,确保服务器端只能得到聚合结果而无法得到数据。该方案需要

  • 客户端首先完成计算并进行简单的扰动(例如较高隐私预算的本地化差分隐私)或加密,将结果发送至一个可信任的中间节点,
  • 然后借助可信执行环境(TEE)、安全多方计算、安全聚合(Secure Aggregation)或安全混洗(Secure Shuffling)等方法,在中间节点实现进一步的隐私保护,最终将结果发送至服务器端。

Bittau等于2017年提出了一种安全混洗框架Encode- Shuffle-Analyze(ESA),通过在客户端与服务器端额外增加一次匿名化混洗的步骤,允许用户在本地只添加少量噪声就实现较高级别的隐私保护。此后,Erlingsson等、Cheu等均对此框架进行了改进,并考虑了与联邦学习的结合。类似的分布式差分隐私解决方案同样都兼具了本地化与中心化差分隐私的优势,既不需要信任等级极高的服务器,也不需要在本地添加过多噪声。但相对的,分布式差分隐私普遍需要极高的通信成本。

4.x 本地化、中心化与分布式的区别与联系

【多方安全计算】差分隐私(Differential Privacy)解读,多方计算安全,方法介绍,安全,算法

4.4 混合差分隐私

混合差分隐私方案由Avent等提出,它通过用户对服务器信任关系的不同对用户进行分类。举例而言,最不信任服务器的用户可以使用最低隐私预算的本地化差分隐私,而最信任服务器的用户甚至可以直接发送原始参数;服务器也将根据用户的信任关系对数据进行不同程度的处理。该方案的问题是同样需要一定的通信成本,并且还需要付出额外的预处理成本以划分信任关系。

5. 参考

【1】https://blog.csdn.net/watson2017/article/details/121653356文章来源地址https://www.toymoban.com/news/detail-735568.html

到了这里,关于【多方安全计算】差分隐私(Differential Privacy)解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 密码算法(SM1、SM2、SM3、SM4、同态加密、密态计算、隐私计算和安全多方计算)

    SM1、SM2、SM3和SM4 为了保障商用密码的安全性,国家密码局制定了一系列密码标准,包括:SM1(SCB2)、SM2、SM3、SM4、SM7、SM9、祖冲之密码算法(ZUC) 等。 SM1、SM4、SM7、祖冲之密码(ZUC)是对称算法。 SM2、SM9是非对称算法。 SM3是哈希算法。 SM1、SM7算法不公开,调用该算法时,

    2024年02月03日
    浏览(28)
  • 探索密码学的未来:SM1、SM2、SM3、SM4、同态加密、密态计算、隐私计算和安全多方计算

    密码算法在现代通信与信息安全中发挥着至关重要的作用,SM1、SM2、SM3、SM4、同态加密、密态计算、隐私计算和安全多方计算等密码算法被广泛应用于各种信息安全领域。本篇博客将会为大家介绍这些密码算法,以及它们在信息安全中的作用和应用。 SM1、SM2、SM3、SM4是中国国

    2024年02月08日
    浏览(32)
  • 【论文阅读笔记】Local and Central Differential Privacy for Robustness and Privacy in Federated Learning

    个人阅读笔记,如有错误欢迎指出! 会议:NDSS 2022        [2009.03561] Local and Central Differential Privacy for Robustness and Privacy in Federated Learning (arxiv.org) 问题:         尽管联邦学习能在一定程度上保护数据隐私,但也存在隐私和鲁棒性漏洞 主要贡献:         首次发现

    2024年02月01日
    浏览(33)
  • [paper reading] Federated Learning With Differential Privacy:Algorithms and Performance Analysis

    1.整篇论文的总结: (1)提出了一种基于差分隐私的联邦学习框架:NbAFL(noising before model aggregation FL),在局部模型聚合成全局模型之前加入噪声(客户端和服务器端都会加噪声)。 (2)对训练的FL模型的损失函数规定了一个 理论上的收敛界限 (就是要求损失函数低于某

    2024年02月11日
    浏览(26)
  • DPA——差分能量分析(Differential Power Analysis)

    密码设备在进行加解密运算时,其内部结点 电平高低变换 完成运算,电平变换过程中电容不断地充放电进而从电源源源不断的获取 电流 。由于内部电阻的存在,此时设备不断地产生 能量 ,并散发出去。同时,由于执行操作及被操作数的不同,电路从电源获取的电流是动态

    2024年02月01日
    浏览(27)
  • 安全多方计算之一:什么是安全多方计算

    安全多方计算问题(SMC,Secure Multi-party Computation)由由中国计算机科学家、2000年图灵奖获得者姚启智教授于1982年在论文《Protocols for secure computations》中以百万富翁问题(两个百万富翁Alice和Bob想知道他们两个谁更富有,但他们都不想让对方及其他第三方知道自己财富的任何信

    2024年02月09日
    浏览(32)
  • 【人工智能】Responsible AI 负责任的人工智能:人工智能安全和隐私的未来 The Future of AI Security and Privacy

      While AI development was mostly in the realm of research, practices such as sharing open datasets, publishing models publicly, and using any compute resources available all helped drive forward the state of the art. AI is now increasingly deployed in production environments in the commercial, healthcare, government, and defense sectors and Intel provides

    2023年04月09日
    浏览(36)
  • 联邦学习与安全多方计算

    联邦学习(FL,Federated Learning)是谷歌于2016年提出的一种分布式机器学习框架,可以 在保护个人数据隐私的前提下,联合多方用户的数据实现模型训练 。 联邦学习用于解决“数据孤岛”问题,核心思想是“ 数据不动模型动,数据可用不可见 ”。 传统机器学习中,数据需集

    2023年04月15日
    浏览(24)
  • 安全多方计算简介

    安全多方计算(Secure Multi-Party Computation,SMPC)用于解决一组互不信任的参与方各自持有秘密数据,协同计算一个既定函数的问题。安全多方计算在保证参与方获得正确计算结果的同时,无法获得计算结果之外的任何信息。在整个计算过程中,参与方对其所拥有的数据始终拥有绝

    2024年02月07日
    浏览(25)
  • 第162篇 笔记-安全多方计算

    一、主要概念 安全多方计算 (Secure Multi-Party Computation):指多个参与者在不泄露各自隐私数据情况下,利用隐私数据参与保密计算,共同完成某项计算任务。 该技术能够满足人们利用隐私数据进行保密计算的需求,有效解决数据的“保密性”和“共享性”之间的矛盾。多方

    2024年02月03日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包