联邦学习:密码学 + 机器学习 + 分布式 实现隐私计算,破解医学界数据孤岛的长期难题

这篇具有很好参考价值的文章主要介绍了联邦学习:密码学 + 机器学习 + 分布式 实现隐私计算,破解医学界数据孤岛的长期难题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 文章来源地址https://www.toymoban.com/news/detail-817186.html


提出背景:数据不出本地,又能合力干大事

这联邦学习呢,就是让不同的地方一起弄一个学习的模型,但重要的是,大家的数据都是自己家的,不用给别人。

这样一来,人家的秘密就不会到处乱跑(数据不出本地),又能合力干大事。

 
<没有联邦学习的情况>

在没有联邦学习的情况下,医院面临的一个主要问题是数据隔离。

每个医院只能依赖自己收集的数据来训练疾病诊断(如糖尿病)模型。

这意味着模型的有效性和准确性受限于各自医院的数据量和多样性。

对于罕见病例或特殊种群,数据量可能不足以准确训练模型。

此外,由于患者隐私和数据保护的关切,医院之间共享详细的患者数据存在法律和道德障碍。

 

联邦学习:密码学 + 机器学习 + 分布式 实现隐私计算,破解医学界数据孤岛的长期难题,医学视觉,# AI 安全,# 机器学习,深度学习

<引入联邦学习后的情况>

在这种模式下,不同医院可以合作训练一个共享的疾病诊断(如糖尿病)模型。

每个医院使用自己的患者数据本地训练模型,然后将模型的更新(而不是敏感的患者数据)分享给其他医院。

  1. 初始模型共享:首先,所有参与的医院都从一个初始模型开始。这个初始模型可以是一个基础的、未经过大量训练的模型。

  2. 本地训练:然后,每个医院使用自己的患者数据在本地独立训练这个模型。由于每个医院的患者构成可能不同,这意味着每个医院训练出的模型会稍有不同,反映了它们各自独特的患者数据特征。

  3. 模型更新共享:训练完成后,每个医院不是共享其患者数据,而是只共享其模型训练的更新。这些更新可以是模型权重的调整或其他形式的技术细节。

  4. 集成学习:最后,这些来自不同医院的模型更新被集成到初始模型中。这样,模型就能从每个医院的数据中学习,而不需要直接访问这些数据。

通过这种方式,联邦学习允许每个医院贡献它们的专业知识和数据见解,同时保护患者数据的隐私。

 
优势在于:

  1. 增强模型的准确性和泛化能力:由于模型是基于更广泛和多样化的数据集训练的,因此联邦学习模型性能比只使用本地数据训练的好,性能趋近于(低于)使用全部数据训练的模型
  2. 保护患者隐私:患者数据不离开原医院,降低了隐私泄露的风险。而且模型参数是加密的,无法反推其他参与方的原始数据
  3. 跨医院合作:即使面临法律和伦理限制,医院仍能通过共享模型更新而非数据本身来实现合作。

因此,联邦学习解决了数据孤岛问题,提高了诊断模型的准确性和可靠性,同时保障了患者数据的隐私安全。

当需要多个参与方共同完成一件事,每个参与方都有其他方不具备的数据,同时也不能共享,就能使用联邦学习。

 


联邦学习的问题

联邦学习的问题,源于数据的特性和分布。

一、非独立同分布(Non-IID)的数据

不同的机构或个人,持有的数据往往在统计特性上有所不同。

这意味着数据可能不是独立的(一个病人得了糖尿病,还有高血压)或者具有不同的分布(山区的医院多心脏病,而海边的医院多糖尿病)。

这种差异可能导致模型在某些数据属主上表现良好,而在其他数据属主上表现不佳。

例子

  • 假设一个联邦学习系统用于不同地区医院的病例数据分析。
  • 每个医院的病例分布可能因地理位置、患者人群和医院专长等因素而有所不同。
  • 某个地区可能有更高的糖尿病发病率,而另一个地区可能有更多心脏疾病案例。
  • 这些差异会影响学习模型的整体性能。

 
二、数据不平衡

一些机构可能拥有大量的数据,而其他机构只有少量数据。

在聚合模型参数时,数据量较大的属主可能对模型的训练结果有更大的影响,这可能会导致模型偏向于这些数据多机构的特点,忽视其他数据少机构。

 
三、通信、计算的效率

同态加密会导致高的计算量。

混淆电路会导致高的通信量。

 
四、信任问题

  1. 信任问题

    • 在联邦学习中,不同的数据属主(例如医院)和集中式服务器之间存在信任问题。因为参与者或服务器中的任何一方都有可能不完全可靠,甚至可能有攻击者。
  2. 潜在的攻击者

    • 参与者或服务器中的某些人可能是恶意攻击者,他们可能试图窃取私人信息或干扰训练算法。
  3. 交换模型参数而非原始数据

    • 联邦学习通过交换模型参数(如局部梯度),而不是原始数据,来保护每个数据属主的隐私。这意味着参与者不会共享他们的原始数据,只分享用于模型训练的信息(如权重更新、梯度等)。
  4. 梯度泄露风险

    • 即使是这些模型参数,如果被恶意分析,也可能泄露原始数据的敏感信息。例如,通过对交换的梯度进行分析,攻击者可能推断出一些原始数据特征。

假设有一个联邦学习项目涉及多家医院,旨在通过共享学习提高疾病诊断的准确性。

每家医院都有自己的患者数据,但由于隐私问题,这些数据不能直接共享。因此,医院们只分享用于模型训练的梯度信息。

现在,假设其中一个医院或服务器被一个攻击者控制了。

这个攻击者可能通过分析从其他医院来的梯度信息,推断出某些患者的敏感信息,比如他们可能患有某种特定的疾病。

即使梯度本身不包含直接的患者数据,但通过复杂的分析方法,攻击者仍然可能获得关于原始数据的有价值信息。

为了防止这种隐私泄露,可以采取一些措施:

  1. 差分隐私:通过在数据或梯度中添加随机噪声,使得从共享的梯度中推断出任何个人数据变得非常困难。

  2. 安全多方计算(SMC):这是一种加密技术,允许多个方协作计算一个函数,而无需暴露各自的输入数据。

  3. 鲁棒的聚合机制:设计鲁棒的聚合算法,可以减少恶意参与者对模型的影响。

这些方法可以提高联邦学习系统在医学等敏感领域的安全性和隐私保护。

 


分布式机器学习:解决大数据量处理的问题

 


横向联邦学习:解决跨多个数据源学习的问题

横向联邦学习同领域,不同数据。

比如有三家医院:每家医院都有大量糖尿病视网膜病变的数据,但由于隐私法规,他们无法共享这些数据。

阳光医院的数据科学家提出使用横向联邦学习。

在这个模式下,每个医院在本地训练模型,然后只共享模型的更新,而不是患者的实际数据。

这样,三家医院共同建立了一个强大的DR预测模型,而不违反隐私法规。

通过这种合作,医院间的模型学习到了不同患者群体的特点,大大提高了诊断的准确性。
 


纵向联邦学习:解决数据分散在多个参与者但部分特征重叠的问题

相关,但不同的领域(跨领域关联)。

药物公司“生命源泉”持有大量关于糖尿病药物的效果数据,而保险公司“安全盾”拥有糖尿病患者的医疗历史数据。

为了更全面地研究DR,医院与这两家公司展开合作,

采用纵向联邦学习。不同于横向联邦学习,纵向联邦学习允许不同领域的机构在保持数据私有性的同时,共同改进模型。

通过这种方式,研究者能够结合药物效果和病历数据,对糖尿病视网膜病变的发展和治疗效果进行更深入的分析。
 


联邦 + 迁移学习:不同任务间共享知识,让模型适应新环境

这个城市的模型尝试在相邻城市应用时,研究人员发现效果并不理想。

为了解决这个问题,他们采用了联邦迁移学习。通过这种方法,他们能够调整已有模型,使其更适应新的环境和患者特征,而无需从头开始收集和训练数据。

通过联邦迁移学习,模型迅速适应了新环境。

 


医疗 + 联邦学习:跨多个医疗机构共享模型学习,同时保护患者隐私

 


大模型 + 联邦学习

到了这里,关于联邦学习:密码学 + 机器学习 + 分布式 实现隐私计算,破解医学界数据孤岛的长期难题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【密码学基础】半/全同态加密算法基础学习笔记

    定义:只支持乘法或加法中的一种的同态加密。同态加密指的是允许直接对密文进行计算,密文计算结果解密后与明文直接计算结果相同。 Paillier加解密过程 Paillier的同态性 明文加法 = 密文乘法 明文乘法 = 密文指数幂 Paillier的安全性 基于大整数分解困难问题 相比Paillier,

    2024年02月13日
    浏览(34)
  • 区块链技术与应用 - 学习笔记2【密码学基础】

    大家好,我是比特桃。 本系列笔记只专注于探讨研究区块链技术原理,不做其他违反相关规定的讨论。 区块链技术已被纳入国家十四五规划,在“加快数字发展 建设数字中国”篇章中,区块链被列为“十四五”七大数字经济重点产业之一,迎来创新发展新机遇。 经科技部批

    2024年02月10日
    浏览(31)
  • 【区块链学习笔记01】BTC-密码学原理-哈希函数

    区块链中最基础的密码学原理就是哈希算法,以下为哈希函数的简单介绍: 哈希函数是一种只只能加密但是不能解密的算法,哈希函数可以将任意长度的信息转化为固定长度的字符串。类似“8b46ec792e943de34605981980751a3c1e008218f77eeb27e474b594f7685019”这样。 当输入相同的值时,得到

    2024年02月03日
    浏览(31)
  • 区块链学习笔记(一)——比特币概念以及密码学相关的知识

    自己做一些让自己读得懂的笔记 1.Bitcoin History In 2008, a person under the pseudonym Satoshi Nakamoto published a paper Bitcoin: A Peer-to-Peer Electronic Cash System . Bitcoin software was released in January 2009 and the mining of the Bitcoin cryptocurrentcy officially started. The genesis block included the “The Times” headline: “ Chan

    2024年02月15日
    浏览(29)
  • 【11.10】现代密码学1——密码学发展史:密码学概述、安全服务、香农理论、现代密码学

    参考:密码学发展简史 骆婷老师的《现代密码学(32H)》课程,笔记+查找的资料补充 期末为闭卷考试的形式 密码学早在公元前400多年就已经产生,人类使用密码的历史几乎与使用文字的时间一样长,密码学的发展大致可以分为 3 个阶段: 1949年之前的古典密码学阶段; 1949 年

    2024年02月04日
    浏览(35)
  • 【密码学】高级密码学-2

    🍬第⑤部分由L3H_CoLin编写,有一些修改。🍬 Song, Dawn Xiaoding, David Wagner, and Adrian Perrig. “Practical techniques for searches on encrypted data.” Proceeding 2000 IEEE Symposium on Security and Privacy. SP 2000. IEEE, 2000. 数据的安全外包存储 利用密码算法加密明文数据,使得云平台无法获得额外信息 解决

    2024年02月16日
    浏览(22)
  • 【密码学】高级密码学-1

      通信双方使用 同一个密钥 ,通过使用加密算法配合上密钥来加密,解密过程采用加密过程的逆过程配合密钥即可。   常见的对称加密算法有DES、AES等。   对称加密的缺点:不能在不安全的网络上传输密钥,一旦密钥泄露则加密通信失败。   非对称加密使用了一

    2024年02月05日
    浏览(38)
  • 密码学基本原理和发展——近代密码学

    目录 1 密码机通信模型 2 Enigma密码机构造 3 Enigma密码机加解密过程 3.1 加密过程 3.2 解密过程 4 Enigma密码机的安全性 5 Enigma密码机破解 5.1 波兰雷耶夫斯基破解 5.2 图灵破解        近代密码一般指20世纪初~20世纪70年代期间的密码技术。20 世纪初电报的出现第一次使远距离

    2024年02月06日
    浏览(33)
  • 密码学基本原理和发展——古典密码学

      目录 1 滚筒密码 2 棋盘密码 3 凯撒密码 4 单表代换与多表代换 4.1 单表代换 4.2 多表代换         密码技术最早起源于公元前404年的希腊,此后密码大致经历了 古典密码、近代密码和现代密码三个阶段。         古典密码(公元前五世纪~19世纪末)代表性的是 滚桶密

    2024年02月05日
    浏览(34)
  • 【密码学】python密码学库pycryptodome

    记录了一本几乎是10年前的书(python绝技–用python成为顶级黑客)中过时的内容 里面提到了python标准库中自带的crypt库,经验证Python 3.12.1中并没有这个自带的库,密码学相关的库目前(2024.1.12)是一个自包含库pycryptodome,导入的是 import Crypto pypi库的页面 可以在文档中查看详

    2024年01月17日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包