Jeddak-DPSQL 首次开源!基于差分隐私的 SQL 代理保护能力

这篇具有很好参考价值的文章主要介绍了Jeddak-DPSQL 首次开源!基于差分隐私的 SQL 代理保护能力。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

动手点关注

Jeddak-DPSQL 首次开源!基于差分隐私的 SQL 代理保护能力,sql,开源,数据库,大数据,java

干货不迷路

‍1. 背景

火山引擎对于用户敏感数据尤为重视,在火山引擎提供的数据分析产品中,广泛采用差分隐私技术对用户敏感信息进行保护。此类数据产品通常构建于 ClickHouse 等数据引擎之上,以 SQL 查询方式来执行计算逻辑,且查询逻辑往往较为复杂,因此对差分隐私的应用提出了以下要求:

  • 零改造、零感知:最大程度避免影响业务现有查询方式,最好做到业务零感知、零改造;

  • 良好、灵活的适配性:能够适配不同数据引擎的查询语法,以及能够处理包含多层嵌套、多重计算、多表连接等情形的复杂 SQL 语句;

  • 安全性与可用性平衡:能够根据业务数据质量要求,计算合理的隐私预算,在安全性和数据可用性之间保持平衡;

针对以上需求,火山引擎安全研究团队开发了 Jeddak-DPSQL:一种基于差分隐私的 SQL 代理工具。Jeddak-DPSQL 能够兼容多种数据引擎和SQL方言,内嵌多种差分噪声扰动算法,具备隐私预算管理能力,并且能够与底层数据引擎结合,在数据分析师无感的情况下,对 SQL 语句进行自动化分析和结果加噪处理。作为数据安全和隐私合规治理的标准能力之一,Jeddak-DPSQL 已经在抖音集团相关业务中得到了普遍应用与验证。

在实际解决公司内部面临的问题风险后,我们决定对 Jeddak-DPSQL 进行开源,希望能够为同样面临该类问题的企业和个人提供一定参考和帮助,同时也希望能够有更多的外部开发者能够一起对该开源项目进行共建,完善 Jeddak-DPSQL 产品功能,共同构建更完备的应用生态。

2. 全面了解 Jeddak-DPSQL

2.1 Jeddak-DPSQL 介绍

Jeddak-DPSQL 采用中心化差分隐私 (Centralized Differential Privacy,简称 CDP,适用于数据管理者可信的场景) 模式,以中间件的形式接收 SQL 统计查询请求,返回满足差分隐私的查询结果。一个典型的查询请求处理流程如下:

  • 首先,核心服务接受客户提交的 SQL 查询语句,对该语句进行解析和重写,以便于计算隐私噪声(如将 AVG 计算改为 SUM/COUNT);

  • 然后,核心服务调用元数据管理服务,计算重写后的 SQL 查询所对应的数据表敏感度,同时在数据库上执行重写后的 SQL 查询,得到原始的查询结果;

  • 最后,核心服务调用隐私预算管理服务得到为该查询分配的隐私预算,并结合敏感度在原始的查询结果中添加噪声并返回。

Jeddak-DPSQL 首次开源!基于差分隐私的 SQL 代理保护能力,sql,开源,数据库,大数据,java

2.2 Jeddak-DPSQL 解决的问题

案例背景

假设有一个数据库 business,存储用户消费数据,使用 clickhouse 引擎,其中一个表 user 存储用户信息,表中存在以下列:uid,name,age,sex,city,代表用户id、姓名、年龄、性别、城市。

查询需求

我们要查询用户数量和平均年龄的城市分布,使用 SQL 语句 1:

SELECT  COUNT(*) AS cnt,AVG(age) as agev, city
FROM business.user
group by city

风险

如果不应用隐私保护技术,可能面临差分攻击的风险,比如攻击者通过某渠道得知张三的 uid 为 803719,构造下面的 SQL 语句 2:

SELECT  COUNT(*) AS cnt,AVG(age) as agev, city
FROM business.user
WHERE uid != 803719
group by city

通过执行上面的 SQL 语句1和 SQL 语句2,可分别得到两个查询结果:

Jeddak-DPSQL 首次开源!基于差分隐私的 SQL 代理保护能力,sql,开源,数据库,大数据,java

那么就可以通过比较两次查询结果得知张三所在的城市是北京,年龄大约 61 岁(120008x49.3276 = 5919706.62,120007x49.3275 = 5919645.29,5919706.62 - 5919645.29 约等于 61)

以上是一个简单的例子,现实场景中,攻击者可能通过背景知识构造更多样、更复杂的查询语句达到窃取隐私的目的。

因此,在上述 SQL 查询场景下,可以通过接入 Jeddak-DPSQL 对 SQL 进行分析和重写,最终执行重写后的 SQL 能够保证返回给使用者的数据满足差分隐私要求,进而达到对个人隐私保护的效果。

2.3 Jeddak-DPSQL 在火山引擎的应用验证

  1. Jeddak-DPSQL已接入火山引擎的增长分析(finder)、A/B 测试等产品,间接服务300+外部客户,日均处理查询请求 200+。Jeddak-DPSQL服务不仅帮助业务满足了隐私保护和业务合规的需求,同时也成为创新型隐私计算技术应用的典范案例。

  2. 开放隐私计算 OpenMPC 对外公布了“隐私计算 2021 年度优秀应用案例 TOP 10”。火山引擎 云安全凭借“融合 差分隐私 的火山引擎 DPSQL 服务”案例,成功入选 TOP 10。

3. 如何使用 Jeddak-DPSQL

git 开源项目地址: https://github.com/bytedance/Jeddak-DPSQL

3.1 下载

git clone https://github.com/bytedance/Jeddak-DPSQL

3.2 快速部署

完成 Jeddak-DPSQL 下载后,按照 README 中的部署引导部分完成服务部署,整个部署过程包括以下步骤:

  • 服务依赖包安装:进入项目根目录,使用 pip install -r requirements.txt 安装服务所需完整 pip 包

  • MetaData 存储准备:在使用DPSQL 时,需要维护源数据表的 MetaData 信息,为后续加噪计算敏感度作准备。Jeddak-DPSQL 使用 Mysql 对相应元数据信息进行存储,因此需要用户提前在自己的Mysql数据库中创建相应的表

  • 隐私预算消耗存储准备:使用 Jeddak-DPSQL 系统过程,可以记录对表级别的数据查询时的隐私预算消耗。主要通过Mysql进行记录,因此需要用户提前在自己的Mysql数据库中创建相应的表

  • 数据库连接配置:Jeddak-DPSQL 中使用数据库主要有 Mysql 和 Redis,因此需要对这两个数据库连接地址进行配置

  • 服务启动:完成上述配置后可以在项目根目录运行 bootstrap.sh 脚本启动服务

3.3 正式使用

完成 Jeddak-DPSQL 部署后,按照 README 中的快速开始部分可以进行功能体验,整个过程如下:

  • 选择要测试的数据源(Hive 或 ClickHouse),导入要进行查询测试的原始数据集

  • 初始化metadata和隐私预算

    1. 生成 metadata

   2. 启动dpsql服务后, 调用接口 /api/v1/metadata/generate,生成metadata,可参考:

def meta_generate():
  args = {
      "db_config": {
          "host": <hive_host>,
          "database": <hive_dbname>,
          "username": <hive_username>,
          "password": <hive_password>
      },
      "table_name": "us_accidents_dec21_updated",
      "db_type": db_type
  }
  route_path = "/api/v1/metadata/generate"# local service,  host:127.0.0.1, port:5000url = "http://%s:%s/%s" % (host, port, route_path)
  headers = {"content-type": "application/json"}
  r = requests.post(url, json=args, headers=headers)

if __name__ == '__main__':
   meta_generate()

3. 确认metadata 生成完成

4. 调用 /api/v1/metadata/get 接口,确认 metadata 生成完成

def meta_get():
    args = {
        "prefix": <hive_host>,
        "db_name": <hive_dbname>,
        "table_name": "us_accidents_dec21_updated"
    }
    route_path = "/api/v1/metadata/get"# local service,  host:127.0.0.1, port:5000url = "http://%s:%s/%s" % (host, port, route_path)
    headers = {"content-type": "application/json"}
    r =  requests.get(url, json=args, headers=headers)
    print(r.text)
  •  调用隐私保护查询接口,获得经过差分隐私保护的查询结果

def query_sql_noise(sql, data_source):
      key = {
          "sql": sql,
          "dbconfig": {
              "reader": data_source,
              "host": <hive_host>,
              "database": <hive_dbname>,
              "port": <hive_port>
          },
          "queryconfig": {
             "traceid": "traceid",
          }
      }
      route_path = "/api/v1/query"url = "http://%s:%s/%s" % (host, port, route_path)
      headers = {"content-type": "application/json"}
      r = requests.post(url, json=key, headers=headers)
      return res
if __name__ == "__main__":
      sql = "select count(severityc) from menu_page group by severity"
      section = "hivereader"
      res = query_sql_noise(sql, section)
      print(res)

更多接口使用方式可以参考项目 README 中的 API Documentation 部分

4. 后续计划

由于当前是 Jeddak-DPSQL 的首个开源版本,因此还存在很多不完善的地方,希望大家能够多多谅解。Jeddak-DPSQL 计划进行长期维护,欢迎大家使用,也希望有更多的外部开发者能够一起对该开源项目进行共建,完善产品功能,构建更完备的应用生态。

5. 关于安全研究

火山引擎安全研究部门的愿景是创新突破前沿安全理论技术,赋能数字经济。部门当前以数据安全中心私有化单品-可信隐私计算产品 Jeddak 为载体,从可信计算、联邦学习、多方安全计算、差分隐私、密文计算、共识计算等方向着手,开展隐私计算技术的前沿研究和应用探索。基于这些领域最新前沿理论技术,创新研发、突破瓶颈,实现数据全生命周期安全与隐私保护,以及可信隐私计算等应用服务落地:赋能业务、保驾护航;更进一步打破数据孤岛,推动数据多源融合与流通交易,发挥数据价值。文章来源地址https://www.toymoban.com/news/detail-567683.html

到了这里,关于Jeddak-DPSQL 首次开源!基于差分隐私的 SQL 代理保护能力的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【多方安全计算】差分隐私(Differential Privacy)解读

    差分隐私(Differential privacy)最早于2008年由Dwork 提出,通过严格的数学证明,使用随机应答(Randomized Response)方法确保数据集在输出信息时受单条记录的影响始终低于某个阈值,从而使第三方无法根据输出的变化判断单条记录的更改或增删,被认为是目前基于扰动的隐私保护

    2024年02月06日
    浏览(45)
  • 《横向联邦学习中 PCA差分隐私数据发布算法》论文算法原理笔记

    论文地址:https://www.arocmag.com/article/01-2022-01-041.html 论文摘要      为了让不同组织在保护本地敏感数据和降维后发布数据隐私的前提下,联合使用 PCA进行降维和数据发布,提出 横向联邦 PCA差分隐私数据发布算法 。引入随机种子联合协商方案,在各站点之间以较少通信代

    2024年02月08日
    浏览(39)
  • 首次公开开源PolarDB的总体结构设计和企业级特性

    3月2日,开源PolarDB企业级架构将迎来重磅发布!将首次公开开源PolarDB的总体结构设计和企业级特性,对PolarDB for PostgreSQL的存储计算分离架构、HTAP架构、三节点高可用架构进行全面介绍。点此围观:开源PolarDB企业级架构重磅发布

    2024年02月16日
    浏览(43)
  • 阿里巴巴官方上线!号称国内Java八股文天花板,首次开源!

    继续找工作,现在的很多程序员还在谈技术,谈这个就没劲了其实,因为现在的失业是结构性失业。 比如说你到40岁了,你还有大厂履历,那你毕业了以后,找工作的难度肯定会加大。一方面是新工作的待遇和薪资往往不及预期,另一方面就是竞争激烈。 而我认识的两个猎头

    2024年02月07日
    浏览(58)
  • 蚂蚁集团开源可信隐私计算框架「隐语」:开放、通用

    7 月 4 日,蚂蚁集团宣布面向全球开发者正式开源可信隐私计算框架 “隐语”。 隐语是蚂蚁集团历时 6 年自主研发,以安全、开放为核心设计理念打造的可信隐私计算技术框架,涵盖了当前几乎所有主流隐私计算技术。 据介绍,隐语内置 MPC、TEE、同态等多种密态计算虚拟设

    2024年02月15日
    浏览(37)
  • 探秘开源隐语:架构深度剖析与隐私计算技术之旅

    隐语(SecretFlow)作为蚂蚁集团开源的可信隐私计算框架,其架构设计具有多层次的特点,虽然具体分层名称可能会根据实际描述略有差异,但我们可以依据已有的技术和信息对其进行结构化的拆解: 硬件层(或称TEE层/TCS层) : 这一层主要涉及到硬件层面的安全保障,尤其

    2024年04月17日
    浏览(47)
  • PrimiHub 联邦学习大模型开源,打破数据限制,保护数据隐私安全

    ChatGPT 掀起的大模型热潮,让各界人士对人工智能大模型的关注度极速提高。 什么是大模型?大模型是指具有大量参数的深度神经网络模型,它们通常可以提供更强大的表达能力和泛化能力,从而提升各种智能服务的性能和质量。大模型在训练的过程中,会面临一个重大挑战

    2024年02月16日
    浏览(44)
  • Ubuntu 23.10 将首次推出基于 Flutter 的新 Ubuntu 商店

    导读 Ubuntu 正在升级其软件商店以提供顺滑的体验! 随着不断发展,Canonical 似乎全力以赴,将基于 Flutter 的元素整合到 Ubuntu 中。 在前段时间 Ubuntu 23.04 发布后,我们见到了基于 Flutter 的安装程序 ,现在,Ubuntu 的另一个重要工具也接受了 Flutter 改造:一款新的软件商店应用

    2024年02月11日
    浏览(41)
  • 正式开源 无恒实验室推出 appshark 自动化漏洞及隐私合规检测工具

    随着移动互联网的高速发展,人们的生产生活也逐渐从 PC 电脑端转移到手机等移动端,各类移动 App 也如雨后春笋般产生。受限于代码的开发质量等原因, App 中或多或少的会存在安全漏洞或因开发设计不谨慎引入的违规收集个人信息等合规风险,带漏洞运行的 App 将严重威胁

    2024年02月14日
    浏览(56)
  • 基于差分进化算法的微电网调度研究(Matlab代码实现)

    💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码实现 全球能源

    2024年02月06日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包