【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog

这篇具有很好参考价值的文章主要介绍了【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (5) - Unity Catalog 简介

UC的关键特性

之所以DataBricks要用UC, 很大程度是对安全的管控。从上文可以了解到它的四大特性:

  1. 数据访问控制: 谁可以访问什么数据
  2. 数据访问审计: 收集访问数据的行为
  3. 数据血缘: 收集上游来源和下游消费者
  4. 数据发现: 可用于查询和发现已授权的资产

UC开启前后的变化

这是一个很重要的图,如果不是从0开始使用UC 而是迁移,那么很有必要了解前后发生了什么事。

从下图可以看出,UC 把User/Group management, Metastore, Access controls 从过去单个workspace中提取出来集中管理。workspace只负责计算资源的管理。

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

这种变化会使得原有在单个workspace上的配置迁移到UC 内部,这个过程会出现很多问题和改动, 所以要有心理准备在迁移过程中会花费不少时间。

接下来我们先搭建环境,以便后续重现很多问题。

创建UC

首先假设你已经有了一个ADB, 并具有了Admin的权限。然后进去ADB的workspace,从右上角如下图所示的“Manage Account”进去配置界面。
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
然后从下图所示点击“data”进入常见Metastore界面。

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
点击“Create metastore”

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

配置必填信息,对于非必填的选项(在稍微旧一点的版本中这四个都是必填项)我们可以看看它的说明,对于实际项目而言,我们最好建立一个单独的Storage Account(ADLS Gen2 类型)来存储。

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
接下来快速演示一下,创建一个ADLS Gen 2 ,过程略。然后创建一个container, 我这里叫uccontainer, 并在其内部创建一个目录名为:folder
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
然后从endpoint处找到“Data Lake Storage”的endpoint值, 这个值以"Container名字@endpoint名字/目录名"的格式填入,如我这里:
uccontainer@georgesa202311.dfs.core.windows.net/folder 为录入值。

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

接下来看access connector,如果上面指定了ADLS , 那么这个值就要同时提供。

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
从portal上搜索并点击进去创建。
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
可以简单默认创建。

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

获取下图中的值。填入上面metastore的创建界面中。
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

在点击创建时,可能会出现以下报错,这是因为引入了额外的Storage Account后需要赋权:
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

授权ADLS Gen2

在所用的ADLS 上点击IAM, 选择“storage blob data contributor”:

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

授权给Accessconnector:
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
授权成功:

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

除了RBAC 外,还要授权ACL:

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

这里把Access Connector授予Read, Write 和Execute权限:
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
除了Access Permissions之外,还要配置Default permissions,这是针对后续新增加的子目录,如果没有这个配置,权限仅针对当前配置有效。
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
配置完毕之后,再次点击创建,可以看到创建metastore成功:

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

启用metastore

按下图步骤启用metastore
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
启用成功。

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

点击【open】即可开始使用UC。
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

从下面图中可以看到前一章提到的一些关于UC 的内容。
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

也可以在此处进行控制访问。
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs
【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog,Azure 架构师学习笔记,Databrics,azure,Databrikcs

小结

到此为止,我们有了一个初步的环境,接下来将继续深入研究UC。文章来源地址https://www.toymoban.com/news/detail-794726.html

到了这里,关于【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [Azure] databricks通过服务主体(service principals)和azure key vaults访问Blob storage

    Service Principal  是Azure Active Directory中的一个应用程序,它被授权访问Azure中的资源。此访问受到分配给服务主体的角色的限制,从而使您能够控制哪些资源可以访问以及在哪个级别上访问,使用专用应用程序服务主体service principals进行本地开发,可以在应用开发期间遵循最低

    2024年04月23日
    浏览(38)
  • azure databricks因为notebook 日志打多或者打印图片太多,往下拉卡死怎么处理

    1、同事碰到个问题,databricks 页面卡死不动了 2、我。。。。。。。。测试了下搞不定,找azure的工程师,特此笔记如下图 !

    2024年02月11日
    浏览(52)
  • 【Unity学习笔记】b站Unity架构课Unity3D 商业化的网络游戏架构(高级/主程级别)

    自己跟着学完了,写了不少代码,会放在CSDN代码库,因为老师并没有提供源码,录屏也不是完全连续,所以难免 有代码缺少、无法运行 的情况,但是确实学到了不少真本事,主要是了解老师的架构思想。 b站课程地址 课程我自己是跟着学完了的,本文是个人笔记记录和好课

    2024年02月02日
    浏览(52)
  • Azure 机器学习 - 使用自动化机器学习训练计算机视觉模型的数据架构

    了解如何设置Azure Machine Learning JSONL 文件格式,以便在训练和推理期间在计算机视觉任务的自动化 ML 实验中使用数据。 关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的

    2024年02月05日
    浏览(47)
  • 火山引擎DataLeap的Catalog系统搜索实践 (二):整体架构

    整体架构   火山引擎DataLeap的Catalog搜索系统使用了开源的搜索引擎Elasticsearch进行基础的文档检索(Recall阶段),因此各种资产元数据会被存放到Elasticsearch中。整个系统包括4个主要的数据流程: 实时导入 。资产元数据变更时相应的平台发出实时变更消息,Data Catalog系统会消

    2024年02月09日
    浏览(44)
  • Unity | HDRP高清渲染管线学习笔记:HDRP配置文件(HDRP Asset)

    目录 一、Frame Settings(帧设置) 二、Volume 三、HDRP配置文件、帧设置和Volume之间的关系 四、HDRP配置文件 1.Rendering (1)Color Buffer Format(颜色缓存格式) (2)Lit Shader Mode(Lit着色器模式) (3)Motion Vectors(运动矢量) 2.Post-processing Quality Settings(后处理质量设置) 五、针对

    2024年02月16日
    浏览(43)
  • Azure - 机器学习:创建机器学习所需资源,配置工作区

    本文中你可以创建使用 Azure 机器学习所需的资源,包含工作区和计算实例。 关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营

    2024年02月08日
    浏览(39)
  • doris配置hive的catalog

    创建hive的catalog

    2024年02月13日
    浏览(30)
  • ZA303学习笔记七管理应用程序(Azure AD Connect/使用SSO)

    官方文档 https://docs.microsoft.com/zh-cn/azure/active-directory/hybrid/ Azure Active Directory (Azure AD)是一个综合性的标识即服务(IDaas)解决方案,由数百万组织用来跨标识、访问管理和安全的各个方面。Azure AD拥有超过10亿用户身份,并可帮助用户登录和安全访问两者:(Azure AD Connect是本地安

    2024年02月07日
    浏览(43)
  • 使用 Databricks+Mlflow 进行机器学习模型的训练和部署

    机器学习工作流中存在诸多痛点: 首先,很难对机器学习的实验进行追踪。机器学习算法中有大量可配置参数,在做机器学习实验时,很难追踪到哪些参数、哪个版本的代码以及哪个版本的数据会产生特定的结果。 其次,机器学习实验的结果难以复现。没有标准的方式来打

    2024年02月02日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包