Microsoft Fabric 学习----- Lakehouse vs Warehouse

这篇具有很好参考价值的文章主要介绍了Microsoft Fabric 学习----- Lakehouse vs Warehouse。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

做了几年Power BI 开发人员,微软最近上发布了Microsoft Fabric, 对它的研究安排起来!

从微软官方中文文档入手

Microsoft Fabric 中的端到端教程 - Microsoft Fabric | Microsoft Learn

Microsoft Fabric 是将 Power BI、Azure Synapse 和 Azure 数据资源管理器中的新组件和现有组件汇集到单个集成环境中.

Fabric 将如下几项集成体验集成到共享的 SaaS 中。

1. 数据工程: Lakehouse、Notebook和Spark Job Definition

2. 数据工厂(Azure Data factory):Lakehouse、Notebook和Spark Job Definition

3. 数据仓库(Data Warehouse): DataWarehouse

4. 数据科学(Data Science): 模型、实验和Notebook

5. Real-Time分析

6. Power BI

从应用场景的角度:Fabric是一个试图用一套交互承接数据工程师、数据科学家以及业务分析师工作流的平台级产品。

2 跟着官方文档将数据工程的操作流程走了一遍,但是有些概念的定义,能读懂文字,但是串不起来。比如: Lakehouse 和Warehouse 的区别,Lakehouse 的 SQL 终结点和Data warehouse 有何不同.

目录

2.1. Lakehouse vs Warehouse(Lakehouse 在官方文档里被翻译为湖屋)

2.2. Lakehouse 的 SQL 终结点和Data warehouse 有何不同?


2.1. Lakehouse vs Warehouse(Lakehouse 在官方文档里被翻译为湖屋)

网上看到如下文章的解释比较好理解 Lakehouse 和warehouse 

微软Fabric: AI时代的数据平台 - 知乎 (zhihu.com)

Lakehouse和Warehouse是Fabric中最基本的两个概念。在Fabric中,无论您选择使用Lakehouse还是Warehouse,最终的数据都将以Delta格式的Parquet形式存储在Lake中。这意味着无论您选择哪种方式,最终的数据都将以相同的方式存储。

虽然这些工件在Lake中都是以Delta格式的Parquet存储的,但在您的工作空间中,它们会被标记为不同类型的对象,两者的图标不同,一个是Warehouse表,一个是Lakehouse表。刚开始使用的时候多少有一些理解的门槛。

其次Lakehouse和Warehouse在处理数据的方式上存在一些差异。Lakehouse基于Spark,您可以在notebook中编写代码,支持Python、R、Scala和SparkSQL等语言。而Warehouse则更传统,主要使用SQL查询和存储过程,支持完整的T-SQL。 也是通过上一级的产品分类进行分流。

选择使用Lakehouse还是Warehouse主要取决于您的需求和团队的技能。如果您需要动态、元数据驱动的代码,或者需要处理复杂的数据转换和大数据问题,那么Spark的Lakehouse可能是更好的选择。如果您已经有了大量的T-SQL代码,或者需要复杂的事务支持,那么Warehouse可能更适合您。无论您选择哪种方式,都需要使用相应的方式来维护和更新表。也就是说,如果您创建了一个Lakehouse对象,那么您就不能使用T-SQLWarehouse对象来插入数据到Lakehouse对象中,反之亦然。

微软官方的技术文档也给出了详细的技术指标,帮助团队选择时做参考:

Warehouse Lakehouse Power BI Data Mart
数据量 无限 无限 100GB
数据类型 结构化 无结构、半结构、结构化 结构化
主要开发人员角色 数据仓库开发者、SQL工程师 数据工程师、数据科学家 非开发者
主要开发人员技能集 SQL Spark (Scala, PySpark, Spark SQL, R) 无代码, SQL
数据由...组织 数据库、模式和表 文件夹和文件、数据库和表 数据库、表、查询
读操作 Spark、T-SQL Spark、T-SQL Spark、T-SQL、Power BI
写操作 T-SQL Spark (Scala, PySpark, Spark SQL, R) Dataflow、T-SQL
多表事务
主要开发接口 SQL脚本 Spark笔记本、Spark作业定义 Power BI
安全性 对象级别(表、视图、函数、存储过程等)、列级别、行级别、DDL/DML 行级别、表级别(使用T-SQL时)、Spark无 内置RLS编辑器
可通过快捷方式访问数据 是(间接通过湖仓库)
可作为快捷方式的来源 是(表) 是(文件和表)
可跨项查询 是,跨湖仓库和仓库表查询 是,跨湖仓库和仓库表查询;跨湖仓库查询(包括使用Spark的快捷方式)

2.2. Lakehouse 的 SQL 终结点和Data warehouse 有何不同?

两者在 Microsoft Fabric 工作区中的名称不同:

SQL 终结点在 “类型 ”列下标记为“SQL 终结点”,

Synapse Data Warehouse或 Warehouse 在“类型”列下标记为“仓库”。

每个 Lakehouse 都有一个自动生成的 SQL 终结点,可通过熟悉的 SQL 工具(如 SQL Server Management Studio、Azure Data Studio、Microsoft Fabric SQL 查询编辑器)利用。而Data warehouse支持事务、DDL 和 DML 查询。

Microsoft Fabric 学习----- Lakehouse vs Warehouse

 下图介绍 Microsoft Fabric 中仓库和 SQL 终结点之间的差异。

Microsoft Fabric 学习----- Lakehouse vs Warehouse

 

SQL 终结点是从 Microsoft Fabric 中的 Lakehouse 创建时自动生成的只读仓库。 在 Lakehouse 中通过 Spark 创建的 Delta 表可自动在 SQL 终结点中发现为表。 SQL 终结点使数据工程师能够基于 Lakehouse 中的物理数据构建关系层,并使用 SQL 连接字符串将其公开给分析和报告工具。 然后,数据分析师可以使用 T-SQL 通过仓库体验访问 Lakehouse 数据。 使用 SQL 终结点设计仓库以满足 BI 需求和提供数据。

Synapse Data Warehouse 或 Warehouse 是“传统”数据仓库,支持企业数据仓库等完整事务性 T-SQL 功能。 与自动创建表和数据的 SQL 终结点不同,可以使用 Microsoft Fabric 门户或 T-SQL 命令完全控制在数据仓库中创建 表、加载、转换和查询数据。

参考如下文章查看如何在SQL 终结点和 数据仓库中查询SQL 查询 SQL 终结点或仓库 - Microsoft Fabric | Microsoft Learn

今天就到这里,后面慢慢研究,慢慢更新,Stay tuned.文章来源地址https://www.toymoban.com/news/detail-505883.html

到了这里,关于Microsoft Fabric 学习----- Lakehouse vs Warehouse的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Fabric学习】什么是HyperLedger Fabric?

    本文总结自 Fabric官方文档 ,描述了Fabric产生的背景、特性、主要组件。 区块链 是不可更改的交易账本,由同等节点(peer nodes)组成的分布式网络来维护。 比特币:第一个使用区块链的应用; 以太坊:引入 智能合约 来开发分布式应用。 二者都是 公有链 ( public / permissi

    2024年01月19日
    浏览(48)
  • 【Hyperledger Fabric 学习】运行一个Fabric应用

    中文网址:https://hyperledger-fabric.readthedocs.io/zh_CN/latest 英文网址:https://hyperledger-fabric.readthedocs.io/en/latest 一般情况英文网址的内容更全面,版本也比中文新。 本教程介绍了 Fabric 应用程序如何与已部署的区块链网络进行交互。本教程使用使用 Fabric Gateway 客户端 API 构建的示例

    2023年04月08日
    浏览(70)
  • VS2019+Qt 用vs扩展Microsoft Visual Studio Installer Projects进行程序打包(.msi安装包)

    qt小白,仅做记录,如有问题,欢迎指正 方法一:Microsoft Visual Studio Installer Projects - Visual Studio Marketplace 关闭vs2019,直接安装即可。 方法二:vs2019-扩展-管理扩展-右侧搜索Microsoft Visual Studio Installer Projects-根据提示下载安装即可。(两种方法下载都有点慢) 1.用vs编译release版本

    2024年02月04日
    浏览(75)
  • 基于 Flink & Paimon 实现 Streaming Warehouse 数据一致性管理

    摘要:本文整理自字节跳动基础架构工程师李明,在 Apache Paimon Meetup 的分享。本篇内容主要分为四个部分: 背景 方案设计 当前进展 未来规划 点击查看原文视频 演讲PPT ​ 早期的数仓生产体系主要以离线数仓为主,业务按照自己的业务需求将数仓分为不同的层次,例如 DW

    2024年02月14日
    浏览(40)
  • 阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse

    01 背景信息 数据湖与传统的数据仓库相比,可以更灵活地处理各种类型的数据,并支持高度可扩展的存储,通常被用于大数据分析。为了支持准实时乃至实时的数据处理,数据湖需要能够快速地接收和存储数据(数据入湖),同时提供低延迟的查询性能以满足分析需求。 A

    2024年01月20日
    浏览(40)
  • 日增数据超10PB!揭秘沃尔玛Lakehouse架构选型之路

    沃尔玛系统产生了世界上最大和最多样化的数据集之一,每天数据增长超 10 PB。 来自许多不同的来源及其支持的后端系统,一系列大量的业务事件流被发送到主要由 Apache Kafka 支持的消息传递层。 沃尔玛团队强烈希望扩展近乎实时的决策制定,如事件驱动架构的显着增加、来

    2024年02月04日
    浏览(33)
  • 使用VS2019连接Microsoft SQL Server Compact 4.0数据库

    SQL Server Compact Edition是微软推出的一个适用于嵌入到移动应用的精简数据库产品,Windows Mobile开发人员能够使用SQL Server CE开发出将数据管理能力延展到Window Mobile移动设备上的应用程序。虽然SQL Server CE占用的磁盘空间只有3到5兆左右,但是它功能并没有像它的容量那样大幅度缩

    2024年02月09日
    浏览(54)
  • 【C#】VS2019 添加引用中没有 Microsoft.Office.XXX 的解决办法

    今天在写 C# 实验的时候遇到了 命名空间“Microsoft”中不存在类型或命名空间名“Office”(是否缺少程序集引用?) “Microsoft.Office.Interop”中不存在类型或命名空间名“Word”(是否缺少程序集引用?) 等等问题,关于 Office 的引用的,起初我查找网上的各种方法,发现都没有用,包括

    2024年02月15日
    浏览(40)
  • Fabric 超级账本学习【5】Fabric2.4网络环境下——搭建Hyperledger Fabric区块链浏览器

    博主最近在搭建Hyperledger Fabric区块链浏览器过程中也学习了很多博主的搭建流程,踩了很多雷,踩了很多 坑,现将成功搭建好的Hyperledger Fabric区块链浏览器详细流程分享如下,帮助大家避雷闭坑 Hyperledger Explorer 是一个简单,强大,易于使用,维护良好的开源实用程序,可浏

    2023年04月23日
    浏览(46)
  • Vs2010安装问题,请确保已安装Microsoft SQL Server Compact 3.5

    解决办法 :vs2010安装光盘,搜索 SSCERuntime_x86-chs.msi,重新安装之。 先装SSCERuntime_x86-chs.msi,再装SCERuntime_x64-chs.msi, 另外发现一个SSCEVSTools-chs.msi果断安装。 再打开vs2010,这个该死的对话框终于消失了。

    2024年02月12日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包