摘要:本文整理自阿里云高级技术专家/数据湖存储负责人郑锴(铁杰);阿里云高级技术专家/开源大数据OLAP负责人范振(辰繁)在 阿里云EMR2.0线上发布会 的分享。
本篇内容主要介绍了阿里云云原生数据湖分析解决方案的三个核心要素:
1.全托管,湖存储;
2.一站式,湖管理;
3.多模态,湖计算
阿里云云原生数据湖分析解决方案全面重磅升级,经中国信通院评测,它是目前国内唯一满分的数据湖方案。它有三个核心要素构成:
- 全托管,湖存储:全面兼容支持 HDFS/POSIX 协议,无缝对接大数据和AI一体化生态;
- 一站式,湖管理:提供全面的数据库存储管理能力;
- 多模态,湖计算:基于一湖多架构,能够同时实现离线湖、实时湖、湖仓分析。
一、全托管 - 湖存储(OSS-HDFS)
1、第三代数据湖存储 OSS-HDFS
- 第一代数据湖存储是开源的 HDFS;
- 标准对象存储如阿里云OSS,被认为是第二代数据库存储;
- 阿里云融合前两代数据湖存储上的优势,推出第三代数据湖存储:OSS-HDFS。
2、OSS-HDFS 生态支持
新的数据湖存储解决方案 OSS-HDFS,通过 HDFS API 和 POSIX API,实现对数据湖存储之上丰富的大数据和AI计算场景的完整支持,这是第三代数据湖存储的核心命题。文章来源:https://www.toymoban.com/news/detail-452087.html
- 通过提供充分的、完全的 HDFS 接口兼容,充分对接 Hadoop、Spark 这类大数据生态;
- 同时,对新兴的湖仓分析计算场景也提供了充分的支持;
- 对于蓬勃发展的AI生态,通过 POSIX 提供兼容支持。
3、性能优势
在存储服务的核心能力方面,如性能、规模和成本上,阿里云云原生数据湖分析解决方案具备显著的优势。文章来源地址https://www.toymoban.com/news/detail-452087.html
-
性能:高
- 原子性和毫秒级目录操作 rename、delete
- 超大目录 du/count 毫秒级返回
-
规模:大
- 热文件(10 亿)+ 温冷(40亿)vs 4亿
- OSS 带宽水平扩展
-
成本:低
- 标准
到了这里,关于阿里云EMR 2.0:定义下一代云原生智能数据湖的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!