火山引擎 DataLeap 构建Data Catalog系统的实践（二）：技术与产品概览-Toy模板网

这篇具有很好参考价值的文章主要介绍了火山引擎 DataLeap 构建Data Catalog系统的实践（二）：技术与产品概览。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

文章来源地址https://www.toymoban.com/news/detail-558695.html

元数据接入支持T+1和近实时两种方式
上游系统：包括各类存储系统（比如Hive、 Clickhouse等）和业务系统（比如数据开发平台、数据质量平台等）
中间层：
- ETL Bridge：T+1方式运行，通常是从外部系统拉取最新元数据，与当前Catalog系统的元数据做对比，并更新差异的部分
- MQ：用于暂存各类元数据增量消息，供Catalog系统近实时消费
- 与上游系统打交道的各类Clients，封装了操作底层资源的能力

系统的核心服务，根据职责的不同，细拆为以下子服务：

针对不同场景，选用的不同的存储：

数据的生产者和消费者，通过Data Catalog的前端与系统交互
下游在线服务可通过OpenAPI访问元数据，与系统交互
Metadata Outputs Layer：提供除了API之外的另外一种下游消费方式
- MQ：用于暂存各类元数据变更消息，格式由Catalog系统官方定义
- Data warehouse：以数仓表的形式呈现的全量元数据

产品能力上的升级迭代，大致分为以下几个阶段：

基础能力建设（2017-2019）：数据源主要是离线数仓Hive，支持了Hive相关库表创建、元数据搜索与详情展示、表之间血缘，以及将相关表组织成业务视角的数据专题等
中阶能力建设（2019-2020年中）：数据源扩展了Clickhouse与Kafka，支持了Hive列血缘，Q&A问答系统等
架构升级（2020年中-2021年初）：产品能力迭代放缓，基于新设计升级架构
能力提升与快速迭代（2021年至今）：数据源扩展为包含离线、近实时、业务等端到端系统，搜索和血缘能力有明显增强，探索机器学习能力，产品形态更成熟稳定。另外我们还具备了ToB售卖的能力。

点击跳转

大数据研发治理套件-火山引擎

了解更多

到了这里，关于火山引擎 DataLeap 构建Data Catalog系统的实践（二）：技术与产品概览的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！