Flink CDC介绍及原理

9月前作者：大大大大肉包分类：Toy博客阅读(23) 违法举报

这篇具有很好参考价值的文章主要介绍了Flink CDC介绍及原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术，Flink 从 1.11 版本开始原生支持 CDC 数据（changelog）的处理，目前已经是非常成熟的变更数据处理方案。

Flink CDC Connectors 是 Flink 的一组 Source 连接器，是 Flink CDC 的核心组件，这些连接器负责从 MySQL、PostgreSQL、Oracle、MongoDB 等数据库读取存量历史数据和增量变更数据。在 2020 年 7 月开源，社区保持了相当高速的发展，平均两个月一个版本，在开源社区的关注度持续走高，也逐渐有越来越多的用户使用 Flink CDC 来快速构建实时数仓和数据湖。

Flink CDC 2.1的改进

Flink CDC 2.1 版本重点提升了 MySQL CDC 连接器的性能和生产稳定性，重磅推出 Oracle CDC 连接器和 MongoDB CDC 连接器。新增内容如下：

（1）MySQL CDC 支持百亿级数据的超大表，支持 MySQL 全部数据类型，通过连接池复用等优化大幅提升稳定性。同时提供支持无锁算法，并发读取的 DataStream API，用户可以借此搭建整库同步链路；

（2）新增 Oracle CDC 连接器，支持从 Oracle 数据库获取全量历史数据和增量变更数据；

（3）新增 MongoDB CDC 连接器，支持从 MongoDB 数据库获取全量历史数据和增量变更数据；

（4）所有连接器均支持metadata column 功能，用户通过 SQL 就可以访问库名，表名，数据变更时间等 meta 信息，这对分库分表场景的数据集成非常实用；

丰富 Flink CDC 入门文档，增加多种场景的端到端实践教程。

Flink CDC 1.x 问题点

1、加锁时间不确定，极端情况会锁住数据库

针对一致性加锁的痛点 Flink cdc 2.x 借鉴 Netflix 的 DBlog paper 设计了全程无锁算法

2、因为 Flink CDC 底层是基于 Debezium，Debezium 架构是单节点，所以 Flink CDC 1.x 只支持单并发。在全量读取阶段，如果表非常大 (亿级别)，读取时间在小时甚至天级别，用户不能通过增加资源去提升作业速度。

3、全量读取阶段不支持 checkpoint

Flink CDC 读取分为两个阶段，全量读取和增量读取，目前全量读取阶段是不支持 checkpoint 的;

因此会存在一个问题：当我们同步全量数据时，假设需要 5 个小时，当我们同步了 4 小时的时候作业失败，这时候就需要重新开始，再读取 5 个小时。

Flink cdc 2.x 中定期为源执行检查点，在故障转移的情况下，作业将从上次成功的检查点状态重新启动并恢复，并保证恰好一次语义。

Flink CDC 高频面试 13 问(万字长文吐血总结！)文章来源地址https://www.toymoban.com/news/detail-506567.html

到了这里，关于Flink CDC介绍及原理的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

60、Flink CDC 入门介绍及Streaming ELT示例（同步Mysql数据库数据到Elasticsearch）-CDC Connector介绍及示例 (1)

一、Flink 专栏 Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。 1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。 3、

2024年02月19日
浏览(47)
业务数据同步工具介绍和使用(Sqoop、Datax、Canal、MaxWell、Flink CDC)

介绍 Sqoop ： SQ L-to-Had oop （ Apache已经终止Sqoop项目）用途：把关系型数据库的数据转移到HDFS（Hive、Hbase）（重点使用的场景）；Hadoop中的数据转移到关系型数据库中。Sqoop是java语言开发的，底层使用 mapreduce 。需要注意的是，Sqoop主要使用的是Map，是数据块的转移，没有使

2024年02月15日
浏览(77)
55、Flink之用于外部数据访问的异步 I/O介绍及示例

一、Flink 专栏 Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。 1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。 3、

2024年01月17日
浏览(46)
一种基于动态水位值的Flink调度优化算法(flink1.5以前)，等同于实现flink的Credit-based反压原理

首先说明，偶然看了个论文，发现 flink优化原来比我想象中的更简单，得到了一些启发，所以写下这篇帖子，供大家共同学习。看到的论文是《计算机科学与应用》21年11月的一篇名字就叫做：一种基于动态水位值的Flink调度优化算法。感兴趣的小伙伴可以自己看一下，很

2024年02月22日
浏览(48)
【原理图专题】OrCAD Capture 设计规则（DRC）检查

在原理图设计完成后，需要进行DRC检查，DRC检查能协助工程师快速检查原理图的物理、电气规则是否正确，能快速定位错误和原因。 DRC 检查从Capture 工具栏中如下图红框所示的图标中Design Rules Check进入进入后将打开DRC窗口，有四个选项卡。分别是Design Rules Options、Electrical

2023年04月22日
浏览(81)
56、Flink 的Data Source 原理介绍

一、Flink 专栏 Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。 1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。 3、

2024年01月21日
浏览(36)
Flink系列之：Flink CDC深入了解MySQL CDC连接器

增量快照读取是一种读取表快照的新机制。与旧的快照机制相比，增量快照具有许多优点，包括：（1）在快照读取期间，Source 支持并发读取（2）在快照读取期间，Source 支持进行 chunk 粒度的 checkpoint （3）在快照读取之前，Source 不需要数据库锁权限。如果希望 source 并行运

2024年02月02日
浏览(47)
Flink学习13-Flink CDC

一、CDC简介 cdc全称 Change Data Capture 变更数据捕获。通俗来讲只要能捕获到变更的数据的技术都可以称为cdc。常见的开源技术有以下几种： canal：https://github.com/alibaba/canal maxwell：https://github.com/zendesk/maxwell Debezium：https://github.com/debezium/debezium flink-cdc：https://github.com/ververica/fli

2024年01月16日
浏览(41)
Flink CDC系列之：Oracle CDC Connector

2023年08月23日
浏览(49)
Flink CDC系列之：TiDB CDC 导入 Elasticsearch

替换目录 tidb-docker-compose 里面的 docker-compose.yml 文件，内容如下所示：该 Docker Compose 中包含的容器有： TiDB 集群: tikv、pd、tidb。 Elasticsearch：orders 表将和 products 表进行 join，join 的结果写入 Elasticsearch 中。 Kibana：可视化 Elasticsearch 中的数据。本机添加 host 映射 pd 和 tikv 映射

2024年02月12日
浏览(28)