Flink CDC+Kafka 加速业务实时化-Toy模板网

这篇具有很好参考价值的文章主要介绍了Flink CDC+Kafka 加速业务实时化。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

摘要：本文整理自阿里巴巴开发工程师，Apache Flink Committer 任庆盛，在 9 月 24 日 Apache Flink Meetup 的分享。主要内容包括：

Flink CDC 技术对比与分析
Flink + Kafka 实时数据集成方案
Demo：Flink+Kafka 实现 CDC 数据的实时集成和实时分析

一、Flink CDC 技术对比与分析

1.1. 变更数据捕获（CDC）技术

Flink CDC+Kafka 加速业务实时化,kafka,flink,大数据,云计算

广义概念上，能够捕获数据变更的技术统称为 CDC（Change Data Capture）。通常我们说的 CDC 主要面向数据库的变更，是一种用于捕获数据库中数据变化的技术。

CDC 的主要应用有三个方面：

数据同步，通过 CDC 将数据同步到其他存储位置来进行异地灾备或备份。
数据分发，通过 CDC 将数据从一个数据源抽取出来后分发给下游各个业务方做数据处理和变换。
数据采集，使用 CDC 将源端数据库中的数据读取出来后，经过 ETL 写入数据仓库或数据湖。

Flink CDC+Kafka 加速业务实时化,kafka,flink,大数据,云计算

按照实现机制，CDC 可以分为两种类型：基于查询和基于日志的 CDC。基于查询的 CDC 通过定时调度离线任务的方式实现，一般为批处理模式，无法保证数据的实时性，数据一致性也会受到影响。基于日志的 CDC 通过实时消费数据库里的日志变化实现，如通过连接器直接读取 MySQL 的 binlog 捕获变更。这种流处理模式可以做到低延迟，因此更好地保障了数据的实时性和一致性。