摘要:本文整理自阿里云技术专家,Apache Flink PMC Member & Committer, Flink CDC Maintainer 徐榜江和阿里云高级研发工程师,Apache Flink Contributor & Flink CDC Maintainer 阮航,在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为四个部分:
1.深入解读 Flink CDC 2.3 版本
2.基于 Flink CDC 构建现代数据栈
3.阿里云内部实践和改进
4.Demo & 未来规划
一、深入解读 Flink CDC 2.3 版本
1.1 Flink CDC
首先介绍一下 Flink CDC 技术。Flink CDC 是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。
如上图所示,在数据库中,我们有历史的全量数据,也有实时的增量数据。比如上游有业务系统在源源不断实时写入数据,Flink CDC 技术的能力就是将全量数据和增量数据无缝集成到 Flink 引擎中,为下游应用提供实时的一致性快照。
1.2 Flink CDC 2.3 基本介绍
2022 年 11 月 10 日,Flink CDC 社区发布了 2.3 版本。 此版本的贡献者共有 49 位,解决了 126 个 issue,合并的 PR 达到 133 个;合并的 commits 达到 173 个。
在 Flink CDC 2.3 版本中,我们按代码的贡献模块进行了划分。其中 MySQL 占比最高达到了 24%,Oracle 占 15%,MongoDB 占 7%,TiDB 占 7%,包含全量框架的 Base 模块占比 11%。此外文档的贡献也占有 22%的比例,其中包括新增了很多中文文档和视频教程,这些文档的目的就是为了帮助用户特别是中文用户更好地使用 Flink CDC。
1.3 Flink CDC 2.3 技术改进
以下是 Flink CDC 2.3 版本中主要新特性和改进,包括:
- 支持了 Db2 数据源。
- Oracle CDC 支持增量快照。
- MongoDB CDC 支持增量快照。
- MySQL CDC 支持指定位点。
- MySQL CDC 性能优化。
- OceanBase CDC 支持了 OceanBase 的全部数据类型。
- 兼容 Flink 1.15 & 1.16 两个大版本。
- 提供中文文档及视频教程支持。
1.4 Flink CDC 2.3 核心特性解读
在 Flink CDC 2.3 版本中,有四大核心特性值得深入介绍:
- 新增 Db2 数据源支持。
- MySQL CDC 稳定性提升。
- Oracle CDC 支持增量快照读取。
- MongoDB CDC 支持增量快照读取。
下面将为大家进行详细讲解。
文章来源:https://www.toymoban.com/news/detail-493189.html
第一部分,Db2 CDC 连接器。Db2 数据库在国内外都有很多用户在使用,社区用户反馈的声音也比较文章来源地址https://www.toymoban.com/news/detail-493189.html
到了这里,关于基于 Flink CDC 的现代数据栈实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!