基于流计算 Oceanus（Flink） CDC 做好数据集成场景

9月前作者：每天都要加加油王得坤分类：Toy博客阅读(35) 违法举报

这篇具有很好参考价值的文章主要介绍了基于流计算 Oceanus（Flink） CDC 做好数据集成场景。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

由于第一次做实时，所以踩坑比较多，见谅(测试环境用的flink),小公司没有用到hadoop组件

一、踩坑记录

1:本地代码的flink版本是flink1.15.4，生产环境是flink1.16.1，在使用侧输出流时报错，需要使用以下写法,需要使用SideOutputDataStream不能用DataStream，同时将pom下的flink版本切换为1.16.1

SideOutputDataStream<String> tblHotelGuestSnapStreamDS = processedDS.getSideOutput(tblHotelGuestSnaptag);

2: Oceanus环境运行flink时候会默认使用RocksDB State Backend,不需要再手动配置检查点

3:可以利用checkpoint检查点来保证数据的端到端一致

4:打包可以使用maven协助打包基于流计算 Oceanus（Flink） CDC 做好数据集成场景,flink,笔记

5: bin/start-cluster.sh启动后测试环境的8081无法访问,需要修改flink-conf.yml的属性rest.bind-address: 0.0.0.0和rest.bind-port: 8081和rest.port: 8081,之后重启就可以访问

6.mysql时间字段是datetime类型格式，使用默认的json序列化器会将时间格式转换成时间戳格式，最后写入starrocks后发现写入没有报错，但是时间字段为空，需要自定义序列化器，将时间戳格式数据转换成时间格式即可

7.flink读取mysql写入starrocks发现写入starrocks延迟很高，但是直接打印发现数据基本秒到，发现是检查点的问题，需要降低检查点的时间大小文章来源地址https://www.toymoban.com/news/detail-672494.html

到了这里，关于基于流计算 Oceanus（Flink） CDC 做好数据集成场景的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

基于 Flink CDC 的现代数据栈实践

摘要：本文整理自阿里云技术专家，Apache Flink PMC Member Committer, Flink CDC Maintainer 徐榜江和阿里云高级研发工程师，Apache Flink Contributor Flink CDC Maintainer 阮航，在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为四个部分： 1.深入解读 Flink CDC 2.3 版本 2.基于 Flink CDC 构建

2024年02月09日
浏览(42)
基于Flink CDC实时同步数据（MySQL到MySQL）

jdk8 Flink 1.16.1（部署在远程服务器：192.168.137.99） Flink CDC 2.3.0 MySQL 8.0（安装在本地：192.168.3.31）（安装部署过程略）准备三个数据库：flink_source、flink_sink、flink_sink_second。将flink_source.source_test表实时同步到flink_sink和flink_sink_second的sink_test表。（建库建表过程略）开发过程

2024年02月06日
浏览(104)
基于 Flink SQL CDC 数据处理的终极武器

来源互联网多篇文章总结业务系统经常会遇到需要更新数据到多个存储的需求。例如：一个订单系统刚刚开始只需要写入数据库即可完成业务使用。某天 BI 团队期望对数据库做全文索引，于是我们同时要写多一份数据到 ES 中，改造后一段时间，又有需求需要写入到 Redis 缓存

2024年02月16日
浏览(36)
基于 Flink CDC 构建 MySQL 到 Databend 的实时数据同步

这篇教程将展示如何基于 Flink CDC 快速构建 MySQL 到 Databend 的实时数据同步。本教程的演示都将在 Flink SQL CLI 中进行，只涉及 SQL，无需一行 Java/Scala 代码，也无需安装 IDE。假设我们有电子商务业务，商品的数据存储在 MySQL ，我们需要实时把它同步到 Databend 中。接下来的内容

2024年02月10日
浏览(53)
基于Flink SQL CDC Mysql to Mysql数据同步

Flink CDC有两种方式同步数据库：一种是通过FlinkSQL直接输入两表数据库映射进行数据同步，缺点是只能单表进行同步；一种是通过DataStream开发一个maven项目，打成jar包上传到服务器运行。本方案使用FlinkSQL方法，同步两表中的数据。其中Flink应用可以部署在具有公网IP的服务

2023年04月11日
浏览(77)
基于 Dinky + FlinkSQL + Flink CDC 同步 MySQL 数据到 Elasticsearch、Kafka

Dinky 是一个开箱即用的一站式实时计算平台以 Apache Flink 为基础，连接 OLAP 和数据湖等众多框架致力于流批一体和湖仓一体的建设与实践。本文以此为FlinkSQL可视化工具。 Flink SQL 使得使用标准 SQL 开发流式应用变得简单，免去代码开发。 Flink CDC 本文使用 MySQL CDC 连接器允许从

2024年02月16日
浏览(46)
【大数据】基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL

这篇教程将展示如何基于 Flink CDC 快速构建 MySQL 和 Postgres 的流式 ETL。本教程的演示都将在 Flink SQL CLI 中进行，只涉及 SQL，无需一行 Java / Scala 代码，也无需安装 IDE。假设我们正在经营电子商务业务，商品和订单的数据存储在 MySQL 中，订单对应的物流信息存储在 Postgres 中。

2024年02月03日
浏览(43)
flink 1.13.x集成 CDC 2.3.0

原因 https://github.com/ververica/flink-cdc-connectors/pull/1407 简单讲，Flink 运行机器时区和Mysql Server 时区不匹配， database.serverTimezone 配置配置影响具体代码可以查看CDC com.ververica.cdc.connectors.mysql.MySqlValidator#checkTimeZone 解决办法手动指定下Flink 运行的时区，和连接的数据库时区信息保持

2024年02月16日
浏览(37)
11 flink-sql 中基于 mysql-cdc 连接 mysql-pxc 集群无法获取增量数据问题

问题是来自于群友, 2024.03.29, 也是花了一些时间来排查这个问题大致的问题是用 mysql-cdc 连接了一个 mysql-pxc 集群, 然后创建了一个 test_user 表使用 \\\"select * from test_user\\\" 获取数据表的数据, 可以拿到查询时的快照, 但是无法获取到后续对于 test_user 表的增量操作的数据, 比如

2024年04月15日
浏览(53)
Flink CDC、OGG、Debezium等基于日志开源CDC方案对比

先上一张图，后面再慢慢介绍： CDC 的全称是 Change Data Capture ，在广义的概念上，只要能捕获数据变更的技术，我们都可以称为 CDC 。我们目前通常描述的CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。基于查询的 CDC：优点是实现简单，是通过

2024年02月10日
浏览(51)