flink 从savepoint、checkpoint中恢复数据

这篇具有很好参考价值的文章主要介绍了flink 从savepoint、checkpoint中恢复数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

提示:flink checkpoint重启:

  flink作业因为故障导致restart strategy失败或升级flink版本重新发布任务,这时就需要从最近的checkpoint恢复。一般而言有两种方案,第一种方案是开启checkpoint且任务取消时不删除checkpoint(调整参数execution.checkpointing.externalized-checkpoint-retention),第二种方案是定时触发savepoint(编写代码调用flink rest api)。

一、savepoint是什么?

   checkpoint的生命周期由flink来管理,flink负责checkpoint的创建、维护和释放,过程中没有与用户交互。与checkpoint不同,savepoint则由用户来创建、维护和删除的,savepoint是事先规划好的、手动备份并用于恢复。
  Savepoint 由两部分组成:稳定存储(例如 HDFS…) 上包含二进制文件的目录(通常很大),和元数据文件(相对较小)。 稳定存储上的文件表示作业执行状态的数据镜像。 Savepoint 的元数据文件以(相对路径)的形式包含(主要)指向作为 Savepoint 一部分的稳定存储上的所有文件的指针。

二、如何从savepoint/checkpoint中恢复数据

  savepoint/checkpoint恢复逻辑是一致的,即保存一份快照数据,重启作业时从快照数据重启

1.flink sql流作业

从kafka消费数据写入hive分区表中,采用的flink on yarn模式

CREATE TABLE kafka_flinkSqlTest(
  f1 STRING,
  f2 STRING
) WITH (
  'connector' = 'kafka',
  'topic' = 'dataflowcz',
  'properties.bootstrap.servers' = '172.18.26.218:9092',
  'properties.group.id' = 'testGroup3',
  'scan.startup.mode' = 'latest-offset',
  'format' = 'json'
);



create catalog myhive with (
  'type' = 'hive',
  'hive-conf-dir' = 'hdfs://lab-cdh-ylxx0:8020/bdops'
);

use catalog myhive;
-- 切换到hive方言
SET 'table.sql-dialect' = 'hive';
create table IF NOT EXISTS cmdata.test1 (
  f1 string,
  f2 string
) partitioned by (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n' stored as TEXTFILE tblproperties(
'sink.partition-commit.policy.kind'='metastore,success-file'
);

insert into cmdata.test1
select 
 f1
,f2
,'20230228'
from default_catalog.default_database.kafka_flinkSqlTest;

2.查看flink web ui

flink 从savepoint、checkpoint中恢复数据,flink,flink,大数据,kafka
job id为cc1b4809b520d9f85e6f70a6613aeda3
yarn application id 为application_1676268563167_0325

3.手动停止作业并设置savepoint

./flink stop cc1b4809b520d9f85e6f70a6613aeda3 -yid application_1676268563167_0325 -p hdfs://lab-cdh-ylxx0:8020/flink/taskname/savepoint

flink 从savepoint、checkpoint中恢复数据,flink,flink,大数据,kafka

4.查看生成的文件

flink 从savepoint、checkpoint中恢复数据,flink,flink,大数据,kafka
元数据文件(_metadata)

5.添加参数,进行作业恢复

set '$internal.pipeline.job-id' = 'cc1b4809b520d9f85e6f70a6613aeda3'; --设置作业id
set 'execution.savepoint.path' = 'hdfs://lab-cdh-ylxx0:8020/flink/taskname/savepoint/savepoint-cc1b48-0c6ecbef25f9';-- 设置恢复路径
set 'execution.savepoint.ignore-unclaimed-state' = 'true'; --允许跳过无法还原的保存点状态

flink 从savepoint、checkpoint中恢复数据,flink,flink,大数据,kafka
查看flink web ui:
flink 从savepoint、checkpoint中恢复数据,flink,flink,大数据,kafka文章来源地址https://www.toymoban.com/news/detail-685527.html


到了这里,关于flink 从savepoint、checkpoint中恢复数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包