如何排查 Flink Checkpoint 失败问题？

这篇具有很好参考价值的文章主要介绍了如何排查 Flink Checkpoint 失败问题？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

这是 Flink 相关工作中最常出现的问题，值得大家搞明白。

图有点问题，因为都是成功没失败的，尴尬了。

如何排查 Flink Checkpoint 失败问题？,大数据,flink,java,大数据

借图：

如何排查 Flink Checkpoint 失败问题？,大数据,flink,java,大数据

方法很多，这里看自己习惯和公司提供的系统。

比如下一种情况：

用户代码逻辑没有对于异常处理，让其直接在运行中抛出。比如解析 Json 异常，没有捕获，导致 Checkpoint失败，或者调用 Dubbo 超时异常等等。
依赖外部存储系统，在进行数据交互时，出错，异常没有处理。比如输出数据到 Kafka、Redis、HBase等，客户端抛出了超时异常，没有进行捕获，Flink 任务容错机制会再次重启。
内存不足，频繁GC，超出了 GC 负载的限制。比如 OOM 异常
网络问题、机器不可用问题等等。

Checkout 在 Flink 中非常重要，其他指标大家也需要多关注。

如何排查 Flink Checkpoint 失败问题？,大数据,flink,java,大数据