spark集群问题汇总-Toy模板网

这篇具有很好参考价值的文章主要介绍了spark集群问题汇总。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、磁盘问题

问题描述	可能原因	解决措施
core节点磁盘不足, 并且持续增加	未开启spark-history的日志清理	打开日志清理: spark.history.fs.cleaner.enabled
task节点磁盘不足	APP应用使用磁盘过大: 1. 严重的数据倾斜 2. 应用本身数据量大	1. 解决数据倾斜 2. 加大资源, 增加excutor的数量, 分散压力

问题描述

可能原因

解决措施

core节点磁盘不足, 并且持续增加

未开启spark-history的日志清理

打开日志清理:

spark.history.fs.cleaner.enabled

task节点磁盘不足

APP应用使用磁盘过大:

1. 严重的数据倾斜

2. 应用本身数据量大

1. 解决数据倾斜

2. 加大资源, 增加excutor的数量, 分散压力

二、spark-history问题

1. CPU问题

historyserver由于内存不足(大量fullgc)导致CPU使用上涨, 处理方法如下:

开启日志清理;
缩短日志生命周期;
开启日志压缩;
调高日志的输出级别;
增加服务的资源;
调高日志合并频次;

2. 内存问题

1) 老年代内存使用率不断累计上升

开源Spark的bug:

a) 解析Executor Host的时候，会有cache，由于扩缩容，会一直有新的Executor，cache会慢慢变大

b) org.sparkproject.jetty.util.log.Slf4jLog 这个会保留部分解析过的Event的在map里，没有设置清除机制

三、参数未生效

保存失败;

参数错误;

时间未到;

没有重启;

二十、其它问题

1. 调度端异常退出后yarn上spark任务不结束

spark yarn-client模型下，am和driver第一次建立连接之前，driver退出的话，就会出现am一直运

行不结束的问题, 这是yarn-client模式下极偶发会触发的一个开源 bug.

https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/faq-6?spm=a2c4g.11186623.0.0.56755530spT8Xi
文章来源地址https://www.toymoban.com/news/detail-697699.html

到了这里，关于spark集群问题汇总的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！