【Spark】Spark运行时产生的临时目录的问题

这篇具有很好参考价值的文章主要介绍了【Spark】Spark运行时产生的临时目录的问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

今日发现下游用户spark 任务在我们的大数据集群上的 client 节点 /tmp 目录下产生了60G大量的临时文件。触发监控告警。

原理

Spark 默认使用 /tmp/spark* 作为临时目录以存储一些临时数据, 如果该默认路径所在的磁盘满了, 会出现报错

Failed to create local root dir in /tmp/spark

解决方案

方法一(推荐):

在 spark-submit 命令行加入如下配置

--conf spark.local.dir=/user/xxx/spark_tmp \

方法二:

修改spark执行时临时目录的配置,在 conf 目录下的spark-defaults.conf的配置文件,增加如下一行:

spark.local.dir=/user/xxx/spark_tmp

但是这种方法:修改的是全局的,别的用户没有这种问题,如果改了会对别的用户产生影响。

方法三:

配置spark-env.sh下增加:

export SPARK_LOCAL_DIRS=spark.local.dir /diskb/sparktmp,/diskc/sparktmp,/diskd/sparktmp,/diske/sparktmp,/diskf/sparktmp,/diskg/sparktmp

使用逗号隔开,如果spark-env.sh与spark-defaults.conf都配置,则SPARK_LOCAL_DIRS覆盖spark.local.dir 的配置

方法四:

在 .bashrc 或者 .zshrc 文件中设置 SPARK_LOCAL_DIRS 环境变量:文章来源地址https://www.toymoban.com/news/detail-463115.html

spark.local.dir=/user/xxx/spark_tmp

参考:

  1. https://blog.csdn.net/BDCHome/article/details/45396979
  2. https://blog.csdn.net/Eric_1993/article/details/107723211#:~:text=Spark%20%E9%BB%98%E8%AE%A4%E4%BD%BF%E7%94%A8%20%2Ftmp%2Fspark%2A%20%E4%BD%9C%E4%B8%BA%E4%B8%B4%E6%97%B6%E7%9B%AE%E5%BD%95%E4%BB%A5%E5%AD%98%E5%82%A8%E4%B8%80%E4%BA%9B%E4%B8%B4%E6%97%B6%E6%95%B0%E6%8D%AE%2C%20%E5%A6%82%E6%9E%9C%E8%AF%A5%E9%BB%98%E8%AE%A4%E8%B7%AF%E5%BE%84%E6%89%80%E5%9C%A8%E7%9A%84%E7%A3%81%E7%9B%98%E6%BB%A1%E4%BA%86%2C%20%E4%BC%9A%E5%87%BA%E7%8E%B0%E6%8A%A5%E9%94%99%20Failed%20to,%2Ftmp%2Fspark%201%20%E6%AD%A4%E6%97%B6%E6%8C%89%E7%85%A7%E5%8D%9A%E5%AE%A2%20Spark%E8%BF%90%E8%A1%8C%E5%9C%A8Standalone%E6%A8%A1%E5%BC%8F%E4%B8%8B%E4%BA%A7%E7%94%9F%E7%9A%84%E4%B8%B4%E6%97%B6%E7%9B%AE%E5%BD%95%E7%9A%84%E9%97%AE%E9%A2%98%20%E4%B8%AD%E7%9A%84%E5%A4%84%E7%90%86%E6%96%B9%E6%B3%95%2C%20%E5%8F%AF%E4%BB%A5%E5%9C%A8%E6%8F%90%E4%BA%A4%20Spark%20%E4%BB%BB%E5%8A%A1%E6%97%B6%E5%8A%A0%E4%B8%8A%E9%85%8D%E7%BD%AE%3A

到了这里,关于【Spark】Spark运行时产生的临时目录的问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • FPGA学习实践之旅——前言及目录

    很早就有在博客中记录技术细节,分享一些自己体会的想法,拖着拖着也就到了现在。毕业至今已经半年有余,随着项目越来越深入,感觉可以慢慢进行总结工作了。趁着2024伊始,就先开个头吧,这篇博客暂时作为汇总篇,记录在这几个月以及之后从FPGA初学者到也算有一定

    2024年02月03日
    浏览(58)
  • Linux设置临时目录路径的解决方案

      大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作

    2024年02月10日
    浏览(44)
  • 基础篇_快速入门(Java简介,安装JDK,cmd命令行运行Java文件产生乱码问题的解决方式,IDE工具,实用工具)

    Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今,Java 仍是企业和开发人员的首选开发平台,全球有数百万开发人员运行超过 51 亿台 Java 虚拟机。 它是 Java Virtual Machine 也就是 Java 虚拟机的缩写,它的职责是解释执

    2024年01月23日
    浏览(55)
  • 创建和运行 Ansible 临时命令

        作为系统管理员,您需要在受管节点上安装软件。     请按照正文所述,创建一个名为 /home/curtis/ansible/adhoc.sh 的 shell 脚本,该脚本将使用 Ansible 临时命令在各个受管节点上安装 yum 存储库:     存储库1:         存储库的名称为 EX294_BASE         描述为 EX294 base soft

    2024年02月12日
    浏览(53)
  • Clion配置C++程序用Android NDK编译,并用真机远程调试(临时目录和termux)

    :ndk, clion, cmake, usb, tcp, ssh, remote debug, remote gdb debug, termux, tabby 假设已经有了一个在windows下能正常编译运行的C++控制台程序,本文仅说明如何在windows下交叉编译到android并调试。C++库类似。 要点提示: 对于unity用户,建议用unity 2022自带的 ndk r23 。理论上可以用新版,但

    2024年02月21日
    浏览(58)
  • tp6的runtime/Logs目录下产生大量日记文件,怎么取消自动生成?

    一开始查了好多网上提供的,很幸运都是抄袭别人的,没一个成功,最后无奈只能自己解决方法 其实很简单,不用修改config/log.php文件,没用因为只要有登入错误,警告,消息或者sql错误都会写入 解决方法: 关闭调试模式 配置数据库文件  .env文件 true改为false即可  总结:

    2024年02月16日
    浏览(81)
  • pycharm中运行py文件时,报错:找不到自己编写的包等目录问题ModuleNotFoundError: No module named ‘xxx‘

    【 问题描述 】:pycharm中运行py文件时,报错:找不到自己编写的包等目录问题 【 报错 】: ModuleNotFoundError: No module named ‘xxx’ ERROR: file not found 【 问题定位 】:运行的py文件和用到的包或者数据不在同一个文件目录下时,就会找不到这些数据的路径 【 解决办法 】: 1)修改

    2024年02月15日
    浏览(51)
  • oracle修改临时表出现已使用的事务正在处理临时表问题

    错误提示: ORA-14450:试图访问已经在使用的事务处理临时表 解决方法: 通过第一句sql来查找临时表的object_id ,然后代入第二局sql来生成第三句sql语句。 最后再执行第三句sql语句即可kill session,执行修改表的操作。

    2024年02月12日
    浏览(31)
  • 如何安全的清理/var 下的docker临时文件,在不停用docker正在运行的容器情况下

    在不停止正在运行的 Docker 容器的情况下清理 `/var` 目录下的临时文件有一定的风险,因为这可能导致正在运行的容器出现问题。然而,你可以尝试以下方法来减小对正在运行的容器的影响: 1. 删除悬空镜像: 悬空镜像是没有与任何容器关联的镜像。你可以运行以下命令来删

    2024年02月09日
    浏览(61)
  • 【优选算法专栏】专题十六:BFS解决最短路问题---前言

    本专栏内容为:算法学习专栏,分为优选算法专栏,贪心算法专栏,动态规划专栏以及递归,搜索与回溯算法专栏四部分。 通过本专栏的深入学习,你可以了解并掌握算法。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:算法从入门到精通 🚚代码仓库:小小unicorn的代码仓库

    2024年04月15日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包