Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager

这篇具有很好参考价值的文章主要介绍了Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新软件测试全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式
Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式
Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式
Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式
Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上软件测试知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024b (备注软件测试)
Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式

正文

Spark on Yarn 参数调优-计算方式

1. 整理机器信息

机器数: 3台

查看物理CPU个数

cat /proc/cpuinfo| grep “physical id”| sort| uniq| wc -l
或grep ‘physical id’ /proc/cpuinfo | sort -u | wc -l
每台机器核数:8核

查看每个物理CPU中core的个数(即核数)

cat /proc/cpuinfo| grep “cpu cores”| uniq
或者grep ‘core id’ /proc/cpuinfo | sort -u | wc -l
每台机器都是单核处理器

查看逻辑CPU的个数

cat /proc/cpuinfo| grep “processor”| wc -l
或者grep ‘processor’ /proc/cpuinfo | sort -u | wc -l
每台机器核数:8核

查看CPU信息(型号)

cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c
查看结果:8 Intel® Xeon® CPU E5-2630 v4 @ 2.20GHz

内存自由状态信息

master : 22 当做20
worker1: 26 当做25
worker2: 26 当做25

Top命令 查看内存信息

Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式

Free -h命令 查看内存信息(人性化显示)
cdh-master

Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式

cdh-worker1

Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式

cdh-worker2

Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式

计算参考因素

2.1 Yarn ApplicationMaster(AM):

AM负责从ResourceManager申请资源,与NodeManager进行通信启动/停
止任务,监控资源的使用。在Yarn上执行Spark也要考虑AM所需资源(1G
和 1个Executor)。

2.2 HDFS Throughput:

HDFS Client有多个并发线程写的问题,HDFS每个Executor的使用5个任
务就可获取完全并发写。因此最好每个Executor的cores不高于5.

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024b (备注软件测试)
Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager,2024年程序员学习,spark,大数据,分布式

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
-1713161028969)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!文章来源地址https://www.toymoban.com/news/detail-858317.html

到了这里,关于Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • (超详细)Spark on Yarn安装配置

    1,前期准备 使用 root 用户完成相关配置,已安装配置Hadoop 及前置环境 2,spark上传解压到master服务器 3,修改环境变量  /etc/profile末尾添加下面代码 4,环境变量生效 5,运行spark-submit --version 显示如下 6,修改saprk-env.sh文件   在.../spark-3.1.1-bin-hadoop3.2/conf目录下,将下面两行

    2024年03月21日
    浏览(43)
  • Spark on Yarn模式下执行过程

    Driver Application启动 Driver Application启动:用户提交的Spark Application在YARN上启动一个ApplicationMaster(即Driver Application)进程来管理整个应用程序的生命周期,并向ResourceManager请求资源。 获得资源 Driver Application向ResourceManager请求可用的资源(CPU核数、内存等),并等待接收到资源

    2024年02月01日
    浏览(48)
  • 【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

    环境准备 git-2.14.1 maven-3.9.2 jdk-1.8 scala-2.11.8 zinc-0.3.15 主下载地址 spark-2.3.4 github官方地址 编译准备 maven远程仓库使用的是阿里云的 解压源码包 spark-2.3.4.zip ,修改根模块的pom文件。主要目的是为了变更hadoop的版本号,默认是 2.6.5 。 修改 spark-2.3.4devmake-distribution.sh 文件 主要是

    2024年02月13日
    浏览(54)
  • Spark on Yarn集群模式搭建及测试

    🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 点击传送:大数据学习专栏 持续更新中,感谢各位前辈朋友们支持学习~ Apache Spark是一个快速的、通用的大数据处理框架,它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源

    2024年02月11日
    浏览(45)
  • Spark on YARN 部署搭建详细图文教程

    目录 一、引言  二、SparkOnYarn 本质 2.1 Spark On Yarn 的本质? 2.2 Spark On Yarn 需要啥? 三、配置 spark on yarn 环境 3.1 spark-env.sh  3.2 连接到 YARN 中 3.2.1 bin/pyspark 3.2.2 bin/spark-shell 3.2.3 bin/spark-submit (PI) 四、部署模式 DeployMode  4.1 Cluster 模式 4.2 Client 模式 4.3 两种模式的区别  4.4 测试

    2024年02月06日
    浏览(39)
  • Spark On YARN时指定Python版本

    坑很多,直接上兼容性最佳的命令,将python包上传到 hdfs 或者 file:/home/xx/ (此处无多余的 / ) 具体细节 关于 Python包 打包可以参考 https://www.jianshu.com/p/d77e16008957,https://blog.csdn.net/sgyuanshi/article/details/114648247 非官方的python,比如 anaconda的python可能会有坑 ,所以最好先用官方版本

    2023年04月18日
    浏览(37)
  • Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建

    搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联,都是从零开始搭建。 如果将文章中的配置文件修改内容复制粘贴的话,所有配置文件添加的内容后面的注释记得删除,可能会报错。保险一点删除最好。 上传安装包解压并重命名 rz上传 如果没有安装rz可以使用命

    2024年02月06日
    浏览(76)
  • spark on yarn 的 executor、cores、driver 作用及配置

    参数意义 spark on yarn 的常用提交命令如下: num-executors 指要使用的 executor 的数量。 executor-memory 指每个 executor 分配的内存大小。 executor-cores 指每个 executor 的分配的 cpu core 数量。 driver-memory 指 driver 分配的内存大小。 提交的应用程序在 AM 中运行起来就是一个 driver,它构建

    2023年04月09日
    浏览(37)
  • Spark 参数调优

    目录 Spark 调优 一、代码规范 1.1 避免创建重复 RDD 1.2 尽量复用同一个 RDD 1.3 多次使用的 RDD 要持久化 1.4 使用高性能算子 1.5 好习惯 二、参数调优 资源参数 1.1 --num-executors 100 1.2 --executor-memory 5g 1.3 --executor-cores 4 1.4 --driver-memory 内存参数 spark.storage.memoryFraction、spark.shuffle.memor

    2024年04月11日
    浏览(28)
  • Spark参数配置和调优,Spark-SQL、Config

    一、Hive-SQL / Spark-SQL参数配置和调优 二、shell脚本spark-submit参数配置 三、sparkSession中配置参数

    2024年02月13日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包