(超详细)Spark on Yarn安装配置

这篇具有很好参考价值的文章主要介绍了(超详细)Spark on Yarn安装配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1,前期准备

使用 root 用户完成相关配置,已安装配置Hadoop 及前置环境

2,spark上传解压到master服务器

3,修改环境变量

 /etc/profile末尾添加下面代码

export SPARK_HOME=.../spark-3.1.1-bin-hadoop3.2(注意:需要替换成你自己得路径)
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

4,环境变量生效

source /etc/profile

5,运行spark-submit --version

显示如下

spark on yarn安装配置,大数据比赛,数据分析-工具使用,spark,大数据,分布式

6,修改saprk-env.sh文件

  在.../spark-3.1.1-bin-hadoop3.2/conf目录下,将下面两行添加至spark-env.sh文件末尾:

HADOOP_CONF_DIR=.../hadoop-3.1.3/etc/hadoop
YARN_CONF_DIR=.../hadoop-3.1.3/etc/hadoop

7,运行计算Pi的jar包

 命令如下:

spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-example_2.11-2.1.1.jar

 结果显示如下:

spark on yarn安装配置,大数据比赛,数据分析-工具使用,spark,大数据,分布式

8,注意

如果报内存大小错误,修改yarn-site.xml,设置虚拟内存,至少是物理内存的4倍

spark on yarn安装配置,大数据比赛,数据分析-工具使用,spark,大数据,分布式文章来源地址https://www.toymoban.com/news/detail-841977.html

到了这里,关于(超详细)Spark on Yarn安装配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档

    Grafana 是一款开源的数据可视化工具,使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。 解压 配置 mapping 文件 修改spark的metrics.properties配置文件,让其推送metrics到Graphite_exporter namenode.yaml datanode.yaml 配置 hadoop-env.sh yarn.yaml 配置 ya

    2023年04月21日
    浏览(54)
  • kyuubi整合spark on yarn

    目标: 1.实现kyuubi spark on yarn 2.实现 kyuubi spark on yarn 资源的动态分配 注意:版本 kyuubi 1.8.0 、 spark 3.4.2 、hadoop 3.3.6 前置准备请看如下文章 文章 链接 hadoop一主三从安装 链接 spark on yarn 链接 官网下载地址 官方文档 修改配置文件 三千五百万 主键id单笔获取 非主键 count 测试 差

    2024年04月08日
    浏览(37)
  • Spark on Yarn模式下执行过程

    Driver Application启动 Driver Application启动:用户提交的Spark Application在YARN上启动一个ApplicationMaster(即Driver Application)进程来管理整个应用程序的生命周期,并向ResourceManager请求资源。 获得资源 Driver Application向ResourceManager请求可用的资源(CPU核数、内存等),并等待接收到资源

    2024年02月01日
    浏览(47)
  • Spark On Yarn的两种运行模式

    Spark On YARN是有两种运行模式:Cluster模式、Client模式 Cluster模式:Driver运行在YARN容器内部,和ApplicationMaster在同一个容器内。 Client模式即:Driver运行在客户端进程中,比如Driver运行在spark-submit程序的进程中。 Client模式详细流程 YARN Client模式下,Driver在任务提交的本地机器上运

    2024年02月02日
    浏览(50)
  • Spark on Yarn集群模式搭建及测试

    🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 点击传送:大数据学习专栏 持续更新中,感谢各位前辈朋友们支持学习~ Apache Spark是一个快速的、通用的大数据处理框架,它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源

    2024年02月11日
    浏览(45)
  • Spark On YARN时指定Python版本

    坑很多,直接上兼容性最佳的命令,将python包上传到 hdfs 或者 file:/home/xx/ (此处无多余的 / ) 具体细节 关于 Python包 打包可以参考 https://www.jianshu.com/p/d77e16008957,https://blog.csdn.net/sgyuanshi/article/details/114648247 非官方的python,比如 anaconda的python可能会有坑 ,所以最好先用官方版本

    2023年04月18日
    浏览(37)
  • 【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

    环境准备 git-2.14.1 maven-3.9.2 jdk-1.8 scala-2.11.8 zinc-0.3.15 主下载地址 spark-2.3.4 github官方地址 编译准备 maven远程仓库使用的是阿里云的 解压源码包 spark-2.3.4.zip ,修改根模块的pom文件。主要目的是为了变更hadoop的版本号,默认是 2.6.5 。 修改 spark-2.3.4devmake-distribution.sh 文件 主要是

    2024年02月13日
    浏览(54)
  • Spark on Yarn 部署模式运行常用参数和认证参数理解

    Spark支持以下三种部署模式 Client模式:在Client模式下,驱动程序运行在提交应用程序的客户端上。应用程序使用集群中的资源来执行任务。 这种模式适用于开发和调试应用程序,因为它允许开发人员与驱动程序交互并查看应用程序的输出。 Cluster模式:在Cluster模式下,驱动程

    2024年02月06日
    浏览(75)
  • Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建

    搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联,都是从零开始搭建。 如果将文章中的配置文件修改内容复制粘贴的话,所有配置文件添加的内容后面的注释记得删除,可能会报错。保险一点删除最好。 上传安装包解压并重命名 rz上传 如果没有安装rz可以使用命

    2024年02月06日
    浏览(76)
  • hive on spark 时,executor和driver的内存设置,yarn的资源设置

    hive on spark 时,executor和driver的内存设置,yarn的资源设置。 在使用Hive on Spark时,需要进行以下三个方面的内存和资源设置: Executor的内存设置 在使用Hive on Spark时,需要根据数据量和任务复杂度等因素,合理地设置每个Executor的内存大小。通常情况下,每个Executor需要留一部分

    2024年02月16日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包