Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

这篇具有很好参考价值的文章主要介绍了Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、在master虚拟机上安装配置Spark
1.1 将spark安装包上传到master虚拟机
下载Spark:pyw2
进入/opt目录,查看上传的spark安装包
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

1.2 将spark安装包解压到指定目录
执行命令: tar -zxvf spark-3.3.2-bin-hadoop3.tgz
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

修改文件名:mv spark-3.3.2-bin-hadoop3 spark-3.3.2
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

1.3 配置spark环境变量
执行命令:vim /etc/profile
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

export SPARK_HOME=/opt/spark-3.3.2
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

存盘退出后,执行命令:source /etc/profile,让配置生效
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

查看spark安装目录(bin、sbin和conf三个目录很重要)
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

1.4 编辑spark环境配置文件
进入spark配置目录后,执行命令:cp spark-env.sh.template spark-env.sh与vim spark-env.sh
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

添加三行语句
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

export JAVA_HOME=/usr/java/jdk1.8.0_333-amd64
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

存盘退出,执行命令:source spark-env.sh,让配置生效
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

1.5 创建slaves文件,添加从节点
执行命令:vim slaves,添加两个从节点主机名
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

二、在slave1虚拟机上安装配置Spark
2.1 把master虚拟机上安装的spark分发给slave1虚拟机
执行命令:scp -r S P A R K H O M E r o o t @ s l a v e 1 : SPARK_HOME root@slave1: SPARKHOMEroot@slave1:SPARK_HOME
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

2.2 将master虚拟机上环境变量配置文件分发到slave1虚拟机
在master虚拟机上,执行命令:scp /etc/profile root@slave1:/etc/profile

Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

在slave1虚拟机上,执行命令:source /etc/profile,让环境配置生效

Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

2.3 在slave1虚拟机上让spark环境配置文件生效
在slave1虚拟机上,进入spark配置目录,执行命令:source spark-env.sh
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

三、在slave2虚拟机上安装配置Spark
3.1 把master虚拟机上安装的spark分发给slave2虚拟机
执行命令:scp -r S P A R K H O M E r o o t @ s l a v e 2 : SPARK_HOME root@slave2: SPARKHOMEroot@slave2:SPARK_HOME
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

3.2 把master虚拟机上环境变量配置文件分发到slave2虚拟机
在master虚拟机上,执行命令:scp /etc/profile root@slave2:/etc/profile
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

在slave2虚拟机上,执行命令:source /etc/profile,让环境配置生效

Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

3.3 在slave2虚拟机上让spark环境配置文件生效
在slave2虚拟机上,进入spark配置目录,执行命令:source spark-env.sh

Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群
四、启动Spark Standalone集群
4.1 启动hadoop的dfs服务
在master虚拟机上执行命令:start-dfs.sh
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

4.2 启动Spark集群
执行命令:start-all.sh
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

五、访问Spark的WebUI
在浏览器里访问http://master:8080
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

在浏览器访问http://slave1:8081
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

在浏览器访问http://slave2:8081
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

六、启动Scala版Spark Shell
执行命令:spark-shell --master spark://master:7077 (注意–master,两个-不能少)
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

在/opt目录里执行命令:vim test.txt

Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

在HDFS上创建park目录,将test.txt上传到HDFS的/park目录
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

读取HDFS上的文件,创建RDD,执行命令:val rdd = sc.textFile(“hdfs://master:9000/park/test.txt”)(说明:val rdd = sc.textFile(“/park/test.txt”)读取的依然是HDFS上的文件,绝对不是本地文件)
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

收集rdd的数据,执行命令:rdd.collect
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

进行词频统计,按单词个数降序排列,执行命令:val wordcount = rdd.flatMap(.split(" ")).map((, 1)).reduceByKey(_ + ).sortBy(._2, false)与wordcount.collect.foreach(println)
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

七、提交Spark应用程序
7.1 提交语法格式
Spark提供了一个客户端应用程序提交工具spark-submit,使用该工具可以将编写好的Spark应用程序提交到Spark集群。
spark-submit的使用格式如下:$ bin/spark-submit [options] [app options]
options表示传递给spark-submit的控制参数;
app jar表示提交的程序JAR包(或Python脚本文件)所在位置;
app options表示jar程序需要传递的参数,例如main()方法中需要传递的参数。
7.2 spark-submit常用参数
除了–master参数外,spark-submit还提供了一些控制资源使用和运行时环境的参数。
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

7.3 案例演示 - 提交Spark自带的圆周率计算程序
进入Spark安装目录
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群
(1)Standalone模式,采用client提交方式
执行下述命令,将Spark自带的求圆周率的程序提交到集群

bin/spark-submit \
 --class org.apache.spark.examples.SparkPi \
 --master spark://master:7077 \
 ./examples/jars/spark-examples_2.12-3.3.2.jar 

Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

(2)Standalone模式,采用cluster提交方式

bin/spark-submit \
--master spark://master:7077 \
--deploy-mode cluster \
--class org.apache.spark.examples.SparkPi \
--driver-memory 512m \
--executor-memory 1g \
--executor-cores 2 \
./examples/jars/spark-examples_2.12-3.3.2.jar

执行命令后,看到State of driver-20230406114733-0000 is RUNNING,就表明运行成功~,否则会显示State of driver-20230406114733-0000 is FAILED
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

在Spark WebUI界面上查看运行结果,访问http://master:8080
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

单击圈红的Worker超链接 - worker-20230406114652-192.168.1.102-36708
Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

单击stdout超链接,可以查看到Pi的计算结果

Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

八、停止Spark集群服务
在master节点执行命令:stop-all.sh文章来源地址https://www.toymoban.com/news/detail-492044.html

到了这里,关于Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark大数据处理学习笔记(2.4)IDEA开发词频统计项目

    该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/0qE1L】 从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html 安装在默认位置 安装完毕 在命令行窗口查看Scala版本(必须要配置环境变量) 启动HDFS服务 启动Spark集群 在master虚拟机上创建单词文件

    2024年02月08日
    浏览(57)
  • Spark大数据处理讲课笔记3.7 Spark任务调度

    理解DAG概念 了解Stage划分 了解RDD在Spark中的运行流程 DAG(Directed Acyclic Graph) 叫做 有向无环图 ,Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。DAG是一种非常重要的图论数据结构。如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图就

    2024年02月09日
    浏览(51)
  • 大数据技术原理与应用 实验6 Spark数据处理系统的搭建

    熟悉常用的Spark操作。 1.熟悉Spark Shell的使用; 2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。 操作系统:Linux Spark版本: 1.6 Hadoop版本: 3.3.0 JDK版本:1.8 使用Spark shell完成如下习题: a)读取Spark安装目录下的文件README.md(/usr/local/spark/README.md); b)统计包含“Spark”的单词

    2024年02月09日
    浏览(62)
  • Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

      目录 零、本讲学习目标 一、Spark SQL (一)Spark SQL概述 (二)Spark SQL功能 (三)Spark SQL结构 1、Spark SQL架构图 2、Spark SQL三大过程 3、Spark SQL内部五大组件 (四)Spark SQL工作流程 (五)Spark SQL主要特点 1、将SQL查询与Spark应用程序无缝组合 2、Spark SQL以相同方式连接多种数据

    2024年02月09日
    浏览(64)
  • Spark大数据处理讲课笔记---Spark RDD典型案例

    利用RDD计算总分与平均分 利用RDD统计每日新增用户 利用RDD实现分组排行榜 针对成绩表,计算每个学生总分和平均分   读取成绩文件,生成lines;定义二元组成绩列表;遍历lines,填充二元组成绩列表;基于二元组成绩列表创建RDD;对rdd按键归约得到rdd1,计算总分;将rdd1映射

    2024年02月06日
    浏览(50)
  • Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作

      目录 零、本讲学习目标 一、基本操作 二、默认数据源 (一)默认数据源Parquet (二)案例演示读取Parquet文件 1、在Spark Shell中演示 2、通过Scala程序演示 三、手动指定数据源 (一)format()与option()方法概述 (二)案例演示读取不同数据源 1、读取房源csv文件 2、读取json,保

    2024年02月09日
    浏览(44)
  • Spark大数据处理讲课笔记--- RDD持久化机制

    理解RDD持久化的必要性 了解RDD的存储级别 学会如何查看RDD缓存 Spark中的RDD是懒加载的,只有当遇到行动算子时才会从头计算所有RDD,而且当同一个RDD被多次使用时,每次都需要重新计算一遍,这样会严重增加消耗。为了避免重复计算同一个RDD,可以将RDD进行持久化。 Spark中

    2024年02月06日
    浏览(44)
  • 数据挖掘(2.2)--数据预处理

    目录   二、数据描述 1.描述数据中心趋势 1.1平均值和截断均值  1.2加权平均值 1.3中位数(Median)和众数(Mode) 2.描述数据的分散程度 2.1箱线图 2.2方差和标准差 2.3正态分布 3.数据清洗 3.1数据缺失的处理 3.2数据清洗 描述数据的方法,包括描述数据中心趋势的方法如 均值、中位

    2024年02月01日
    浏览(38)
  • Spark重温笔记(四):秒级处理庞大数据量的 SparkSQL 操作大全,能否成为你的工作备忘指南?

    前言:今天是温习 Spark 的第 4 天啦!主要梳理了 SparkSQL 工作中常用的操作大全,以及演示了几个企业级案例,希望对大家有帮助! Tips:\\\"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊! 喜欢我的博

    2024年04月11日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包