spark 搭建 及测试

这篇具有很好参考价值的文章主要介绍了spark 搭建 及测试。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、搭建单机版集群 1.上传spark-3.2.1-bin-hadoop3.2.tgz到/opt    rz 或 xshell cd /opt/

2.安装解压,到/usr/local/single/目录下
  (1)先建一个single目录
         mkdir -p /usr/local/single/
    (2)解压
        tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local/single/
3.测试运行,计算SparkPi
   进入spark安装目录的bin目录下
  ./run-example SparkPi 2  
# 运行2个模块 成功为Pi is roughly 3.139435697178486

搭建完全分布式集群 1.上传

2.安装解压,到/usr/local/wanquan/目录下
  (1)先建一个wanquan目录
         mkdir -p /usr/local/wanquan/
    (2)解压
        tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local/wanquan/
    (3)重命名
        mv spark-3.2.1-bin-hadoop3.2/ spark3
3.配置spark-env.sh
  (1)进入安装目录的conf目录
     复制spark-env.sh.template,命名为spark-env.sh
     cp spark-env.sh.template spark-env.sh
  (2)打开spark-env.sh文件
      vi spark-env.sh
     在尾部添加内容:
# hadoop 安装目录 配置文件etc
export JAVA_HOME=/export/servers/
export HADOOP_CONF_DIR=/export/servers/hadoop330/etc/hadoop
export SPARK_MASTER_HOST=hadoop1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=512m  
# 给运行内存 主机名 端口号7077 
export SPARK_WORKER_CORES=1
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_EXECUTOR_CORES=1
export SPARK_WORKER_INSTANCES=1
# 设置运行内核数 内存  woker 实例(如一个节点运行几个文件)
4.配置workers文件
  (1)复制workers.template,命名为workers
cp workers.template workers
vi workers
  (2)删除原有内容,添加
          hadoop2
          hadoop3

5.配置spark-defaults.conf文件
  (1)复制spark-defaults.conf.template,命名为spark-defaults.conf
cp spark-defaults.conf.template spark-defaults.conf

    (2)打开spark-defaults.conf文件
      vi spark-defaults.conf
     在尾部添加内容:
# 制定端口 事件日志 开启后spark存的地址,历史文件存放目录
spark.master                     spark://hadoop1:7077
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop1:9000/spark-logs
spark.history.fs.logDirectory    hdfs://hadoop1:9000/spark-logs

6.分发spark的安装目录到hadoop2、hadoop3
  scp -r /usr/local/wanquan/ hadoop2:/usr/local/
  scp -r /usr/local/wanquan/ hadoop3:/usr/local/

7.启动spark

  (1)启动spark之前,先启动hadoop
          start-all.sh
          启动jobhistory,在hadoop安装目录的sbin目录下启动
          cd /export/servers/hadoop330/sbin
          ./mr-jobhistory-daemon.sh start historyserver
    jps 进程

    (2)创建/spark-logs目录
          hdfs dfs -mkdir /spark-logs
    检查 hadoop1 9870
  (3)启动spark集群
        切换到spark的安装目录的sbin目录下,去启动
cd /usr/local/wanquan/spark3/sbin
 # 当前目录下启动
        ./start-all.sh 
       jps查看,hadoop1出现master,hadoop2、hadoop3分别出现worker
hadoop1:8080  
       #单独启动历史服务:
      ./start-history-server.sh
      jps查看hadoop1多了HistoryServer

   (4) 启动 shell
    在bin 目录下调试
    ./spark-shell

无报错,有scala字眼
完成!!!

  (5) 打开网页
8088 yarn界面
spark节点查看
https://192.168.157.131:8080

8.关闭 保存 拍摄快照
scala quit
在对应进程中关闭
关闭spark集群 ? cd/usr/local/spark3/sbin/
./stop-all.sh
master 
worker
关闭hadoop 服务
        ./stop-all.sh

/export/servers/hadoop330/sbin
关闭历史服务:
      ./stop-history-server.sh
关闭服务job
./mr-jobhistory-daemon.sh stop historyserver
       
jps 查看防止遗漏
ps -grep|spark
kill -9  进程号
注意:1.拍快照  spark 完全
          2.每次使用完后hadoop要关闭stop-all.sh
   尝试西区平台
  
疑惑:history  
 在spark-env环境编译中 加入  从hdfs中读取数据
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) 
单机 hadfs 模式
》》》》scala 应用编写
详细说名
https://dblab.xmu.edu.cn/blog/1307/文章来源地址https://www.toymoban.com/news/detail-847435.html

到了这里,关于spark 搭建 及测试的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark Local环境搭建及测试

    🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 篇一:Linux系统下配置java环境 篇二:hadoop伪分布式搭建(超详细) 篇三:hadoop完全分布式集群搭建(超详细)-大数据集群搭建 Spark单机版的搭建,常用于本地开发测试 Spark使用Scala语言编写,运行在Java虚拟机(JVM)当中,故在

    2024年02月11日
    浏览(35)
  • Spark on Yarn集群模式搭建及测试

    🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 点击传送:大数据学习专栏 持续更新中,感谢各位前辈朋友们支持学习~ Apache Spark是一个快速的、通用的大数据处理框架,它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源

    2024年02月11日
    浏览(46)
  • 认识spark,Scala简介

    Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京

    2024年03月20日
    浏览(41)
  • spark源码的scala解析

    一、scala抽象类和java的有何不同? 在org/apache/spark/util/collection/SortDataFormat.scala中有以下抽象类 private[spark] abstract class SortDataFormat[K, Buffer] {...}    然后在org/apache/spark/graphx/Edge.scala中,直接调用了xxx = new SortDataFormat[Edge[ED], Array[Edge[ED]]] {...} 为啥可以直接new一个抽象类呢??sc

    2024年02月12日
    浏览(37)
  • Spark Scala大数据编程实例

    Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想,只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”,从写个小脚本到建立

    2024年02月04日
    浏览(49)
  • spark概述与scala的安装

    1. Spark是什么 Spark  基于内存 式计算的 分布式 的 统一化 的数据分析引擎 2. Spark 模块 Spark 框架模块包含:Spark Core、Spark SQL、Spark Streaming、Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上。 3.Spark 四大特点 Spark使用 Scala 语言进行实现,它是一种面向对象、函

    2024年03月10日
    浏览(49)
  • Spark-Scala语言实战(9)

    之前的文章中,我们学习了如何在spark中使用RDD方法的flatMap,take,union。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。 Spark-Scala语言实战(8)-CSDN博客 文章浏览阅读675次,点赞16次,收藏10次。​今

    2024年04月15日
    浏览(47)
  • spark与scala的对应版本查看

    https://mvnrepository.com/artifact/org.apache.spark/spark-core 总结 spark3.0 以后,不再支持 scala2.11 spark3.0 以后,只能用 scala2.12以上

    2024年02月02日
    浏览(30)
  • Spark算子-Scala版本 头歌答案

    第1关 Spark算子--Scala版本 编程要求 根据提示,在右侧编辑器 begin-end 处补充代码,输出每个元素及其长度并去重。 测试说明 平台会对你编写的代码进行测试: 预期输出: 开始你的任务吧,祝你成功! 第2关:转换算子之flatMap和filter算子 编程要求 根据提示,在右侧编辑器

    2023年04月15日
    浏览(48)
  • Spark-Scala语言实战(7)

    在之前的文章中,我们学习了如何在IDEA中导入jars包,并做了一道例题,了解了RDD。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。 Spark-Scala语言实战(6)-CSDN博客 文章浏览阅读695次,点赞15次,

    2024年04月15日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包