物理机本地和集群部署Spark

这篇具有很好参考价值的文章主要介绍了物理机本地和集群部署Spark。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、单机本地部署

1)官网地址:http://spark.apache.org/
2)文档查看地址:https://spark.apache.org/docs/3.1.3/
3)下载地址:
https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/

  1. 上传文件、解压缩、修改文件名
    物理机本地和集群部署Spark,spark,大数据,分布式
  2. 启动Spark
    物理机本地和集群部署Spark,spark,大数据,分布式
  3. spark-shell使用
    物理机本地和集群部署Spark,spark,大数据,分布式
  4. 入门案例:

物理机本地和集群部署Spark,spark,大数据,分布式
物理机本地和集群部署Spark,spark,大数据,分布式

注意:sc是SparkCore程序的入口;spark是SparkSQL程序入口;master = local[*]表示本地模式运行。
物理机本地和集群部署Spark,spark,大数据,分布式
物理机本地和集群部署Spark,spark,大数据,分布式
说明:本地模式下,默认的调度器为FIFO。
物理机本地和集群部署Spark,spark,大数据,分布式
物理机本地和集群部署Spark,spark,大数据,分布式
物理机本地和集群部署Spark,spark,大数据,分布式

二、Standalone模式

Standalone模式是Spark自带的资源调度引擎,构建一个由Master + Worker构成的Spark集群,Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群,不需要借助Hadoop的Yarn和Mesos等其他框架。
物理机本地和集群部署Spark,spark,大数据,分布式
物理机本地和集群部署Spark,spark,大数据,分布式

  1. 集群规划
    物理机本地和集群部署Spark,spark,大数据,分布式
  2. 解压缩、修改文件名
    物理机本地和集群部署Spark,spark,大数据,分布式
  3. 进入Spark的配置目录/opt/module/spark-standalone/conf,修改slave文件,添加work节点,分发文件:
    物理机本地和集群部署Spark,spark,大数据,分布式

物理机本地和集群部署Spark,spark,大数据,分布式
物理机本地和集群部署Spark,spark,大数据,分布式4. 启动spark集群
物理机本地和集群部署Spark,spark,大数据,分布式

物理机本地和集群部署Spark,spark,大数据,分布式
5. 测试
物理机本地和集群部署Spark,spark,大数据,分布式
物理机本地和集群部署Spark,spark,大数据,分布式

三、yarn模式

Spark客户端直接连接Yarn,不需要额外构建Spark集群。

  1. 上传文件、解压缩、修改文件名
    物理机本地和集群部署Spark,spark,大数据,分布式
  2. 修改hadoop配置文件/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml,添加下面内容,并分发文件
    物理机本地和集群部署Spark,spark,大数据,分布式
    注意:生产环境视情况而定

物理机本地和集群部署Spark,spark,大数据,分布式
3. 修改/opt/module/spark-yarn/conf/spark-env.sh,添加YARN_CONF_DIR配置,保证后续运行任务的路径都变成集群路径
物理机本地和集群部署Spark,spark,大数据,分布式
物理机本地和集群部署Spark,spark,大数据,分布式
4. 启动HDFS以及YARN集群
先启动zk,启动yarn,启动hdfs
物理机本地和集群部署Spark,spark,大数据,分布式
5. 测试
物理机本地和集群部署Spark,spark,大数据,分布式文章来源地址https://www.toymoban.com/news/detail-795011.html

到了这里,关于物理机本地和集群部署Spark的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 分布式内存计算Spark环境部署与分布式内存计算Flink环境部署

    目录 分布式内存计算Spark环境部署 1.  简介 2.  安装 2.1【node1执行】下载并解压 2.2【node1执行】修改配置文件名称 2.3【node1执行】修改配置文件,spark-env.sh 2.4 【node1执行】修改配置文件,slaves 2.5【node1执行】分发 2.6【node2、node3执行】设置软链接 2.7【node1执行】启动Spark集群

    2024年02月08日
    浏览(76)
  • 【头歌实训】Spark 完全分布式的安装和部署

    掌握 Standalone 分布式集群搭建。 我们已经掌握了 Spark 单机版安装,那么分布式集群怎么搭建呢? 接下来我们学习 Standalone 分布式集群搭建。 课程视频 如果你需要在本地配置 Spark 完全分布式环境,可以通过查看课程视频来学习。 课程视频《克隆虚拟机与配置网络》 课程视

    2024年02月04日
    浏览(53)
  • 【头歌实训】Spark 完全分布式的安装和部署(新)

    第1关: Standalone 分布式集群搭建 任务描述 掌握 Standalone 分布式集群搭建。 相关知识 我们已经掌握了 Spark 单机版安装,那么分布式集群怎么搭建呢? 接下来我们学习 Standalone 分布式集群搭建。 课程视频 如果你需要在本地配置 Spark 完全分布式环境,可以通过查看课程视频来

    2024年02月03日
    浏览(110)
  • Spark弹性分布式数据集

    1. Spark RDD是什么 RDD(Resilient Distributed Dataset,弹性分布式数据集)是一个不可变的分布式对象集合,是Spark中最基本的数据抽象。在代码中RDD是一个抽象类,代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 每个RDD都被分为多个分区,这些分区运行在集群中

    2024年02月13日
    浏览(60)
  • Spark大数据分析与实战笔记(第三章 Spark RDD 弹性分布式数据集-02)

    人生很长,不必慌张。你未长大,我要担当。 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。 RDD是Spark提供的最重要的抽象概念

    2024年02月22日
    浏览(96)
  • Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆级超详细含图文)

    说明: 本篇将详细介绍用二进制安装包部署hadoop等组件,注意事项,各组件的使用,常用的一些命令,以及在部署中遇到的问题解决思路等等,都将详细介绍。 ip hostname 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3 1.2.1系统版本 1.2.2内存建议最少4g、2cpu、50G以上的磁盘容量 本次

    2024年02月12日
    浏览(53)
  • 大数据开发之Spark(RDD弹性分布式数据集)

    rdd(resilient distributed dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象。 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1.1.1 rdd类比工厂生产 1.1.2 wordcount工作流程 1、一组分区(partition),即是数据集的基本组成单位,

    2024年01月24日
    浏览(71)
  • 大数据课程K2——Spark的RDD弹性分布式数据集

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解Spark的RDD结构; ⚪ 掌握Spark的RDD操作方法; ⚪ 掌握Spark的RDD常用变换方法、常用执行方法; 初学Spark时,把RDD看做是一个集合类型(类似于Array或List),用于存储数据和操作数据,但RDD和普通集合的区别

    2024年02月12日
    浏览(55)
  • 云计算与大数据第16章 分布式内存计算平台Spark习题

    1、Spark是Hadoop生态(  B  )组件的替代方案。 A. Hadoop     B. MapReduce        C. Yarn             D.HDFS 2、以下(  D  )不是Spark的主要组件。 A. Driver      B. SparkContext       C. ClusterManager D. ResourceManager 3、Spark中的Executor是(  A  )。 A.执行器      B.主节

    2024年02月14日
    浏览(119)
  • 分布式计算中的大数据处理:Hadoop与Spark的性能优化

    大数据处理是现代计算机科学的一个重要领域,它涉及到处理海量数据的技术和方法。随着互联网的发展,数据的规模不断增长,传统的计算方法已经无法满足需求。因此,分布式计算技术逐渐成为了主流。 Hadoop和Spark是目前最为流行的分布式计算框架之一,它们都提供了高

    2024年01月23日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包