【Ubuntu-大数据】spark安装配置

这篇具有很好参考价值的文章主要介绍了【Ubuntu-大数据】spark安装配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


参考的 文章: http://dblab.xmu.edu.cn/blog/931-2/

一、(实现需要先安装好Hadoop3)

1、官网下载:3版本

【Ubuntu-大数据】spark安装配置
【Ubuntu-大数据】spark安装配置

2、单机模式 安装配置:

Spark部署模式主要有四种:

  • Local模式(单机模式)
  • Standalone模式(使用Spark自带的简单集群管理器)、
  • YARN模式(使用YARN作为集群管理器)
  • Mesos模式(使用Mesos作为集群管理器)。

(1)解压压缩包到之前Hadoop安装的目录:本地计算机-usr-local

【Ubuntu-大数据】spark安装配置
(2)cd进入该目录:
【Ubuntu-大数据】spark安装配置
(3)解压的压缩包名称太长了,我们改成spark:
【Ubuntu-大数据】spark安装配置
(4)赋予该文件相关权限(lpp2是你的hadoop名字,可以在设置的【用户】中查看)
【Ubuntu-大数据】spark安装配置
(5)进入spark文件目录:
【Ubuntu-大数据】spark安装配置
(6)使用cp复制其中的配置文件,命名为:
【Ubuntu-大数据】spark安装配置
(7)编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

【Ubuntu-大数据】spark安装配置
按i进入插入模式,插入完成,
然后按下退出键ESC,然后是shift+冒号健输入一个英文冒号,他就会在最下面生成一个冒号。
这时候我们输入wq,然会回车,就会【保存并退出】vim编辑器。
如果你不放心,可以进入文件管理中查看:
【Ubuntu-大数据】spark安装配置
细心的你会发现,其实就是加了一个hadoop的路径,
其实有了上面的配置信息以后,【Spark】就可以把数据存储到【Hadoop分布式文件系统HDFS】中,也可以从HDFS中读取数据。(如果没有配置上面信息,Spark就只能读写本地数据,无法读写HDFS数据)

(8)直接使用它bin下面的这个命令来运行试试:(运行它自带的实例,检查是否安装成功)
【Ubuntu-大数据】spark安装配置
(9)使用管道过滤信息:

 bin/run-example SparkPi 2>&1 | grep "Pi is"

如果输出:π,即可
【Ubuntu-大数据】spark安装配置

3、在集群上运行Spark应用程序

  • 1.standalone模式
    与MapReduce1.0框架类似,Spark框架本身也自带了完整的资源调度管理服务,可以独立部署到一个集群中,而不需要依赖其他系统来为其提供资源管理调度服务。在架构的设计上,Spark与MapReduce1.0完全一致,都是由一个Master和若干个Slave构成,并且以槽(slot)作为资源分配单位。不同的是,Spark中的槽不再像MapReduce1.0那样分为Map 槽和Reduce槽,而是只设计了统一的一种槽提供给各种任务来使用。
  • 2.Spark on Mesos模式
    Mesos是一种资源调度管理框架,可以为运行在它上面的Spark提供服务。Spark on Mesos模式中,Spark程序所需要的各种资源,都由Mesos负责调度。由于Mesos和Spark存在一定的血缘关系,因此,Spark这个框架在进行设计开发的时候,就充分考虑到了对Mesos的充分支持,因此,相对而言,Spark运行在Mesos上,要比运行在YARN上更加灵活、自然。目前,Spark官方推荐采用这种模式,所以,许多公司在实际应用中也采用该模式。
  1. Spark on YARN模式
    Spark可运行于YARN之上,与Hadoop进行统一部署,即“Spark on YARN”,其架构如图9-13所示,资源管理和调度依赖YARN,分布式存储则依赖HDFS。

集群环境搭建:http://dblab.xmu.edu.cn/blog/1187-2/

这里采用3台机器(节点)作为实例来演示如何搭建Spark集群,文章来源地址https://www.toymoban.com/news/detail-407358.html

  • 其中1台机器(节点)作为Master节点
  • 另外两台机器(节点)作为Slave节点(即作为Worker节点),主机名分别为Slave01和Slave02。

待更新…

到了这里,关于【Ubuntu-大数据】spark安装配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Ubuntu 18.04.6 LTS 服务版安装参考

    ubuntu-18.04.6-live-server-amd64 系统安装过程参考 虚拟化平台:VMware Workstation 虚拟机信息: 2核2G 磁盘50GB 网络模式NAT:静态IP地址 192.168.204.60/24 选择【English】即可,也没得中文选择,【Enter】继续 这一步会联网检查安装程序是否是最新的,可用的最新版本和当前的版本,选择【

    2024年02月05日
    浏览(81)
  • 【技能---500G硬盘-Ubuntu 20.04安装分区参考】

    安装Ubuntu 20.04的时候可以自己指定各个内存空间的占用,值得注意的是,这里的分区有一定的技巧!!! 当前我们拥有一个500G的固态硬盘,下面将进行我们的分区安排。 当我们在安装过程中进行到 “”安装类型“” 的选择中,我们选择第三个,也即是: 找到空闲区域(

    2024年02月02日
    浏览(59)
  • ubuntu20.04配置hadoop&&spark(直接配置,无需借助虚拟机)

    hadoop作为一个开源的分布式计算和存储框架,在人工智能、大数据领域有非常广泛的应用。笔者在查阅资料发现网络博客介绍的配置方法大多需要借助虚拟机,或者需要重新创建ubuntu账户并设置密码为空以避免hadoop连接不上的问题,甚至是在ubuntu系统内再搭建一个虚拟机的

    2024年04月17日
    浏览(54)
  • Ubuntu22.04安装使用Docker (参考:完成Dock中的企业微信安装)

    Docker是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 容器是完全使用沙箱机制,相互之间不会有任何接口(类似

    2024年02月11日
    浏览(48)
  • ubuntu20.04安装星火商城(spark store)

    cd /tmp 软件包在官网上就可以,直接搜索spark-store安装下载解压 推荐使用apt来安装(apt会自动安装软件包所需要的依赖包,dpkg不会)

    2024年04月10日
    浏览(74)
  • 林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程

    按照步骤快速执行shell,最快速配置。 读者可以根据该篇随记快速回顾流程,以及用到的shell指令和相关配置文件。 是林老师教程的精简版,初次配置者只能作为流程参考,主要和林子雨Spark[python]版课程配套。  林老师厦大实验指南链接如下: Spark编程基础(Python版)教材官

    2024年04月12日
    浏览(43)
  • ubuntu下Hadoop以及Spark的伪分布式安装:一

    1.1 安装前说明: 很多初学者在安装的时候会碰到各种各样的问题,尤其各种版本的搭配问题。所以特意做一个初步安装的引导,希望大家都能一次调试出来。 经过测试,jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1,这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完

    2024年04月23日
    浏览(51)
  • nuplan(面向自动驾驶规划的开源数据集)——ubuntu中的安装与配置

    1. nuplan介绍: 1.1 nuplan数据集的意义: 2. 安装 2.1 下载开发包devkit 2.2 安装指定版本的python 2.3 安装虚拟环境 miniconda安装(已安装miniconda请跳过此步骤) 创建conda环境 在创建好的conda环境中安装依赖项: 3. 数据集下载与环境变量设置 3.1 数据集下载 3.2 环境变量配置 软件包环境

    2024年02月13日
    浏览(113)
  • Spark系列(一)spark简介及安装配置

    目录 1. spark简介: 2. spark特点: 2.1 Speed:速度快 2.2 Easy of Use:易用性 2.3 Generality:通用性 2.4 Runs Everywhere:到处运行 3. Spark的应用场景 4. 环境要求及准备工作 5. spark搭建模式: 5.1 local模式在解压缩安装后 5.2 Standalone模式搭建(基于hdfs文件存储) 5.1.1 首先配置spark环境变量:

    2023年04月09日
    浏览(38)
  • Spark 下载、安装与配置

    Apache Spark 是一个快速的通用集群计算系统。它提供了Java, Scala, Python ,R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具:处理结构化数据的 Spark SQL,用于机器学习的 MLlib,控制图、并行图操作和计算的一组算法和工具的集合

    2024年02月11日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包