大数据与云计算——Spark的安装和配置

这篇具有很好参考价值的文章主要介绍了大数据与云计算——Spark的安装和配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大数据与云计算——Spark的安装和配置

Spark的简单介绍:

Apache Spark是一个基于内存的分布式计算框架,它提供了高效、强大的数据处理和分析能力。与传统的Hadoop MapReduce相比,Spark的主要优势在于其能够将数据集缓存在内存中,从而大大减少了磁盘I/O操作,提高了数据处理速度。

Spark提供了多种编程接口,包括Scala、Java、Python和R等,同时还提供了交互式Shell,易于使用和快速调试。Spark的核心是分布式的RDD(Resilient Distributed Datasets),它对数据进行了抽象和封装,方便了数据的处理和管理。

Spark还可与多种数据存储系统集成,包括Hadoop HDFS、Apache Cassandra、Amazon S3等。同时,Spark还提供了多种高级库和工具,如Spark SQL、Spark Streaming、MLlib等,方便进行数据查询、流式处理和机器学习等任务。

总之,Spark已经成为了目前最受欢迎的大数据计算框架之一,广泛应用于数据处理、机器学习、实时数据处理等领域。
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql

安装和配置

在安装和配置Spark之前,要确保Hadoop 已经成功安装,并正常启动。没有部署好hadoop的可以查看之前的文章。
云计算与大数据——部署Hadoop集群并运行MapReduce集群(超级详细!)

Spark安装在 HadoopMaster节点上。下面的所有操作都在HadoopMaster节点上进行。
1)解压并安装Spark
本文章所需要的spark安装包已上传到个人博客主页→资源处,有需要的小伙伴可以自行下载。
tar -zxvf spark-3.3.0-bin-hadoop3.3.2.tgz安装包

也可以在网盘里面下载:
链接:https://pan.baidu.com/s/1aI6djw4B-3Pz_AAkDBJ5WQ?pwd=1234

使用下面的命令,解压Spark 安装包:

tar -zxvf spark-3.3.0-bin-hadoop3.3.2.tgz

spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
执行ls -l命令后的界面如下图所示,这些内容是Spark包含的文件。
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql

cd bin
./spark-shell

执行spark-shell命令后的界面如图所示。
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
配置Hadoop环境变量
在Yarn上运行Spark需要配置环境变量

Vim ~/.bashrc

spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
修改内容后保存退出。

Source ~/.bashrc

使配置生效。
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
验证spark安装
进入Spark安装主目录,执行如下命令。

1.Spark 在YARN上运行,以集群模式启动Spark应用程序
这里指定使用 YARN 集群管理器作为主节点。
先执行这个命令:

bin/spark-submit \
> --class org.apache.spark.examples.SparkPi \
> --master yarn \
> --deploy-mode cluster \
> ./examples/jars/spark-examples_2.12-3.3.0.jar \
> 10

bin/spark-submit:启动 Spark 应用程序提交工具。
–class org.apache.spark.examples.SparkPi:指定要运行的 Java 类,这里使用了 Spark 官方提供的计算 pi 数值的例子程序 SparkPi。

–master yarn:设置 Spark 应用程序的主节点 URL,这里指定使用 YARN 集群管理器作为主节点。

–deploy-mode cluster:指定应用程序的部署模式。在这种模式下,Spark 驱动程序将在 YARN 集群中启动,并协调整个应用程序。另一种可选的部署模式是 client 模式,其中驱动程序会直接在提交命令的客户端上启动。

./examples/jars/spark-examples_2.12-3.3.0.jar:指定要提交的应用程序代码包的位置和名称。在这个例子中,使用了 Spark 的示例程序提供的 JAR 文件。

指定运行 Spark 应用程序时要传递给它的参数。在这个例子中,将计算 pi 数值的精度设置为 10。

启动脚本调用的是spark-submit,所以直接看bin/spark-submit脚本,跟spark-shell一样,先检查是否设置了${SPARK_HOME},然后启动spark-class,并传递了org.apache.spark.deploy.SparkSubmit作为第一个参数,然后把前面Spark-shell的参数都传给spark-class

–master 指定master节点
–class 指定执行的类
–executor-memory executor内存大小
–total-executor-cores 总的executor 数目

不对核心数目做限制的时候,是最快的。只有两个核心的时候,很慢。
运行截图如下:
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
2.然后我们再这里设置为本地模式local并使用两个 CPU 核心启动。

bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2]  --num-executors 2 --driver-memory 1g --executor-memory 1g --executor-cores 1 ./examples/jars/spark-examples_2.12-3.3.0.jar 10

其中
bin/spark-submit:启动 Spark 应用程序提交工具。
–class org.apache.spark.examples.SparkPi:指定要运行的 Java 类,这里使用了 Spark 官方提供的计算 pi 数值的例子程序 SparkPi。

–master local[2]:设置 Spark 应用程序的主节点 URL,这里设置为本地模式并使用两个 CPU 核心。实际上,Spark 可以连接到许多不同类型的集群管理器(例如 YARN、Mesos 或 Kubernetes)作为主节点。

–num-executors 2:设置 Spark 应用程序要使用的执行器数量。在本地模式下,这通常应该小于或等于计算机的 CPU 核心数。

–driver-memory 1g:设置驱动程序进程可以使用的内存量。 Spark 驱动程序负责协调整个应用程序,并将结果返回给客户端或保存到磁盘中。

–executor-memory 1g:设置每个执行器进程可以使用的内存量。执行器进程是 Spark 在集群中实际执行计算任务的工作者。

–executor-cores 1:设置每个执行器进程可以使用的 CPU 核心数量。

./examples/jars/spark-examples_2.12-3.3.0.jar:指定要提交的应用程序代码包的位置和名称。在这个例子中,使用了 Spark 的示例程序提供的 JAR 文件。

我们在这里指定运行 Spark 应用程序时要传递给它的参数。
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
运行正常出现的界面信息:

spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql

spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
新建一个终端,进入到hadoop目录下的userlogs日志文件,找到了我们的spark应用结果日志文件,可以在里面找到计算结果和相关信息。

cd $HADOOP_HOME/logs/userlogs
ls

spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql

cd application_1668847055201_0007
ls

spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql

查看执行结果文件信息

cat container_1668847055201_0007_01_000001/stdout

spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql
其中计算结果和相关运行信息如下图所示。我们可以看到Spark 应用程序成功地计算出了 pi 数值的近似值,并将结果打印到了控制台上。结果中的 Pi is roughly 3.1416631416631415 表示计算出的 pi 的近似值为 3.1416631416631415。
spark配置,大数据,Spark,大数据系统运维,大数据,云计算,spark,分布式,架构,运维开发,sql文章来源地址https://www.toymoban.com/news/detail-753259.html

到了这里,关于大数据与云计算——Spark的安装和配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发

    注意:该项目只展示部分功能,如需了解,评论区咨询即可。 在当今数字化时代,电商行业成为全球商业生态系统的关键组成部分,电商平台已经深入各行各业,影响了人们的购物方式和消费习惯。随着互联网技术的不断发展,电商平台产生了大量的用户数据,包括点击、购

    2024年02月04日
    浏览(92)
  • 云计算 - 4 - Spark的安装与应用

    实现 Linux 中 Spark 的安装与应用。 1、下载配置 Scala 1.1 下载 Scala 创建文件夹 scala 用于安装 scala,通过 wget 下载 tar 包,然后解包安装 scala。 wget https://downloads.lightbend.com/scala/2.10.7/scala-2.10.7.tgz tar -zxvf scala-2.10.7.taz 1.2 配置 Scala 的路径 通过修改 .bash_profile 文件来配置 Scala 路径,

    2024年02月01日
    浏览(17)
  • Spark 下载、安装与配置

    Apache Spark 是一个快速的通用集群计算系统。它提供了Java, Scala, Python ,R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具:处理结构化数据的 Spark SQL,用于机器学习的 MLlib,控制图、并行图操作和计算的一组算法和工具的集合

    2024年02月11日
    浏览(27)
  • spark安装配置

    目录 1.准备工作 2.下载spark-3.1.1-bin-hadoop2.7和scala-2.12.13并解压 3.配置环境变量 4.配置文件$SPARK_HOME/conf/spark-env.sh 6.配置spark的历史服务 ($SPARK_HOME/conf/) 7.配置文件$SPARK_HOME/conf/workers 8.配置文件拷贝 9.集群的启动和停止 10.错误排查方法 具备java环境 配置主机名 配置免密码登录 防

    2024年02月05日
    浏览(35)
  • spark -- 数据计算框架

    spark作为大数据组件中不可或缺的一大部分 是我们学习和了解大数据的过程中必须要经历和学习的部分 本人将自己当初学习大数据的一点点心得和体会作为笔记 希望可以给同样在学习大数据同学提供一点点的帮助 同时也希望可以得到大家的指正 spark的特点 spark和mr的比较

    2024年02月05日
    浏览(29)
  • 云计算实验2 Spark分布式内存计算框架配置及编程案例

    掌握分布式多节点计算平台Spark配置,Spark编程环境IDEA配置,示例程序启动与运行 Linux的虚拟机环境、线上操作视频和实验指导手册 完成Spark开发环境安装、熟悉基本功能和编程方法。 请按照线上操作视频和实验指导手册 ,完成以下实验内容: 实验2-1 Spark安装部署:Standal

    2023年04月13日
    浏览(38)
  • 基于Kafka和Spark实现实时计算系统

    Apache Kafka是一个分布式的流处理平台。它最初是由LinkedIn开发并开源的,现在已经成为Apache软件基金会旗下的顶级项目之一。Kafka主要用于实时流数据的高吞吐量传输、存储和处理,例如日志收集、流式的ETL以及实时的Web日志等。 Apache Spark是一个用于大规模数据处理的通用引

    2024年02月10日
    浏览(33)
  • 11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

    本案例软件包:链接:https://pan.baidu.com/s/1zABhjj2umontXe2CYBW_DQ  提取码:1123(若链接失效在下面评论,我会及时更新). 目录 (1)安装Spark 1.先用xftp将安装包传到home/hadoop/Downloads文件夹下,然后解压安装。 2.解压缩: 3. 更改文件夹名称: 4.修改hadoop用户对文件夹spark的访问权限

    2024年02月06日
    浏览(33)
  • 云计算技术 实验九 Spark的安装和基础编程

    1 . 实验学时 4学时 2 . 实验目的 熟悉Spark Shell。 编写Spark的独立的应用程序。 3 . 实验内容 (一)完成Spark的安装,熟悉Spark Shell。 首先安装spark: 将下好的压缩文件传入linux,然后进行压解: 之后移动文件,修改文件权限: 然后是配置相关的文件: Vim进入进行修改: 然后是

    2024年02月05日
    浏览(38)
  • win 10下spark的安装及配置

    一级标题 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 提示:以下是本篇文章正文内容,下面案例可供参考 在jdk官网中下载与自己电脑相应配置的jdk。 点击电脑的设置——关于——高级系统设置——环境变量中配置jdk环境变量。 点击新建,输入

    2023年04月08日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包