Linux系统下Spark的下载与安装(pyspark运行示例)

这篇具有很好参考价值的文章主要介绍了Linux系统下Spark的下载与安装(pyspark运行示例)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark

1、版本要求

由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本

Spark和Hadoop版本对应关系如下:

Spark版本 Hadoop版本
2.4.x 2.7.x
3.0.x 3.2.x

可进入终端查看Hadoop版本

hadoop version

我这里的版本是2.7.1,因此选择下载2.4版本的spark

linux/unix系统安装spark,spark,大数据,分布式

Spark历史版本下载地址:Index of /dist/spark 

 找到适合自己的版本进行下载,这里我选择带有Hadoop scala的版本进行下载

linux/unix系统安装spark,spark,大数据,分布式

2、Spark安装

Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。这里介绍Local模式(单机模式)的 Spark安装 

 (1)文件解压到指定位置

sudo tar -zxf ~/下载/spark-2.4.7-bin-hadoop2.7.tgz -C /usr/local/

linux/unix系统安装spark,spark,大数据,分布式

 为了方便,还可以将文件夹重命名为spark,并更改文件所有者,下述的hadoop为用户名,更改为自己的用户名

sudo mv ./spark-2.4.7-bin-hadoop2.7/ ./spark
sudo chown -R hadoop:hadoop ./spark

(2)修改配置文件spark-env.sh

将临时文件复制,并修改

cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim ./conf/spark-env.sh

在该文件首行添加

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

linux/unix系统安装spark,spark,大数据,分布式

 这样配置过后,spark能将数据存储到hadoop的HDFS中,同样也能从HDFS中读取数据,建立起Hadoop和Spark的连接。

(3)修改环境变量

vim ~/.bashrc

在文件中添加spark的地址,以便能够快速访问

export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

不同的环境变量之间用":"隔开,田间PYTHONPATH主要是为了在python3中引入pyspark库

linux/unix系统安装spark,spark,大数据,分布式

 然后输入命令让环境变量生效

source ~/.bashrc

3、Spark的验证

进入spark安装目录,并输入一段代码进行例子验证

bin/run-example SparkPi 2>&1 | grep "Pi is"

能够计算出Pi的值,说明spark已经安装成功啦!

linux/unix系统安装spark,spark,大数据,分布式 

接下来进行pyspark的使用,进入spark的安装目录,并输入命令

cd /usr/local/spark
bin/pyspark

然后你会看到一些error,出现报错

return types.CodeType(
TypeError: an integer is required (got type bytes)

linux/unix系统安装spark,spark,大数据,分布式

这是由于pyspark对于高版本的python不兼容,建议python版本在3.6,我这里激活了一下anaconda安装下的虚拟环境,虚拟环境中,python版本为3.6

然后运行成功啦!

linux/unix系统安装spark,spark,大数据,分布式

 至此就可以使用pyspark进行编程,这对不熟悉scala语言的人来说十分友好~


都看到这里了,给个小心心呗♥~文章来源地址https://www.toymoban.com/news/detail-822839.html

到了这里,关于Linux系统下Spark的下载与安装(pyspark运行示例)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • linux系统使用yum命令下载安装包

    1.使用yum命令下载安装包    命令解析 sudo : 以超级用户身份运行命令,以便获得必要的权限。 yum : 包管理器工具的名称,用于管理和安装软件包。 install : yum操作命令,用于安装软件包。 --downloadonly : 指定仅下载软件包,而不进行安装。 --downloaddir : 指定下载软件包的目标目

    2024年02月12日
    浏览(47)
  • Linux下打包发布QT程序,并运行在其他没有安装QT环境的linux系统上

    一、Linux下打包发布步骤如下 编译应用程序环境:ubuntu18.04版本 开发环境:Qt5.14.2 编译环境:gcc_64 要移植的电脑:ubuntu18.04版本,没有开发环境 第一步:打包依赖库 1、创建一个打包目录,把生成的可执行文件拷贝放在创建的打包目录下,这里我是创建了一个打包目录名称为

    2024年02月12日
    浏览(40)
  • 使用Pycharm运行spark实例时没有pyspark包(ModuleNotFoundError: No module named ‘py4j‘)

    在安装并配置pyspark,下载并打开Pycharm(专业版)后进行spark实例操作(笔者以统计文件中的行数为例)时,运行程序后提示ModuleNotFoundError: No module named \\\'py4j\\\': 1.下载py4j包后下载pyspark包 打开新终端,在终端中输入(若在pycharm中进行下载可能导致下载失败,这里指定使用清华

    2024年04月26日
    浏览(39)
  • Maven下载和配置教程:Windows、Mac和Linux系统安装指南

    🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 🌊 《IDEA开发秘籍》学会IDEA常用操作,工作效率翻倍~💐 🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬

    2024年02月16日
    浏览(45)
  • Pyspark综合案例(pyspark安装和java运行环境配置)

    一、RDD对象 PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象 RDD全称为:弹性分布式数据集(Resilient Distributed Datasets) PySpark针对数据的处理,都是以RDD对象作为载体,即: 数据存储在RDD内 各类数据的计算方法,也都是RDD的成员方法 RDD的数据计算方法

    2024年04月24日
    浏览(42)
  • kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景)

    源码在上篇 地址在这 :Kafka模拟器产生数据仿真-集成StructuredStreaming做到”毫秒“级实时响应StreamData落地到mysql-CSDN博客 这里分享一下一些新朋友不知道spark-submit 指令后  的参数怎么写 看这篇绝对包会 声明 : 此项目是基于 maven 打包的说明,不是SBT哦 先分享一下我的原指

    2024年03月25日
    浏览(41)
  • Linux安装Spark的详细过程

    安装:文件提取链接:https://pan.baidu.com/s/1XI_mRKY2c6CHlt6--3d7kA?pwd=tlu2  (可以 导入至U盘中 ,再从U盘拷入至虚拟机中,这点在我讲述安装jdk8的文章中有提到过,如果有兴趣,可以去看一下:http://t.csdn.cn/POerk) 我把jdk8、hadoop-3.3.4、zookeeper-3.6.2、hbase-2.3.3、spark-3.2.2的解压后的文件

    2024年02月09日
    浏览(46)
  • linux下下载文件的常用命令wget,curl等使用方法及使用示例

    在 Linux 操作系统中,有许多下载文件的工具可供选择。这些工具包括命令行工具和图形界面工具,每个工具都有其自身的特点和用途。以下是一些常用的下载文件工具: wget :一个功能强大的命令行下载工具,支持 HTTP、HTTPS、FTP 等协议,能够断点续传、递归下载等。 curl :

    2024年04月17日
    浏览(83)
  • 【ollama】(3):在linux搭建环境中,安装golang开发的ollama工具,并且完成启动下载gemma:7b和qwen:1.8b运行速度飞快,支持http接口和命令行模式

    https://www.bilibili.com/video/BV19F4m1F7Rn/ 【ollama】(3):在linux搭建环境中,安装ollama工具,并且完成启动下载gemma:7b和qwen:1.8b运行速度飞快,支持http接口和命令行 https://ollama.com/ 项目使用golang+llama.cpp 项目进行开发的。 简化了模型的安装,非常的方便。 然后因为是docker 虚拟环境

    2024年04月13日
    浏览(43)
  • 基于Linux的Spark安装与环境配置

    因为Spark是基于Hadoop上工作的,所以当我们使用Spark框架时,必须要确保Hadoop能够正常运行: 1.1 启动hadoop 有 BUG ,内容如下: 解决方法:SLF4J:Failed to load class org.slf4j.impl.StaticLoggerBinder. 1.2 再次启动hadoop 1.3 查看是否成功 2.1 下载scala 官方网址:https://www.scala-lang.org/download/2.

    2024年03月24日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包