PySpark完美安装

这篇具有很好参考价值的文章主要介绍了PySpark完美安装。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、hadoop版本号确认

1. hadoop ==> 2.7.2

[root@dm46 TDH-Client]# hadoop version

Hadoop 2.7.2-transwarp-6.2.0

Subversion http://xxxx:10080/hadoop/hadoop-2.7.2-transwarp.git -r f31230971c2a36e77e4886e0f621366826cec3a3

Compiled by jenkins on 2019-07-27T11:33Z

Compiled with protoc 2.5.0

二、下载spark

注意:选择 Pre-built for Apache Hadoop 2.7

https://dlcdn.apache.org/spark/spark-3.2.3/spark-3.2.3-bin-hadoop2.7.tgz

三、准备pyspark环境

1. 创建虚拟环境

conda create -n pyspark_env python=3.8

conda activate pyspark_env

2. 安装pyspark

注意:确保spark版本与pyspark版本一致

pip install pyspark==3.2.3 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

3.测试

cd /home/xxx/kdh/spark/bin

./spark-submit --master local[*] /home/xxx/kdh/spark/examples/src/main/python/pi.py 30

四、常见报错

1. RuntimeError: Python in worker has different version 3.8 than that in driver 3.6

原因:local模式下,此时使用的是当前环境的python。如果代码里指定了pyspark_env,当前环境也应该是pyspark_env。

conda activate pyspark_env

cd /home/xxx/kdh/spark/bin

./spark-submit --master local[*] /home/xxx/workspace/pyspark_learn/02_pyspark_core/main/02_Wordcount_hdfs.py

五、其它

1. arrow安装

pip install pyspark[sql] -i https://pypi.tuna.tsinghua.edu.cn/simple文章来源地址https://www.toymoban.com/news/detail-469920.html

到了这里,关于PySpark完美安装的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【错误记录】PySpark 运行报错 ( Did not find winutils.exe | HADOOP_HOME and hadoop.home.dir are unset )

    核心报错信息 : WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. 在 PyCharm 中 , 调用 PySpark 执行 计算任务 , 会报如下错误 : 核心报错信息 : WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundExceptio

    2024年02月08日
    浏览(49)
  • 红魔8SPro强解BL+完美ROOT权限-刷MIUI14系统-修复指纹丢失/内存等问题

    早前我们刷过红魔8pro手机,该手机支持解锁BL+刷入MIU14系统,红魔8Pro由于官方并没有修改解锁BL指令,所以我们的解锁BL非常简单,只需要在fastboot下一键完成。随着红魔8SPro的上架,红魔UI6.0的发布,官方解锁指令的改动,我们并不能指令直接解锁BL了留下的方法只有手动修改

    2024年02月09日
    浏览(501)
  • Hadoop三大“金刚”完美剖析 ─────── HDFS、MapReduce、YARN

    因为HDFS是分布式储存文件的模式,所以在储存文件的数据时,会将文件切分为大小一致的数据块, 如果出现文件大小不是128M的倍数时,那么最后一个文件会与之前切分文件大小不一致。 被切分成的数据块就是Block块,NameNode将Block块进行分布式储存到DataNode中。    (Block块

    2024年04月10日
    浏览(43)
  • 完美解决ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: NO)

    已解决ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: NO) 下滑查看解决方法 ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: NO) 对于出现\\\"ERROR 1045 (28000): Access denied for user ‘root’@‘localhost’ (using password: NO)\\\"的问题,一般是由于MySQL的访问权

    2024年02月05日
    浏览(51)
  • Python大数据之PySpark(二)PySpark安装

    1-明确PyPi库,Python Package Index 所有的Python包都从这里下载,包括pyspark 2-为什么PySpark逐渐成为主流? http://spark.apache.org/releases/spark-release-3-0-0.html Python is now the most widely used language on Spark. PySpark has more than 5 million monthly downloads on PyPI, the Python Package Index. 记住如果安装特定的版本

    2024年02月04日
    浏览(43)
  • 【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

    执行 Windows + R , 运行 cmd 命令行提示符 , 在命令行提示符终端中 , 执行 命令 , 安装 PySpark , 安装过程中 , 需要下载 310 M 的安装包 , 耐心等待 ; 安装完毕 : 命令行输出 : 如果使用 官方的源 下载安装 PySpark 的速度太慢 , 可以使用 国内的 镜像网站 https://pypi.tuna.tsinghua.edu.cn/simple

    2024年02月06日
    浏览(43)
  • Pyspark综合案例(pyspark安装和java运行环境配置)

    一、RDD对象 PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象 RDD全称为:弹性分布式数据集(Resilient Distributed Datasets) PySpark针对数据的处理,都是以RDD对象作为载体,即: 数据存储在RDD内 各类数据的计算方法,也都是RDD的成员方法 RDD的数据计算方法

    2024年04月24日
    浏览(42)
  • MySQL8.0登录时出现Access denied for user ‘root‘@‘localhost‘ (using password: YES) 拒绝访问(完美解决)

    今天在正常打开mysql的时候突然提示:Access denied for user \\\'root\\\'@\\\'localhost\\\' (using password: YES) 在网上搜索了很多文章,尝试了他们的解决方法,发现都没有什么效果,最后结合多个方法的重点进行尝试发现完美解决。 第一步:先将Mysql服务停止运行,这一步很 重要 。 第二步:在

    2024年02月10日
    浏览(44)
  • hadoop102: mv: 无法获取“/opt/module/hadoop-3.1.3/logs/hadoop-root-datanode-hadoop102.out.3“ 的文件状态(stat):

    删掉haoop安装目录下/opt/module/hadoop-3.1.3/etc/hadoopworkers文件里面的localhost 然后保存文件即可  

    2024年02月12日
    浏览(35)
  • 【Cesium 安装+Cesium 加载b3dm】

    一、安装的方式大致有三种: 1、引入ceisum源码包使用; 2、安装cesium插件; 3、安装Vue-cesium插件 我这里只尝试了第一种和第二种。 引入ceisum源码包使用 可以使用直接下载官方压缩包来引入 也可以npm i cesium包,把build文件夹下的文件拿来引入(需要把build文件下的文件放到

    2024年02月13日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包