Windows系统运行pyspark报错:Py4JJavaError

这篇具有很好参考价值的文章主要介绍了Windows系统运行pyspark报错:Py4JJavaError。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

运行pyspark时出现以下错误

---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
~\AppData\Local\Temp/ipykernel_34188/971983411.py in <module>
----> 1 df_na.show()

D:\Autism\python\Anaconda\lib\site-packages\pyspark\sql\dataframe.py in show(self, n, truncate, vertical)
    604 
    605         if isinstance(truncate, bool) and truncate:
--> 606             print(self._jdf.showString(n, 20, vertical))
    607         else:
    608             try:

D:\Autism\python\Anaconda\lib\site-packages\py4j\java_gateway.py in __call__(self, *args)
   1319 
   1320         answer = self.gateway_client.send_command(command)
-> 1321         return_value = get_return_value(
   1322             answer, self.gateway_client, self.target_id, self.name)
   1323 

D:\Autism\python\Anaconda\lib\site-packages\pyspark\sql\utils.py in deco(*a, **kw)
    188     def deco(*a: Any, **kw: Any) -> Any:
    189         try:
--> 190             return f(*a, **kw)
    191         except Py4JJavaError as e:
    192             converted = convert_exception(e.java_exception)

D:\Autism\python\Anaconda\lib\site-packages\py4j\protocol.py in get_return_value(answer, gateway_client, target_id, name)
    324             value = OUTPUT_CONVERTER[type](answer[2:], gateway_client)
    325             if answer[1] == REFERENCE_TYPE:
--> 326                 raise Py4JJavaError(
    327                     "An error occurred while calling {0}{1}{2}.\n".
    328                     format(target_id, ".", name), value)

Py4JJavaError: An error occurred while calling o41.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0) (windows10.microdone.cn executor driver): org.apache.spark.SparkException: Python worker failed to connect back.
	at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:189)
	at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:109)
	at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:124)
	at org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:164)
	at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:65)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:365)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:329)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:365)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:329)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:365)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:329)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:365)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:329)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:365)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:329)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:365)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:329)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
	at org.apache.spark.scheduler.Task.run(Task.scala:136)
	at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:548)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1504)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:551)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:750)
Caused by: java.net.SocketTimeoutException: Accept timed out
	at java.net.DualStackPlainSocketImpl.waitForNewConnection(Native Method)
	at java.net.DualStackPlainSocketImpl.socketAccept(DualStackPlainSocketImpl.java:131)
	at java.net.AbstractPlainSocketImpl.accept(AbstractPlainSocketImpl.java:535)
	at java.net.PlainSocketImpl.accept(PlainSocketImpl.java:189)
	at java.net.ServerSocket.implAccept(ServerSocket.java:545)
	at java.net.ServerSocket.accept(ServerSocket.java:513)
	at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:176)
	... 29 more

 解决方法:文章来源地址https://www.toymoban.com/news/detail-526769.html

#pip install findspark
import findspark
findspark.init()

#因为转载时间过长找不到spark所以报错

到了这里,关于Windows系统运行pyspark报错:Py4JJavaError的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux系统下Spark的下载与安装(pyspark运行示例)

    最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark 由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本 Spark和Hadoop版本对应关系如下: Spark版本 Hadoop版本 2.4.x 2.7.x 3.0.x 3.2.x 可进入终端查看Hadoop版本 我这里的版本是2.7.1,因此选择下载2.4版本的

    2024年01月25日
    浏览(31)
  • 【错误记录】PySpark 运行报错 ( Did not find winutils.exe | HADOOP_HOME and hadoop.home.dir are unset )

    核心报错信息 : WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. 在 PyCharm 中 , 调用 PySpark 执行 计算任务 , 会报如下错误 : 核心报错信息 : WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundExceptio

    2024年02月08日
    浏览(35)
  • 报错opencv Cannot find reference ‘imread‘ in ‘__init__.py‘,可以运行,但无法调用opencv算法

    测试代码为: 有问题的部分为: 灰色部分均为 Cannot find reference in \\\'__init__.py\\\'的报错,但程序可以运行并显示图片。 Cannot find reference ‘imread‘ in ‘__init__.py | __init__.py‘ http://t.csdn.cn/OEaoE 按照该文方法,修改至版本为 4.5.3.56,可以解决问题。但运行环境的opencv版本已经是 4

    2024年02月08日
    浏览(31)
  • pycharm中运行py文件时,报错:找不到自己编写的包等目录问题ModuleNotFoundError: No module named ‘xxx‘

    【 问题描述 】:pycharm中运行py文件时,报错:找不到自己编写的包等目录问题 【 报错 】: ModuleNotFoundError: No module named ‘xxx’ ERROR: file not found 【 问题定位 】:运行的py文件和用到的包或者数据不在同一个文件目录下时,就会找不到这些数据的路径 【 解决办法 】: 1)修改

    2024年02月15日
    浏览(36)
  • 【YOLOv4运行demo.py报错】:cv2.error: OpenCV(4.5.5) :-1: error: (-5:Bad argument) in function ‘rectangle‘

    最近在linux服务器上部署YOLOv4项目(https://github.com/Tianxiaomo/pytorch-YOLOv4),配置好环境以后,运行demo.py进行测试,报错如下: 报错显示,在调用函数cv2.rectangle时,无法分析“pt2”参数。索引为0的序列项的类型错误,去opencv官网查看用法如下: 这下对应上了,是第二个参数

    2024年02月12日
    浏览(38)
  • 如何将.py 文件打包成windows系统下可执行程序.exe

    在电脑已经安装python的情况下,我们是可以打开后缀为.py的文件,但如果你想把它发送给别的朋友,恰巧他的电脑没有安装python,你就需要将文件打包成.exe格式。 “WIN+R”打开“运行”窗口,输入“cmd”打开命令提示符。输入“pip install Pyinstaller”,下载安装Pyinstaller库。 安

    2023年04月16日
    浏览(47)
  • Pyspark综合案例(pyspark安装和java运行环境配置)

    一、RDD对象 PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象 RDD全称为:弹性分布式数据集(Resilient Distributed Datasets) PySpark针对数据的处理,都是以RDD对象作为载体,即: 数据存储在RDD内 各类数据的计算方法,也都是RDD的成员方法 RDD的数据计算方法

    2024年04月24日
    浏览(25)
  • 集群上运行pyspark

    一、PySpark应用背景 大规模结构化数据处理要求; scala编写函数对开发人员接受度低,python的高度简化代码完美契合数据处理过程; 和scala处理无任何性能上的差异; 二、PySpark原理 Spark是什么: 分布式(集群部署),高性能(基于内存可缓存磁盘),高可用的基于RDD(分区

    2024年04月10日
    浏览(30)
  • windows运行WPscan报错:无法打开库libcurl.dll

    弱密码可能很短或仅使用字母数字字符,让解密变得简单。弱密码也可以是容易的密码由分析用户的人猜测,例如生日、昵称、地址、 宠物或亲戚的名字,或常用词,如上帝、爱、金钱或密码 这就是CUPP诞生的原因,根据你对受害者的了解 (姓名、日期等)生成密码 Github - Cu

    2024年02月14日
    浏览(25)
  • 【分享】golang windows 运行报错 undefined: syscall.SIGUSR1

    在跟着煎鱼大佬学习 Golang-gin的时候,\\\"在优雅的重启服务篇\\\" ,为了gin服务的热更新,采用了 endless+fresh的方案,安装endless后无法在windows本地调试,然后报错。  (优雅的重启服务-地鼠文档 优雅的重启服务-我不怎么喜欢左写写,右写写,因此总是在不知不觉中写了不少的系列教

    2024年02月09日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包