IDEA2022 配置spark开发环境

这篇具有很好参考价值的文章主要介绍了IDEA2022 配置spark开发环境。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本人强烈建议在 linux环境下 学习 spark!!!

Introduction

  • Apache Spark是一个快速且通用的分布式计算引擎,可以在大规模数据集上进行高效的数据处理,包括数据转换、数据清洗、机器学习等。在本文中,我们将讨论如何在Windows上配置Spark开发环境,以及如何进行开发和测试等。

安装 Java 和 Spark

  • 为了在Windows上使用Spark开发环境,你需要先安装JavaSpark,并配置环境变量。你可以从Oracle官网下载最新版本的Java Development Kit(JDK),然后安装它。在安装完成后,你需要将Java的安装目录添加到系统环境变量中,以便Spark可以找到Java。接下来,你可以从Apache Spark官网下载适用于Windows的二进制文件,并解压到本地目录。
    IDEA2022 配置spark开发环境
    IDEA2022 配置spark开发环境

使用 Pyspark 或 Spark shell

  • 在下载Spark二进制文件后,你可以使用PysparkSpark shell在本地或集群上进行开发。Pyspark是一个Python API,可以使开发者用Python编写Spark应用程序。Spark shell是一个交互式环境,可以允许你使用ScalaJavaPython来调试和测试Spark代码。你可以在命令行中输入“pyspark”或“spark-shell”命令来启动相应的环境。

安装 Winutils 工具

  • Winutils是一个用于在Windows上运行Hadoop的工具,它提供了一些必要的组件和环境变量,以便Spark可以在Windows上运行。你需要从Apache官网下载Winutils二进制文件,并解压到本地目录。接下来,你需要将Winutils的安装目录添加到系统环境变量中,以便Spark可以找到它。
  • 切记:下载与自己hadoop对应的版本,并将原本hadoop/bin替换掉!

Conclusion

  • 在开发和部署Spark应用程序时,确保你了解Spark的最佳实践和安全性措施,以避免潜在的安全漏洞和性能问题。你可以使用一些第三方的库来扩展你的Spark开发环境,例如PyroliteSparkR。此外,你还可以考虑使用一些数据可视化工具来帮助你更好地了解和展示你的数据,例如TableauPowerBI等。最后,要时刻注意更新你的环境和依赖库,以保持最新的功能和性能优化。

使用集成开发环境(IDE)

  • 除了使用PysparkSpark shell,你还可以考虑使用一些集成开发环境(IDE)来提高开发效率,例如PyCharmIntelliJ IDEA等。这些IDE提供了更强大的代码编辑、自动补全和调试功能,可以帮助你更快地开发和测试Spark应用程序。此外,一些IDE还提供了一些有用的插件,可以帮助你更好地管理你的项目和依赖库。
    IDEA2022 配置spark开发环境

安装下列插件:

IDEA2022 配置spark开发环境IDEA2022 配置spark开发环境
IDEA2022 配置spark开发环境

在集群上运行 Spark 应用程序

  • 在使用集群时,确保你有足够的资源来支持你的开发和测试,例如足够的内存和处理器。你可以使用一些集群管理工具,例如Apache HadoopApache Mesos或者Apache YARN等来管理和分配资源。在部署Spark应用程序时,你需要将你的应用程序打包成一个jar文件,并将其提交到集群中运行。你可以使用一些工具,例如Apache MavenSBT等来打包和管理你的应用程序。
  • 如果你已经在Windows上配置了Spark开发环境,可以考虑使用sbt来打包和管理你的应用程序,而不是使用maven打包和管理。这可以帮助你更好地管理你的依赖库和构建过程,并提高你的开发效率。另外,你还需要时刻注意更新你的环境和依赖库,以保持最新的功能和性能优化。
    附上:SBT的使用教程

创建mvn项目:

IDEA2022 配置spark开发环境

扩展你的 Spark 开发环境

  • 你可以使用一些第三方的库来扩展你的Spark开发环境,例如PyroliteSparkRPyrolite是一个Python库,可以让你在Python中使用Java类和对象,从而方便你与Java代码进行交互。SparkR是一个R语言的API,可以让你用R语言编写Spark应用程序。此外,你还可以使用一些数据可视化工具来帮助你更好地了解和展示你的数据,例如Tableau和PowerBI等。
    IDEA2022 配置spark开发环境IDEA2022 配置spark开发环境

更新你的环境和依赖库

  • 最后,在开发Spark应用程序时,你需要时刻注意更新你的环境和依赖库,以保持最新的功能和性能优化。你可以使用一些工具,例如Apache Maven或SBT等来管理你的依赖库,并定期更新它们。此外,你还需要定期更新你的Spark版本和相关组件,以获得最新的功能和修复潜在的漏洞。

Bugs 修复

scalac: Error: Error compiling the sbt component 'compiler-interface-2.11.8-61.0'
sbt.internal.inc.CompileFailed: Error compiling the sbt component 'compiler-interface-2.11.8-61.0'
	at sbt.internal.inc.AnalyzingCompiler$.handleCompilationError$1(AnalyzingCompiler.scala:436)
	at sbt.internal.inc.AnalyzingCompiler$.$anonfun$compileSources$5(AnalyzingCompiler.scala:453)
	at sbt.internal.inc.AnalyzingCompiler$.$anonfun$compileSources$5$adapted(AnalyzingCompiler.scala:448)
	at sbt.io.IO$.withTemporaryDirectory(IO.scala:490)
	at sbt.io.IO$.withTemporaryDirectory(IO.scala:500)
	at sbt.internal.inc.AnalyzingCompiler$.$anonfun$compileSources$2(AnalyzingCompiler.scala:448)
	at sbt.internal.inc.AnalyzingCompiler$.$anonfun$compileSources$2$adapted(AnalyzingCompiler.scala:440)
	at sbt.io.IO$.withTemporaryDirectory(IO.scala:490)
	at sbt.io.IO$.withTemporaryDirectory(IO.scala:500)
	at sbt.internal.inc.AnalyzingCompiler$.compileSources(AnalyzingCompiler.scala:440)
	at org.jetbrains.jps.incremental.scala.local.CompilerFactoryImpl$.org$jetbrains$jps$incremental$scala$local$CompilerFactoryImpl$$getOrCompileInterfaceJar(CompilerFactoryImpl.scala:162)
	at org.jetbrains.jps.incremental.scala.local.CompilerFactoryImpl.$anonfun$getScalac$1(CompilerFactoryImpl.scala:58)
	at scala.Option.map(Option.scala:242)
	at org.jetbrains.jps.incremental.scala.local.CompilerFactoryImpl.getScalac(CompilerFactoryImpl.scala:51)
	at org.jetbrains.jps.incremental.scala.local.CompilerFactoryImpl.createCompiler(CompilerFactoryImpl.scala:20)
	at org.jetbrains.jps.incremental.scala.local.CachingFactory.$anonfun$createCompiler$3(CachingFactory.scala:21)
	at org.jetbrains.jps.incremental.scala.local.Cache.$anonfun$getOrUpdate$2(Cache.scala:17)
	at scala.Option.getOrElse(Option.scala:201)
	at org.jetbrains.jps.incremental.scala.local.Cache.getOrUpdate(Cache.scala:16)
	at org.jetbrains.jps.incremental.scala.local.CachingFactory.createCompiler(CachingFactory.scala:21)
	at org.jetbrains.jps.incremental.scala.local.LocalServer.doCompile(LocalServer.scala:40)
	at org.jetbrains.jps.incremental.scala.local.LocalServer.compile(LocalServer.scala:27)
	at org.jetbrains.jps.incremental.scala.remote.Main$.compileLogic(Main.scala:206)
	at org.jetbrains.jps.incremental.scala.remote.Main$.$anonfun$handleCommand$1(Main.scala:193)
	at org.jetbrains.jps.incremental.scala.remote.Main$.decorated$1(Main.scala:183)
	at org.jetbrains.jps.incremental.scala.remote.Main$.handleCommand(Main.scala:190)
	at org.jetbrains.jps.incremental.scala.remote.Main$.serverLogic(Main.scala:166)
	at org.jetbrains.jps.incremental.scala.remote.Main$.nailMain(Main.scala:106)
	at org.jetbrains.jps.incremental.scala.remote.Main.nailMain(Main.scala)
	at jdk.internal.reflect.GeneratedMethodAccessor3.invoke(Unknown Source)
	at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.base/java.lang.reflect.Method.invoke(Method.java:568)
	at com.facebook.nailgun.NGSession.runImpl(NGSession.java:312)
	at com.facebook.nailgun.NGSession.run(NGSession.java:198)

解决办法
IDEA2022 配置spark开发环境
检查此处配置!


Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties

SPARK_HOME/conf 目录下的 log4j.properties.template 重命名为 log4j.properties


23/03/02 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13
23/03/02 18:29:34 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
    at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278)
    at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300)
    at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293)
    at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76)
    at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:362)
    at <br>org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
    at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
    at <br>org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)
    at <br>org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)<br>
    at scala.Option.map(Option.scala:145)<br>
    at org.apache.spark.rdd.HadoopRDD.getJobConf(HadoopRDD.scala:176)<br>
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:195)<br>
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)<br>
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)<br>
    at scala.Option.getOrElse(Option.scala:120)<br>
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)<br>
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)<br>
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)<br>
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)<br>
    at scala.Option.getOrElse(Option.scala:120)<br>
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)<br>
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:1929)<br>
    at org.apache.spark.rdd.RDD.count(RDD.scala:1143)<br>
    at com.org.SparkDF.FrameDemo$.main(FrameDemo.scala:14)<br>
    at com.org.SparkDF.FrameDemo.main(FrameDemo.scala)<br>

以编程方式设置 HADOOP_HOME 环境变量:文章来源地址https://www.toymoban.com/news/detail-496659.html

System.setProperty(“hadoop.home.dir”, “full path to the folder with winutils”);

总结

  • 在本文中,我们讨论了如何在Windows上配置Spark开发环境,并介绍了如何使用PysparkSpark shell进行开发和测试。此外,我们还讨论了如何使用集成开发环境(IDE)和扩展你的Spark开发环境。最后,我们提醒你时刻注意更新你的环境和依赖库,以保持最新的功能和性能优化。如果你正在学习Spark开发,希望这篇文章能够帮助你更好地开始你的Spark开发之旅。

到了这里,关于IDEA2022 配置spark开发环境的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 在IDEA运行spark程序(搭建Spark开发环境)

           建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境,以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习,在window系统上可以不用安装hadoop和spark,spark程序可以通过pom.xml的文件配置,添加spark-core依赖,可以直接在IDEA中编写spark程序

    2024年02月06日
    浏览(34)
  • IntelliJ IDEA无公网远程Linux服务器环境开发(建议收藏!)

    IDEA的远程开发功能,可以将本地的编译、构建、调试、运行等工作都放在远程服务器上执行,而本地仅运行客户端软件进行常规的开发操作即可,旧版本IDEA目前不支持该功能.,本例使用的是IDEA2023.2.5版本 下面介绍如何在IDEA中设置远程连接服务器开发环境并结合Cpolar内网穿透工

    2024年02月05日
    浏览(34)
  • 程序员强烈推荐:IDEA 常用配置指南

    1.1 基本配置 图 1.1-1 修改更改主题 + 背景图片 如果IDEA版本是2023.1.2以后的版本可以开启 newUI 体验新版的UI界面,我个人是挺喜欢的🌝 1.2 快捷键配置 图1.2-1 修改快捷键 2.1 配置GIT 图2.1-1配置git 【git提交的几个小建议】 建议对git提交人和提交信息进行规范,同时代码提交应当

    2024年02月09日
    浏览(34)
  • Intellij IDEA编写Spark应用程序的环境配置和操作步骤

    本文介绍如何在win系统中使用IDEA开发spark应用程序,并将其打成jar包上传到虚拟机中的三个Ubuntu系统,然后在分布式环境中运行。 主要步骤包括: 安装Scala插件:在Intellij IDEA中安装Scala插件,并重启IDEA。 创建Maven项目:在Intellij IDEA中创建一个Maven项目,选择Scala语言,并添加

    2024年02月12日
    浏览(35)
  • Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)

    本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置:` 跟着做就行… 资源都在网盘里面,纯粹的无脑配置… 提示:以下是本篇文章正文内容,所用资源版本过低,用于课本实验 ,且已有Java环境 scala:2.12.8 spark:1.6.2 hadoop:2.6.4 hadoop启动文件exe JAVA 如果按照

    2024年02月09日
    浏览(39)
  • 使用 VS2022 配置 QT 开发环境的步骤

    使用 VS2022 配置 QT 开发环境的步骤 QT 是一个跨平台的 C++ GUI 库,可以在 Windows、Mac、Linux 等操作系统上运行。在 Visual Studio 2022 中配置 QT 的开发环境,可以让开发者在 Windows 平台上更加便捷地进行 QT 开发。下面是具体的配置步骤: 步骤一:安装 QT 首先,需要从 QT 官网上下载

    2024年02月07日
    浏览(32)
  • 音视频开发十七:Windows VS 2022 环境配置SDL2开发环境

    SDL(Simple DirectMedia Layer)是 一套开放源代码的跨平台多媒体开发库 , 使用C语言写成 。能够提供视频渲染,音频播放,鼠标/键盘控制等操作。 跨平台是说它对外接供了一套统一的接口,但在内部, 它会根据不同平台调用不同的底层 API库 。如在 Linux 系统下,它会使用 ope

    2024年02月10日
    浏览(28)
  • Visual Studio 2022 cmake配置opencv开发环境

    这里我用的是 widnows 10 64位 , Visual Studio 用的 Visual Studio Community 2022 (社区版) 对于 Android 开发工程师来说,为什么要使用 Visual Studio 呢 ? 因为在 Visual Studio 中开发调试 OpenCV 方便,可以开发调试好后,再移植到 Android 中。 官方地址在这里 : 官方下载地址 不过官方下载地址可能

    2024年02月07日
    浏览(59)
  • FBX SDK 开发环境配置 visual studio 2022

    FBX | Adaptable File Formats for 3D Animation Software | Autodesk. 下载windows的sdk并安装. 创建一个c++ console 工程 设置include目录 添加预处理宏 FBX_SHARED=1 添加fbx sdk lib 目录 添加依赖lib :  libfbxsdk-md.lib libxml2-md.lib zlib-md.lib 配置完毕.

    2024年02月10日
    浏览(32)
  • VS2022 永久配置OpenCV4.7.0开发环境

    Releases - OpenCV https://opencv.org/releases/ 官网下载Visual Studio   2022 下载 Visual Studio Tools - 免费安装 Windows、Mac、Linux 免费下载 Visual Studio IDE 或 VS Code。 在 Windows、Mac 上试用 Visual Studio Professional 或企业版。 https://visualstudio.microsoft.com/zh-hans/downloads/ 每次新建一个OpenCV  项目都要重新

    2024年02月06日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包