Java接入Apache Spark(入门环境搭建、常见问题)

这篇具有很好参考价值的文章主要介绍了Java接入Apache Spark(入门环境搭建、常见问题)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Java接入Apache Spark(环境搭建、常见问题)

背景介绍

Apache Spark 是一个快速的,通用的集群计算系统。它对 Java,Scala,Python 和 R 提供了的高层 API,并有一个经优化的支持通用执行图计算的引擎。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图计算的 GraphX 和 Spark Streaming。
Spark 是 MapReduce 的替代方案,而且兼容 HDFS、Hive,可融入 Hadoop 的生态系统,以弥补 MapReduce 的不足。,Spark 基于内存的运算要快 100 倍以上,基于硬盘的运算也要快 10 倍以上。Spark 实现了高效的 DAG 执行引擎,可以通过基于内存来高效处理数据流

Apache Spark官网:https://spark.apache.org/
Apache Spark中文官网:https://spark.apachecn.org/

开发环境

  • win11 操作系统
  • IntelliJ IDEA 2023.2.5
  • jdk1.8 (corretto-1.8.0_392)

资源下载

Hadoop下载
  • hadoop下载地址:
    https://hadoop.apache.org/releases.html
    Java接入Apache Spark(入门环境搭建、常见问题),java,apache,sparkJava接入Apache Spark(入门环境搭建、常见问题),java,apache,spark也可以直接进入下载列表,进行下载,我这里使用的是hadoop-3.3.6。下载地址:https://dlcdn.apache.org/hadoop/common/

Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark

Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark

winutils下载
  • winutils下载地址:
    gitHub:https://github.com/SirMin/winutils/tree/master
    下载该目录下的hadoop.dll 和 winutils.exe 文件
    Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark
    或者直接在CSDN下载,【免费】不需要积分。
    Hadoop 3.3.6 Windows系统安装包 和 winutils的文件

安装环境

安装Hadoop【别安装在 Program Files这类带空格的文件夹下,因为环境变量找不着!!!】
  • 将下载好的hadoop-3.3.6.tar.gz包,放到想要安装的目录,我这里是放在D盘(D:\hadoop-3.3.6.tar.gz)

  • 解压hadoop-3.3.6.tar.gz文件【注意:需要在cmd中以管理员身份运行】
    Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark

  • 进入文件目录
    Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark
    等待执行结束

  • 配置HADOOP_HOME环境变量,进入 此电脑 -> 右键 -> 属性 -> 高级系统设置 -> 环境变量
    Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark选择新建,配置变量名 HADOOP_HOME ,变量值为 hadoop的解压路径
    然后在系统变量的path中加入以下两个变量,保存即可。
    Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark

%HADOOP_HOME%\bin
%HADOOP_HOME%\sbin

Java接入Apache Spark(入门环境搭建、常见问题),java,apache,sparkJava接入Apache Spark(入门环境搭建、常见问题),java,apache,spark

tar zxvf hadoop-3.3.6.tar.gz

解压后路径

D:\hadoop-3.3.6
  • 配置 Hadoop 环境脚本
    在解压后的路径中(D:\Program Files\hadoop-3.3.6)找到D:\Program Files\hadoop-3.3.6\etc\hadoop\hadoop-env.cmd脚本,配置JDK的JAVA_HOME真实路径。
    Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark
## 替换前
set JAVA_HOME=%JAVA_HOME%
## 替换后
set JAVA_HOME=C:\Users\cessz\.jdks\corretto-1.8.0_392
安装winutils
  • 将winutils下载地址里 hadoop.dll 和 winutils.exe 文件拷贝到 C:\Windows\System32
    目录中

    重启电脑

  • 或者将winutils下载地址里的所有文件下载下来放入,hadoop的bin文件夹(D:\hadoop-3.3.6\bin)

    重启IDEA

检查是否安装成功

  • 检测环境变量是否配置成功
    bash hadoop -version

    Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark

  • 在IDEA中测试
    引入依赖

<dependency> <!-- Spark dependency -->
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.5.0</version>
    <scope>provided</scope>
</dependency>
<dependency> <!-- Spark dependency -->
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.12</artifactId>
    <version>3.5.0</version>
    <scope>provided</scope>
</dependency>

编写测试Application

import org.apache.spark.api.java.function.FilterFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.SparkSession;

public class SimpleApp {
    public static void main(String[] args) {
        String logFile = "D:\\IdeaProjects\\project\\README.md";
        SparkSession spark = SparkSession.builder().appName("Simple Application").master("local[*]").getOrCreate();
        Dataset<String> logData = spark.read().textFile(logFile).cache();

        long numAs = logData.filter((FilterFunction<String>) s -> s.contains("base")).count();
        long numBs = logData.filter((FilterFunction<String>) s -> s.contains("common")).count();

        System.out.println("Lines with base: " + numAs + ", lines with common: " + numBs);
        spark.stop();
    }
}

查看打印读取到的字符数量
Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark

常见问题

启动问题:IDEA:Error running,Command line is too long. Shorten command line启动行过长

解决方案:
打开Edit Configurations,配置保存完成,Apply之后启动即可。
Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark
Java接入Apache Spark(入门环境搭建、常见问题),java,apache,sparkJava接入Apache Spark(入门环境搭建、常见问题),java,apache,sparkJava接入Apache Spark(入门环境搭建、常见问题),java,apache,sparkJava接入Apache Spark(入门环境搭建、常见问题),java,apache,spark

Spark执行任务时,找不到主节点 Exception in thread “main” org.apache.spark.SparkException: A master URL must be set in your configuration

在Spark中,主节点的地址配置位于spark.master属性中,默认值为local[],表示使用本地模式运行。本文章是本地搭建使用的,所以加上 .master("local[]") 即可。
Java接入Apache Spark(入门环境搭建、常见问题),java,apache,spark文章来源地址https://www.toymoban.com/news/detail-786386.html

参考博客

  • java Exception in thread “main” org.apache.spark.SparkException: A master UR
  • IDEA:Error running,Command line is too long. Shorten command line解决方案
  • Java大数据处理框架推荐:处理大数据的工具推荐
  • 【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils )
  • Hadoop3.x配置流程(Windows)

到了这里,关于Java接入Apache Spark(入门环境搭建、常见问题)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • oracle 19c环境常见问题汇总

    1、rman备份时会消耗这么多临时表空间 参考MOS: RMAN-08132: Warning: Cannot Update Recovery Area ORA-01652: unable to extend temp segment by 64 in tablespace TEMP (Doc ID 2658437.1) Known RMAN Performance Problems (Doc ID 247611.1) 处理办法:备份时,会话级别将optimizer_mode由ALL_ROWS改成RULE RMAN sql \\\"alter session set optimi

    2024年02月12日
    浏览(52)
  • 详解:搭建常见问题(FAQ)的步骤?

    许多的Web用户都更加偏向于可信赖的FAQ页面,以此作为快速查找更多信息的方法。因为用户时间的紧缺,并且想知道产品的功能和能够提供的服务。构造精巧的FAQ页面是提供人们寻求信息的绝妙方法,而且还可以提供更多的信息。这就是为什么FAQ页面对企业、客户和企业的利

    2024年02月02日
    浏览(39)
  • Windows环境下运行StableDiffusion常见问题

    目录 常见问题 一、问题1:22.2.2➡23.1.1 Torch is not able to use GPU 解决方案 二、问题2:exit code:128 CLIP did not run sucessfully 解决方案 三、问题3:exit code:128  open-clip did not run sucessfully 解决方案 四、问题4:exit code:128  gfpgan did not run sucessfully 解决方案 五、问题5:exit code:128  stable

    2024年02月06日
    浏览(45)
  • 本机使用python操作hdfs搭建及常见问题

    一、虚拟机安装CentOS7并配置共享文件夹 二、CentOS 7 上hadoop伪分布式搭建全流程完整教程 三、本机使用python操作hdfs搭建及常见问题 四、mapreduce搭建 五、mapper-reducer编程搭建 六、hive数据仓库安装 1.打开虚拟机系统,打开hadoop 确保网页可以打开 2.修改本机hosts文件 ifconfig 查看

    2024年01月18日
    浏览(45)
  • 新版pycharm导入conda虚拟环境及常见问题、错误

    旧版pycharm导入conda虚拟环境链接(仅供参考):https://blog.csdn.net/aiscong/article/details/128737430?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522169503353316800185889273%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257Drequest_id=169503353316800185889273biz_id=0utm_medium=distribute.pc_search_result.none-task-blog-2

    2024年02月04日
    浏览(69)
  • ARM64架构环境安装RPM包常见问题汇总

    工作|ARM64架构环境安装RPM包常见问题汇总 一 ARM架构安装RPM包思路 服务器市场X86架构系统一家独大,很多功能包的RPM包在官网几乎只有X86架构的,找不到ARM64架构,但你需要在ARM64架构系统用该功能,怎么办呢? 遇到这种场景,解决的办法有两个: 1 下载源码到ARM64环境编译

    2024年02月07日
    浏览(49)
  • 电脑入门:路由器常见问题排错步骤

    HiPER系列路由器使用中Ping LAN口不通的诊断步骤 准备工作: 在可以ping通的时候记录下路由器LAN口的MAC地址: 命令hiper% show interface ethernet/1 mac       Mac :              0022aa419d1e 以下步骤在ping不通路由器的时候依次操作,并记下结果: 步骤一:观察设备各端口灯是否正

    2024年02月10日
    浏览(46)
  • HOJ 系统常用功能介绍 OJ部署定制快速入门 c++ python Java编程在线自动评测判题 信息奥赛一本通 USACO G E S P 蓝桥 CSP NOIP 蓝桥等考题库 常见问题

    技术支持微  makytony   终身更新维护 功能类似洛谷和信息奥赛一本通,支持CSP复赛中的freopen文件输入输出方式提交,模拟真实考试环境,防止出现 本地  AC 比赛  WA  PA TLE  爆零 的惨剧。 组织比赛作业,创建题目、查看用户提交代码、下载评测数据等都没限制。 约  328

    2024年01月25日
    浏览(35)
  • docker搭建redis三主三从集群,及其常见问题解决

    每个配置文件都要修改对应的端口 容器内端口不能都是是6379,集群总线接口是端口号+10000 端口号与network_mode: \\\"host\\\"不能一起配置,出现下述问题 “主机”网络模式与端口绑定不兼容 问题,具体看github,有对应解释。 如果一直卡在 Waiting for the cluster to join ,那一般是端口问题

    2024年02月11日
    浏览(55)
  • vscode连接linux虚拟机 环境配置和常见问题解决方案

    vscode连接linux虚拟机配置环境步骤 1、自己安装vscode ,傻瓜式安装,配置ssh插件 2、配置虚拟机 (1)确保自己的虚拟机上的ssh服务可用 打开虚拟机,在终端命令行上敲入:sudo apt-get install openssh-server 进行安装。(有的Ubuntu版本在系统安装好就已经自带了) (2)确定自己虚拟机

    2024年02月16日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包