Windows下配置Hadoop及Spark环境

这篇具有很好参考价值的文章主要介绍了Windows下配置Hadoop及Spark环境。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

教程所用各版本说明
Windows下配置Hadoop及Spark环境

一 JDK环境配置

由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME

下载JDK11

链接:https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html

目前Hadoop和Spark兼容JDK11JDK8

单独修改Hadoop的话,需要在Hadoop目录下的etc\hadoop\文件夹中hadoop-env.cmd中添加一行
set JAVA_HOME=E:\Environment\jdk-11.0.13(此处填写你的JDK路径)

注:JDK、Hadoop以及Spark的文件路径中不能出现空格和中文,类似于Program Files这样的文件夹名是不被允许的

二 Hadoop配置

1 下载Hadoop

镜像链接:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/hadoop-3.3.2/

选择hadoop-3.3.2.tar.gz

下载winutils.exe和hadoop.dll,Windows安装Hadoop需要这部分文件

链接:https://github.com/cdarlint/winutils

找到对应的版本对应bin目录中的文件,放入Hadoop下的bin 文件夹中

2 配置Hadoop环境变量

把Hadoop目录添加到系统变量HADOOP_HOME,并在系统变量Path中添加%HADOOP_HOME%\bin

Windows下配置Hadoop及Spark环境

cmd输入

hadoop version

n测试是否正常显示版本信息

Windows下配置Hadoop及Spark环境

3 配置hadoop

打开Hadoop所在目录下etc\hadoop的文件夹

修改core-site.xml

先在Hadoop目录下创建data文件夹,配置文件中路径前需加"/"。HDFS可使用localhost,如果在hosts文件已经配置了主机映射,也可以直接填主机名

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/tmp</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改hdfs-site.xml

<configuration>
    <!-- 这个参数设置为1,因为是单机版hadoop -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/namenode</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/datanode</value> //注意前面部分路径修改为自己的
    </property>
</configuration>

修改mapred-site.xml

<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
    <property>
       <name>mapred.job.tracker</name>
       <value>hdfs://localhost:9001</value>
    </property>
</configuration>

修改yarn-site.xml

<configuration>
	 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
	<property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hahoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

4 节点格式化

打开cmd输入

hdfs namenode -format

出现类似下图说明成功。如果出错,可能原因有如:环境变量配置错误如路径出现空格,或者winutils版本不对或hadoop版本过高等,或hadoop的etc下文件配置有误

Windows下配置Hadoop及Spark环境

5 启动Hadoop

然后cmd切换到Hadoop下的sbin目录,输入

start-all.cmd

然后回车,此时会弹出4个cmd窗口,分别是NameNode、ResourceManager、NodeManager、DataNode。检查4个窗口有没有报错。在CMD执行jps看到这4个进程,启动成功

浏览器输入localhost:9870即进入访问HDFS的Web UI界面

Windows下配置Hadoop及Spark环境

浏览器输入localhost:8088即进入Yarn集群节点的Web UI界面

Windows下配置Hadoop及Spark环境

三 Spark配置

1 下载Scala

下载链接:https://www.scala-lang.org/download/2.13.8.html

选择scala-2.13.8.zip

2 配置Scala环境变量

将解压后的Scala的bin目录添加到Path系统变量中,打开cmd输入

scala

然后回车,如果能够正常进入到Scala的交互命令环境则表明配置成功

Windows下配置Hadoop及Spark环境

3 下载Spark

由于spark-3.2.1版本在启动时会出现一点问题,具体原因没有深究。但尝试降低版本变成3.1.3版本后正常运行,所以就选择配置spark-3.1.3

Spark3.1.3和JDK11启动时会出现WARNING,更新到3.3.1和JDK17就好了

官网链接:https://dlcdn.apache.org/spark/

镜像地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/

「需要注意的是spark版本需要和hadoop版本对应.如果按照本文的配置即可忽略此行文字」

4 配置Spark环境变量

把Spark目录添加到系统变量SPARK_HOME,并在系统变量Path中添加%SPARK_HOME%\bin

Windows下配置Hadoop及Spark环境

5 启动Spark

打开cmd窗口,输入

spark-shell

然后回车,如果能够正常进入到Spark的交互式命令行模式,则表明配置成功

Windows下配置Hadoop及Spark环境

浏览器输入localhost:4040即进入Spark的Web UI界面

Windows下配置Hadoop及Spark环境文章来源地址https://www.toymoban.com/news/detail-419775.html

到了这里,关于Windows下配置Hadoop及Spark环境的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Windows下Github配置ssh公钥(演示时所用系统为Windows11)

    从Github上拉取项目或提交修改时,使用https的方式,每次都要输入账号密码,很麻烦。使用ssh的方式则可以解决这个问题。 配置ssh key的步骤: (1)使用git在本地生成公钥和密钥文件(id_rsa.pub、id_rsa) (2)将生成的公钥添加到Github账号 (3)在git的身份验证代理程序ssh-age

    2024年02月14日
    浏览(27)
  • Windows 环境下 Hadoop 的安装和配置

    Windows10 JDK1.8.0_192 Hadoop2.7.3 首先要安装好Java。没装的先搜索安装Java的教程吧。 这里我已经安装好了,需要配置好环境变量,Hadoop的安装会用到。 路径:C:Program FilesJavajdk1.8.0_192 环境变量:HAVA_HOME,值:C:Program FilesJavajdk1.8.0_192 从hadoop-2.7.3下载hadoop-2.7.3.tar.gz,解压后放到

    2024年02月08日
    浏览(27)
  • Windows环境下Hadoop的安装和配置

    Windows10 JDK1.8.0_192 Hadoop2.7.3 首先要安装好Java。没装的先搜索安装Java的教程吧。 这里我已经安装好了,需要配置好环境变量,Hadoop的安装会用到。 路径:C:Program FilesJavajdk1.8.0_192 环境变量:HAVA_HOME,值:C:Program FilesJavajdk1.8.0_192 从hadoop-2.7.3下载hadoop-2.7.3.tar.gz,解压后放到

    2023年04月08日
    浏览(28)
  • Spark环境搭建安装及配置详细步骤(保姆教程)

    1 Spark-Local 模式  1.1 解压缩文件  将 spark-2.1.1-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中。  1.2 启动 Local 环境  1) 进入解压缩后的路径,执行如下指令   2) 启动成功后,可以输入网址进行 Web UI 监控页面访问   1.4 退出本地模式  按键 Ctrl+C 或输入

    2024年02月02日
    浏览(38)
  • Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)

    本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置:` 跟着做就行… 资源都在网盘里面,纯粹的无脑配置… 提示:以下是本篇文章正文内容,所用资源版本过低,用于课本实验 ,且已有Java环境 scala:2.12.8 spark:1.6.2 hadoop:2.6.4 hadoop启动文件exe JAVA 如果按照

    2024年02月09日
    浏览(39)
  • Hadoop(伪分布式)+Spark(local模式)搭建Hadoop和Spark组合环境

    环境 使用 Ubuntu 14.04 64位 作为系统环境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统。 Hadoop版本 : Hadoop 2.7.4 创建hadoop用户 如果你安装 Ubuntu 的时候不是用的 \\\"hadoop\\\" 用户,那么需要增加一个名为 hadoop 的用户。 首先按 ctrl+alt+t 打开终端窗口,输入如下命令创

    2023年04月08日
    浏览(56)
  • Windows运行Spark所需的Hadoop安装

    解压文件  复制bin目录         找到winutils-master文件hadoop对应的bin目录版本         全部复制替换掉hadoop的bin目录文件  复制hadoop.dll文件         将bin目录下的hadoop.dll文件复制到System32目录下    配置环境变量  修改hadoop-env.cmd配置文件 注意jdk装在非C盘则完全没问题,

    2024年02月10日
    浏览(32)
  • Hadoop+Hive+Spark+Hbase开发环境练习

    1.练习一 1. 数据准备 在hdfs上创建文件夹,上传csv文件 [root@kb129 ~]# hdfs dfs -mkdir -p /app/data/exam 查看csv文件行数 [root@kb129 ~]# hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l 2. 分别使用 RDD和 Spark SQL 完成以下分析(不用考虑数据去重) 开启spark shell [root@kb129 ~]# spark-shell (1)加载

    2024年02月03日
    浏览(37)
  • gradle安装配置详细教程(windows环境)

    先清理本地的gradle文件,不要在未安装gradle的情况下使用idea构建gradle项目 根据自己的项目,选择合适版本的gradle 正确显示版本号,则安装成功 6.1.gradle和maven类似,也需要配置仓库地址,首先新建一个文件夹 6.2.在环境变量中配置默认的仓库地址 GRADLE_USER_HOME 阿里云云效gra

    2024年02月19日
    浏览(39)
  • 【深度学习】windows10环境配置详细教程

    Anaconda3常用命令 【官方地址】 页面拉倒底部,下载最新版本 挂VPN下载速度才能起来 安装过程: next–同意协议–所有用户–选择安装位置–确认–安装完成 安装完成: CMD打开命令终执行命令,表示正在使用conda基本版的环境。 可能会出现 “‘conda’ 不是内部或外部命令,也不是

    2023年04月09日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包