Windows下配置Hadoop及Spark环境

这篇具有很好参考价值的文章主要介绍了Windows下配置Hadoop及Spark环境。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

教程所用各版本说明
Windows下配置Hadoop及Spark环境

一 JDK环境配置

~~由于项目用的JDK17，所以单独给Hadoop配了JDK11，建议直接配置JAVA_HOME环境变量为JDK11，因为后面Spark需要用到JAVA_HOME~~

下载JDK11

链接：https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html

目前Hadoop和Spark兼容JDK11和JDK8

单独修改Hadoop的话，需要在Hadoop目录下的etc\hadoop\文件夹中hadoop-env.cmd中添加一行
set JAVA_HOME=E:\Environment\jdk-11.0.13（此处填写你的JDK路径）

注：JDK、Hadoop以及Spark的文件路径中不能出现空格和中文，类似于Program Files这样的文件夹名是不被允许的

二 Hadoop配置

1 下载Hadoop

镜像链接：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/hadoop-3.3.2/

选择hadoop-3.3.2.tar.gz

下载winutils.exe和hadoop.dll，Windows安装Hadoop需要这部分文件

链接：https://github.com/cdarlint/winutils

找到对应的版本对应bin目录中的文件，放入Hadoop下的bin 文件夹中

2 配置Hadoop环境变量

把Hadoop目录添加到系统变量HADOOP_HOME，并在系统变量Path中添加%HADOOP_HOME%\bin

Windows下配置Hadoop及Spark环境

cmd输入

hadoop version

n测试是否正常显示版本信息

Windows下配置Hadoop及Spark环境

3 配置hadoop

打开Hadoop所在目录下etc\hadoop的文件夹

修改core-site.xml：

先在Hadoop目录下创建data文件夹，配置文件中路径前需加"/"。HDFS可使用localhost，如果在hosts文件已经配置了主机映射，也可以直接填主机名

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/tmp</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改hdfs-site.xml：

<configuration>
    <!-- 这个参数设置为1，因为是单机版hadoop -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/namenode</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/datanode</value> //注意前面部分路径修改为自己的
    </property>
</configuration>

修改mapred-site.xml：

<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
    <property>
       <name>mapred.job.tracker</name>
       <value>hdfs://localhost:9001</value>
    </property>
</configuration>

修改yarn-site.xml：

<configuration>
	 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
	<property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hahoop.mapred.ShuffleHandler</value>
    </property>
</configuration>