1、hadoop 包下载
- 清华大学开源软件镜像站下载(速度较快,但版本不全)
- 官方各个版本
下载后解压。
添加环境变量 HADOOP_HOME。并将 %HADOOP_HOME%/bin、%HADOOP_HOME%/sbin 添加到 path 中。
ps:本文使用的是 hadoop-3.3.2
2、windows 环境准备
windows 所需文件:winutils.exe、hadoop.dll
可从 GitHub 下载(不全)。
- winutils.exe 放到 %HADOOP_HOME%/bin 下面。
- hadoop.dll 放到 windows\system32 下面(也可以放到 %HADOOP_HOME%/bin 下面,加到 path 环境变量就行)。
3、配置
(可选)修改 %HADOOP_HOME%/etc/hadoop 下面的脚本 hadoop-env.cmd,修改 JAVA_HOME 为本机jdk安装时配置的目录。
修改 %HADOOP_HOME%/etc/hadoop 下面的配置文件:core-site.xml、 hdfs-site.xml、 mapred-site.xml、 yarn-site.xml
- core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://0.0.0.0:8020</value>
</property>
<!--用来指定使用hadoop时产生文件的存放目录, -->
<property>
<name>hadoop.tmp.dir</name>
<value>/D:/Programs/hadoop-3.3.2/temp</value>
</property>
</configuration>
- hdfs-site.xml
<configuration>
<!--指定hdfs保存数据的副本数量-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--指定hdfs中namenode的存储位置-->
<property>
<name>dfs.namenode.name.dir</name>
<value>/D:/Programs/hadoop-3.3.2/data/namenode</value>
</property>
<!--指定hdfs中datanode的存储位置-->
<property>
<name>dfs.datanode.data.dir</name>
<value>/D:/Programs/hadoop-3.3.2/data/datanode</value>
</property>
<property>
<name>dfs.http.address</name>
<value>0.0.0.0:50070</value>
</property>
</configuration>
- mapred-site.xml
<configuration>
<!--告诉hadoop以后MR(Map/Reduce)运行在YARN上-->
<property>
<description>The hostname of the RM.</description>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<!--nomenodeManager获取数据的方式是shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--指定 ResourceManager 的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>0.0.0.0</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<!--Yarn打印工作日志-->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
</configuration>
第一次运行前,需要格式化HDFS:
hadoop namenode -format
运行:start-dfs.cmd、start-yarn.cmd(需要以管理员运行 cmd);(或 start-all.cmd )
然后访问:
- http://localhost:8088 查看集群状态
- http://localhost:50070 访问hdfs
- http://localhost:19888 查看JobHistory(需要先启动jobHistoryserver)
4、一些报错
未指定 hadoop.tmp.dir(core-site.xml) :
2023-07-03 11:05:24,913 INFO localizer.ResourceLocalizationService: usercache path : file:/tmp/hadoop-a/nm-local-dir/usercache_DEL_1688353524257
2023-07-03 11:05:24,945 WARN nativeio.NativeIO: NativeIO.getStat error (3): 系统找不到指定的路径。
-- file path: tmp/hadoop-a/nm-local-dir/filecache
2023-07-03 11:05:25,013 WARN nativeio.NativeIO: NativeIO.getStat error (3): 系统找不到指定的路径。
-- file path: tmp/hadoop-a/nm-local-dir/usercache
2023-07-03 11:05:25,072 WARN nativeio.NativeIO: NativeIO.getStat error (3): 系统找不到指定的路径。
-- file path: tmp/hadoop-a/nm-local-dir/nmPrivate
非管理员运行 start-yarn.cmd :
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Failed to setup local dir D:/Programs/hadoop-3.3.2/temp/nm-local-dir, which was marked as good.
填指定 ip 时,则 只会监听该 ip。地址填 0.0.0.0 时,能够监听本机其他 ip。文章来源:https://www.toymoban.com/news/detail-601884.html
如 yarn-site.xml 中的 yarn.resourcemanager.hostname。填 10.10.3.16 时,只能通过 10.10.3.16:8088 访问resourcemanager的webui,使用 localhost:8088 无法访问。文章来源地址https://www.toymoban.com/news/detail-601884.html
到了这里,关于windows hadoop 开发测试版快速搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!