Hadoop3.3.5最新版本安装分布式集群部署

这篇具有很好参考价值的文章主要介绍了Hadoop3.3.5最新版本安装分布式集群部署。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Index of /dist/hadoop/commonhttps://archive.apache.org/dist/hadoop/common

 集群规划:

注意:

  • NameNode和SecondaryNameNode不要安装在同一台服务器
  • ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。
机器 ip 分配节点
node01 192.168.56.201 NameNode、DataNode、NodeManager
node02 192.168.56.202 ResourceManager、DataNode、NodeManager
node03 192.168.56.203 SecondaryNameNode、DataNode、NodeManager

1、解压到linux,配置环境变量在/etc/profile.d/hadoop_env.sh

#!/bin/bash

export JAVA_HOME=/data/soft/jdk1.8.0_201
export HADOOP_HOME=/data/soft/hadoop-3.3.5

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2、cd /data/soft/hadoop-3.3.5/etc/hadoop

[root@local-node01 hadoop]# cd /data/soft/hadoop-3.3.5/etc/hadoop/
[root@local-node01 hadoop]# ll
total 176
-rw-r--r-- 1 2002 2002  9213 Mar 15 12:36 capacity-scheduler.xml
-rw-r--r-- 1 2002 2002  1335 Mar 15 12:38 configuration.xsl
-rw-r--r-- 1 2002 2002  2567 Mar 15 12:36 container-executor.cfg
-rw-r--r-- 1 2002 2002   774 Mar 15 11:57 core-site.xml
-rw-r--r-- 1 2002 2002  3999 Mar 15 11:57 hadoop-env.cmd
-rw-r--r-- 1 2002 2002 16803 Apr  4 20:27 hadoop-env.sh
-rw-r--r-- 1 2002 2002  3321 Mar 15 11:57 hadoop-metrics2.properties
-rw-r--r-- 1 2002 2002 11765 Mar 15 11:57 hadoop-policy.xml
-rw-r--r-- 1 2002 2002  3414 Mar 15 11:57 hadoop-user-functions.sh.example
-rw-r--r-- 1 2002 2002   683 Mar 15 12:07 hdfs-rbf-site.xml
-rw-r--r-- 1 2002 2002   775 Mar 15 12:02 hdfs-site.xml
-rw-r--r-- 1 2002 2002  1484 Mar 15 12:06 httpfs-env.sh
-rw-r--r-- 1 2002 2002  1657 Mar 15 12:06 httpfs-log4j.properties
-rw-r--r-- 1 2002 2002   620 Mar 15 12:06 httpfs-site.xml
-rw-r--r-- 1 2002 2002  3518 Mar 15 11:58 kms-acls.xml
-rw-r--r-- 1 2002 2002  1351 Mar 15 11:58 kms-env.sh
-rw-r--r-- 1 2002 2002  1860 Mar 15 11:58 kms-log4j.properties
-rw-r--r-- 1 2002 2002   682 Mar 15 11:58 kms-site.xml
-rw-r--r-- 1 2002 2002 13700 Mar 15 11:57 log4j.properties
-rw-r--r-- 1 2002 2002   951 Mar 15 12:38 mapred-env.cmd
-rw-r--r-- 1 2002 2002  1764 Mar 15 12:38 mapred-env.sh
-rw-r--r-- 1 2002 2002  4113 Mar 15 12:38 mapred-queues.xml.template
-rw-r--r-- 1 2002 2002   758 Mar 15 12:38 mapred-site.xml
drwxr-xr-x 2 2002 2002    24 Mar 15 11:57 shellprofile.d
-rw-r--r-- 1 2002 2002  2316 Mar 15 11:57 ssl-client.xml.example
-rw-r--r-- 1 2002 2002  2697 Mar 15 11:57 ssl-server.xml.example
-rw-r--r-- 1 2002 2002  2681 Mar 15 12:02 user_ec_policies.xml.template
-rw-r--r-- 1 2002 2002    10 Mar 15 11:57 workers
-rw-r--r-- 1 2002 2002  2250 Mar 15 12:36 yarn-env.cmd
-rw-r--r-- 1 2002 2002  6329 Mar 15 12:36 yarn-env.sh
-rw-r--r-- 1 2002 2002  2591 Mar 15 12:36 yarnservice-log4j.properties
-rw-r--r-- 1 2002 2002   690 Mar 15 12:36 yarn-site.xml

Hadoop3.3.5最新版本安装分布式集群部署

Hadoop3.3.5最新版本安装分布式集群部署

 3、修改其中的一些文件

 (1)hadoop-env.sh,修改JAVA_HOME为具体的路径

export JAVA_HOME=/data/soft/jdk1.8.0_201

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root 

Hadoop3.3.5最新版本安装分布式集群部署

  (2)core-site.xml

<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://node01:9000</value>
</property>
 
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/data/soft/hadoop-3.3.5/datas</value>
</property>
<!-- 在Web UI访问HDFS使用的用户名。-->
<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>

<!-- 整合hive 用户代理设置 -->
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>

<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>

<!-- 文件系统垃圾桶保存时间 -->
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>

(3)hdfs-site.xml

<!-- NN web端访问地址-->
<property>
   <name>dfs.namenode.http-address</name>
   <value>node01:9870</value>
</property>
<!-- 设定SNN运行主机和端口。-->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node03:9868</value>
</property>
<!-- 指定HDFS副本的数量 -->
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>

<!--如果为"true",则在HDFS中启用权限检查;如果为"false",则关闭权限检查;默认值为"true"。-->
<property>
  <name>dfs.permissions.enabled</name>
  <value>false</value>
</property>

(4)mapred-site.xml

<!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<!-- MR程序历史服务地址 -->
<property>
  <name>mapreduce.jobhistory.address</name>
  <value>node01:10020</value>
</property>

<!-- MR程序历史服务器web端地址 -->
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>node01:19888</value>
</property>

 (5)yarn-site.xml

<!-- 指定YARN的老大(ResourceManager)的地址 -->
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>node02</value>
</property>
 
<!-- reducer获取数据的方式 -->
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
 
<!-- 是否将对容器实施物理内存限制 -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
</property>
 
<property>
    <!--开启日志聚合-->
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<property>
    <!--日志聚合hdfs存储路径-->
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/data/soft/hadoop-3.3.5/nodemanager-remote-app-logs</value>
</property>
<!-- 历史日志保存的时间 7天 -->
<property>
    <!--hdfs上的日志保留时间-->
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>
 
<property>
    <!--应用执行时存储路径-->
    <name>yarn.nodemanager.log-dirs</name>
    <value>file:///data/soft/hadoop-3.3.5/nodemanager-logs</value>
</property>
 
<property>
    <!--应用执行完日志保留的时间,默认0,即执行完立刻删除-->
    <name>yarn.nodemanager.delete.debug-delay-sec</name>
    <value>604800</value>
</property>


<!-- 设置yarn历史服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://node01:19888/jobhistory/logs</value>
</property>

(6)配置workers

node01
node02
node03

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

4 、启动集群

(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意:格式化NameNode会产生新的集群id导致NameNode和DataNode的集群id不一致,集群不到已数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要停止namenode和datanode进程,并且要删除所有机器的datalogs目录,然后再进行格式化。

hdfs namenode -format

2)启动HDFS

start-dfs.sh

Hadoop集群启动关闭-手动逐个进程启停 

每台机器上每次手动启动关闭一个角色进程
HDFS集群
	hdfs --daemon start namenode|datanode|secondarynamenode
	hdfs --daemon stop  namenode|datanode|secondarynamenode
YARN集群
	yarn --daemon start resourcemanager|nodemanager
	yarn --daemon stop  resourcemanager|nodemanager

启动界面

http://192.168.56.201:9870/

Hadoop3.3.5最新版本安装分布式集群部署

 Hadoop3.3.5最新版本安装分布式集群部署

 Hadoop3.3.5最新版本安装分布式集群部署

修改hdfs的web端口和yarn的web端口的配置

hdfs-site.xml配置http:

<property>
  <name>dfs.http.address</name>
  <value>node01:9870</value>
</property>

 yarn-site.yml配置如下:

<property>
      <name>yarn.resourcemanager.webapp.address</name>
      <value>node02:8088</value>
</property>

Hadoop3.3.5最新版本安装分布式集群部署

配置历史服务器

为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:

(1配置mapred-site.xml

增加如下配置:

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>node01:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>node01:19888</value>
</property>

分发配置文件到所有的主机!!!

mapred --daemon start historyserver

Hadoop3.3.5最新版本安装分布式集群部署

hadoop jar /data/soft/hadoop-3.3.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /words.txt /out

Hadoop3.3.5最新版本安装分布式集群部署

 Hadoop3.3.5最新版本安装分布式集群部署

 配置日志的聚集

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer

开启日志聚集功能具体步骤如下:

(1)配置yarn-site.xml

<property>
    <!--开启日志聚合-->
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://node01:19888/jobhistory/logs</value>
</property>
<property>
    <!--日志聚合hdfs存储路径-->
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/data/soft/hadoop-3.3.5/nodemanager-remote-app-logs</value>
</property>
<property>
    <!--hdfs上的日志保留时间-->
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

<property>
    <!--应用执行时存储路径-->
    <name>yarn.nodemanager.log-dirs</name>
    <value>file:///data/soft/hadoop-3.3.5/nodemanager-logs</value>
</property>

<property>
    <!--应用执行完日志保留的时间,默认0,即执行完立刻删除-->
    <name>yarn.nodemanager.delete.debug-delay-sec</name>
    <value>604800</value>
</property>

分发配置文件到所有的主机!!!

先关闭NodeManager 、ResourceManager和HistoryServer

然后重启NodeManager 、ResourceManageHistoryServer文章来源地址https://www.toymoban.com/news/detail-427643.html

到了这里,关于Hadoop3.3.5最新版本安装分布式集群部署的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • composer最新版本安装

    安装前请务必确保已经正确安装了 PHP。打开命令行窗口并执行  php -v  查看是否正确输出版本号。 打开命令行并依次执行下列命令安装最新版本的 Composer: 复制 复制 复制 执行第一条命令下载下来的  composer-setup.php  脚本将简单地检测  php.ini  中的参数设置,如果某些参

    2024年02月13日
    浏览(47)
  • 快速安装最新版Docker

    安装docker 列出系统中以安装的docker包: 卸载以安装的docker包 如果系统中没有docker,则直接进行下一步 安装docker所需依赖:  添加docker的yum源: yum安装docker: 验证docker版本以确认安装成功: 如图所示,docker安装成功 启动docker 执行以下命令启动docker: 然后将docker设置为开机

    2024年02月12日
    浏览(48)
  • Linux安装ES最新版

    链接:https://pan.baidu.com/s/16SOoN7ZveFu1ly9B2wudoA?pwd=8fm7  知识准备 https://blog.csdn.net/tongxin_tongmeng/article/details/126342599  下载、解压ES8 ES8上传Linux ES8运行环境(☆☆☆☆☆) ES8环境变量 创建新用户 ES服务启动、查看、关闭 ES服务访问  ES8关闭密码认证

    2023年04月09日
    浏览(46)
  • Linux 安装最新版Jenkins

    参考地址:https://pkg.jenkins.io/redhat-stable/ 建立java软链接 /etc/sysconfig/jenkins /etc/init.d/jenkins 配置jenkins 启动信息(启动时,本地JAVA信息没有部署到jenkins) 出现问题 : systemctl start jenkins 启动失败( jenkins.service: Start request repeated too quickly. ) 修改端口 8080为10240(上面配置没有端

    2024年02月15日
    浏览(38)
  • Ubuntu 安装最新版python

    要在Ubuntu上安装最新版本的Python,你可以按照以下步骤进行: 首先,打开终端并更新包列表: 然后,你需要安装一些依赖的软件包来构建Python源码。可以使用下面的命令来安装这些依赖: 接下来,从Python官方网站下载最新版本的源代码。你可以从这个链接 https://www.python.o

    2024年02月13日
    浏览(59)
  • WindowsServer安装mysql最新版

    目录   安装 配置 MySQL 环境变量 远程连接 MySQL 服务器 防火墙权限  配置 MySQL 服务的用户权限 测试远程连接 下载相应mysql安装包: MySQL :: Download MySQL Installer  选择不登陆下载  双击运行下载好的mysql-installer-community-*.*.*.msi 进入类型选择页面,本人需要mysql云服务就选择了s

    2024年02月02日
    浏览(43)
  • Hadoop3.3伪分布式安装部署

    目录 引言 实验目的及准备 实验步骤 引言 Hadoop生态的搭建有本地模式、伪分布模式、集群模式(3台机器)三种安装模式,本篇文章将详细介绍Hadoop3.3的伪分布安装模式。 实验目的及准备 一、完成Hadoop3.3伪分布安装 二、在Linux中配置jdk1.8环境变量 三、配置主机的免密钥登录

    2024年02月21日
    浏览(45)
  • 最新版tensorflow安装教程,pip安装+手动安装

    如果pip安装能够成功,优先选择pip安装 默认情况下,pip会自动安装兼容当前python版本的最新版本 测试安装是否完成: 若输出正确版本号,说明安装成功。 若pip安装不成功,前往官网手动安装: 官网安装教程:https://tensorflow.google.cn/install/pip?hl=zh-cn 安装包下载地址:https://

    2024年02月13日
    浏览(44)
  • Android13 安装最新版 Frida

    本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰,更不会影响计算机信息系统的正常运行。不得将代码用于非法用途,如侵立删! Android13 安装最新版 Frida 环境 win10 Pixel4 Android13 Python3.9 Frida16.1.0 Frida-tools12.1.3 PC安装frida和frid

    2024年02月11日
    浏览(51)
  • Pycharm(最新版)安装sklearn库

    你有可能遇到下面的问题: 然后再按照 “文件-设置-项目-python解释器-软件包上边的加号” 这样的顺序,下载了sklearn包(这样是不对的) 但是这样是解决不了问题的,“import sklearn”还是会标红,无法使用sklearn。 因为在pycharm下载的本来就不是 “ sklearn ”这个名字的包!!

    2024年02月05日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包