搭建完全分布式Hadoop

这篇具有很好参考价值的文章主要介绍了搭建完全分布式Hadoop。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Hadoop集群规划

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

二、在主节点上配置Hadoop

(一)登录虚拟机

  • 登录三个虚拟机
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(二)设置主机名

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(三)主机名与IP地址映射

  • 执行命令:vim /etc/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(四)关闭与禁用防火墙

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(五)配置免密登录

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(六)配置JDK

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

(七)配置Hadoop

1、上传安装包

  • 上传hadoop安装包
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看hadoop安装包
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

2、解压缩安装包

  • 执行命令:tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看解压后的目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

3、配置环境变量

  • 执行命令:vim /etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
  • 存盘退出,执行命令:source /etc/profile,让配置生效
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看hadoop版本,执行命令:hadoop version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

4、编辑Hadoop环境配置文件 - hadoop-env.sh

  • 进入hadoop配置目录,执行命令:cd $HADOOP_HOME/etc/hadoop
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 执行命令:vim hadoop-env.sh
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
export JAVA_HOME=/usr/local/jdk1.8.0_231
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  • 存盘退出,执行命令:source hadoop-env.sh,让配置生效
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

5、编辑Hadoop核心配置文件 - core-site.xml

  • 执行命令:vim core-site
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
<configuration>
    <!--用来指定hdfs的老大-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <!--用来指定hadoop运行时产生文件的存放目录-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

6、编辑HDFS配置文件 - hdfs-site.xml

  • 执行命令:vim hdfs-site.xml
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
<configuration>
    <!--设置名称节点的目录-->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp/namenode</value>
    </property>
    <!--设置数据节点的目录-->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp/datanode</value>
    </property>
    <!--设置辅助名称节点-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:50090</value>
    </property>
    <!--hdfs web的地址,默认为9870,可不配置-->
    <!--注意如果使用hadoop2.x,默认为50070-->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>0.0.0.0:9870</value>
    </property>
    <!--副本数,默认为3-->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!--是否启用hdfs权限,当值为false时,代表关闭-->
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
</configuration>

7、编辑MapReduce配置文件 - mapred-site.xml

  • 执行命令:vim mapred-site.xml
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
<configuration>
    <!--配置MR资源调度框架YARN-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

8、编辑YARN配置文件 - yarn-site.xml

  • 执行命令:vim yarn-site.xml
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
<configuration>
    <!--配置资源管理器:master-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <!--配置节点管理器上运行的附加服务-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!--关闭虚拟内存检测,在虚拟机环境中不做配置会报错-->
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
</configuration>

9、编辑数据节点文件 - workers

  • 执行命令:vim workers
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

三、从主节点分发到从节点

(一)从master节点分发到slave1节点

1、分发JDK

  • 执行命令:scp -r $JAVA_HOME root@slave1:$JAVA_HOME(注意,拷贝目录,一定要加-r选项)
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave1节点上查看拷贝的JDK目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

2、分发Hadoop

  • 执行命令:scp -r $HADOOP_HOME root@slave1:$HADOOP_HOME
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave1节点上查看拷贝的hadoop目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

3、分发环境配置文件

  • 执行命令:scp /etc/profile root@slave1:/etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

4、刷新环境配置文件

  • 在slave1节点上执行命令:source /etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

5、查看jdk和hadoop版本

  • 在slave1节点上执行命令:java -version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave1节点上执行命令:hadoop version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

6、分发主机名IP地址映射文件

  • 执行命令:scp /etc/hosts root@slave1:/etc/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(二)从master节点分发到slave2节点

1、分发JDK

  • 执行命令:scp -r $JAVA_HOME root@slave2:$JAVA_HOME(注意,拷贝目录,一定要加-r选项)
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave2节点上查看拷贝的JDK目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

2、分发Hadoop

  • 执行命令:scp -r $HADOOP_HOME root@slave2:$HADOOP_HOME
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave2节点上查看拷贝的hadoop目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

3、分发环境配置文件

  • 执行命令:scp /etc/profile root@slave2:/etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

4、刷新环境配置文件

  • 在slave2节点上执行命令:source /etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

5、查看jdk和hadoop版本

  • 在slave2节点上执行命令:java -version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

  • 在slave2节点上执行命令:hadoop version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

6、分发主机名IP地址映射文件

  • 执行命令:scp /etc/hosts root@slave2:/etc/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

四、格式化名称节点

  • 执行命令:hdfs namenode -format
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • common.Storage: Storage directory /usr/local/hadoop-3.3.4/tmp/namenode has been successfully formatted. 表明名称节点格式化成功。

五、启动Hadoop集群

  • 启动hadoop服务,执行命令:start-all.sh
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看进程,执行命令:jps
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 如果缺少进程,大多是因为响应的配置文件有问题,请仔细对照检查
  • hadoop-env.sh没有刷新,导致HADOOP_CONF_DIR环境变量找到不到
  • core-site.xmlfs.defaultFS写成了fs.defaultFs,导致启动Hadoop之后,没有HDFS的三个进程:NameNodeSecondaryNameNodeDateNode
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

六、初试HDFS Shell

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据文章来源地址https://www.toymoban.com/news/detail-757283.html

(一)查看目录

1、命令

  • hdfs dfs -ls <路径>

2、演示

  • 执行命令:hdfs dfs -ls /
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(二)创建目录

1、创建单层目录

(1)命令
  • hdfs dfs -mkdir <单层目录>
(2)演示
  • 执行命令:hdfs dfs -mkdir /BigData
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave1节点上查看新建的目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

2、创建多层目录

(1)命令
  • hdfs dfs -mkdir -p <多层目录>
(2)演示
  • 在slave1节点上执行命令:hdfs dfs -mkdir -p /china/sichuan/luzhou/lzy
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在master节点上查看新建的多层目录,执行命令:hdfs dfs -ls -R /china
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 说明:-R (- recursive)表示递归查看目录里全部东西

(三)上传文件

1、命令

  • hdfs dfs -put <文件> <路径>

2、演示

  • 执行命令:hdfs dfs -put /etc/hosts /BigData
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看上传的文件
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 执行命令:hdfs dfs -D dfs.replication=2 -put /etc/profile /BigData (上传文件时指定副本数)
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看上传的文件
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 修改副本数,执行命令:hdfs dfs -setrep 3 /BigData/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 检验副本数是否已修改
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(四)查看文件内容

1、命令

  • hdfs dfs -cat <文件>

2、演示

  • 执行命令:hdfs dfs -cat /BigData/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(五)删除文件

1、命令

  • hdfs dfs -rm <文件>

2、演示

  • 执行命令:hdfs dfs -rm /BigData/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看文件是否真的被删除
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(六)删除目录

七、查看Hadoop WebUI

八、运行MR应用 - 词频统计

九、关闭Hadoop集群

到了这里,关于搭建完全分布式Hadoop的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Hadoop完全分布式搭建(Hadoop-3.3.0)

    Hadoop完全分布式搭建(Hadoop-3.3.0)

            本教程讲解Hadoop-3.3.0在Ubuntu系统下集群的搭建。         在正式开始之前,需要自己先安装好一台虚拟机。下面给大家整理了过程中需要用到的资源包,可以自行获取: 1.打开终端,输入命令,创建新用户 2.为hadoop用户设置密码 3.为了我们后面操作方便,这里可以给

    2024年04月11日
    浏览(9)
  • 【Hadoop】完全分布式集群搭建

    【Hadoop】完全分布式集群搭建

    大家好,我是向阳花花花花,这篇文章是我历时三天,推翻重做两小时进行搭建的Hadoop集群(完全分布式)个人笔记和感想,收录于初心的《大数据》专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,一名正在努力的双非二本院校计算机专业学生 💕

    2024年02月15日
    浏览(9)
  • Hadoop完全分布式集群搭建

    Hadoop完全分布式集群搭建

    1.在虚拟机关机的状态下选择克隆 2.开始克隆 3.选择从当前状态创建 4.创建一个完整的克隆 5.选择新的虚拟机存储位置(选择内存充足的磁盘) 6.开始克隆 7.克隆完成 8.同样的方法克隆第二台虚拟机 9.在计算机中存在三台虚拟机 将第一台虚拟机更名为hadoop01 修改hadoop01的主机

    2024年02月02日
    浏览(5)
  • Hadoop的完全分布式搭建

    Hadoop的完全分布式搭建

    主机名 Hadoop10 Hadoop11 Hadoop12 网络 192.168.10.10 192.168.10.11 192.168.10.12 用户 hadoop root hadoop root hadoop root HDFS NameNode DateNode DateNode Secondary NameNode DataNode YARN NodeManager NodeManager ResourceManager NodeManager 安装虚拟机系统,省略 第一步:网卡配置 使用 vi 编辑器编辑系统的网卡配置文件,配置以下

    2024年02月08日
    浏览(8)
  • hadoop平台完全分布式搭建

    安装前准备 一、设置ssh免密登录 1.编辑hosts文件,添加主机名映射内容 vim  /etc/hosts 添加内容: 172.17.0.2      master 172.17.0.3      slave1 172.17.0.4      slave2 2.生成公钥和私钥 ssh-keygen –t rsa 然后按三次回车 3.复制公钥到其他容器(包括自己) ssh-copy-id master ssh-copy-id slav

    2024年03月17日
    浏览(9)
  • Hadoop 完全分布式集群搭建

    Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(18)
  • 【Hadoop】安装部署-完全分布式搭建

    【Hadoop】安装部署-完全分布式搭建

    Hadoop是一个适合大数据的分布式存储和计算平台。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态圈,包括很多软件框架。而我们的完全分布式,指的是在真实环境下,使⽤多台机器,共同配合,来构建⼀个完整的分布式文件系统。在真实环境中,

    2024年02月07日
    浏览(11)
  • hadoop01_完全分布式搭建

    Hadoop运行模式包括: 本地模式 (计算的数据存在Linux本地,在一台服务器上 自己测试)、 伪分布式模式 (和集群接轨 HDFS yarn,在一台服务器上执行)、 完全分布式模式 。 本地模式 :(hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR程序的时

    2024年02月04日
    浏览(12)
  • HADOOP完全分布式搭建(饭制版)

    HADOOP完全分布式搭建(饭制版)

    安装系统 点击VMware Workstation左上角文件,新建虚拟机 选择自定义,点击下一步 点击下一步 选择 稍后安装操作系统 (后续我们使用的操作系统为CentOS7),点击下一步 客户机系统选择Linux,版本选择CentOS 7 64位,点击下一步 自定义安装位置,点击下一步。 处理器配置2核2G 此虚拟

    2024年03月22日
    浏览(39)
  • Hadoop3完全分布式搭建

    Hadoop3完全分布式搭建

    使用hostnamectl set-hostname 修改当前主机名 1,使用 systemctl stop firewalld systemctl disable firewalld 关闭防火墙 2,使用 vim /etc/selinux/config 修改为 SELINUX=disabled 1,修改网络配置 修改如下三项内容: BOOTPROTO=static ONBOOT=yes IPADDR=自己想要设置的IP。这个ip参考vmware的虚拟网络编辑器的vmnet8的

    2024年01月21日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包