搭建完全分布式Hadoop

这篇具有很好参考价值的文章主要介绍了搭建完全分布式Hadoop。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Hadoop集群规划

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

二、在主节点上配置Hadoop

(一)登录虚拟机

  • 登录三个虚拟机
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(二)设置主机名

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(三)主机名与IP地址映射

  • 执行命令:vim /etc/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(四)关闭与禁用防火墙

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(五)配置免密登录

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(六)配置JDK

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

(七)配置Hadoop

1、上传安装包

  • 上传hadoop安装包
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看hadoop安装包
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

2、解压缩安装包

  • 执行命令:tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看解压后的目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

3、配置环境变量

  • 执行命令:vim /etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
  • 存盘退出,执行命令:source /etc/profile,让配置生效
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看hadoop版本,执行命令:hadoop version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

4、编辑Hadoop环境配置文件 - hadoop-env.sh

  • 进入hadoop配置目录,执行命令:cd $HADOOP_HOME/etc/hadoop
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 执行命令:vim hadoop-env.sh
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
export JAVA_HOME=/usr/local/jdk1.8.0_231
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  • 存盘退出,执行命令:source hadoop-env.sh,让配置生效
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

5、编辑Hadoop核心配置文件 - core-site.xml

  • 执行命令:vim core-site
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
<configuration>
    <!--用来指定hdfs的老大-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <!--用来指定hadoop运行时产生文件的存放目录-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

6、编辑HDFS配置文件 - hdfs-site.xml

  • 执行命令:vim hdfs-site.xml
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
<configuration>
    <!--设置名称节点的目录-->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp/namenode</value>
    </property>
    <!--设置数据节点的目录-->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp/datanode</value>
    </property>
    <!--设置辅助名称节点-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:50090</value>
    </property>
    <!--hdfs web的地址,默认为9870,可不配置-->
    <!--注意如果使用hadoop2.x,默认为50070-->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>0.0.0.0:9870</value>
    </property>
    <!--副本数,默认为3-->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!--是否启用hdfs权限,当值为false时,代表关闭-->
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
</configuration>

7、编辑MapReduce配置文件 - mapred-site.xml

  • 执行命令:vim mapred-site.xml
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
<configuration>
    <!--配置MR资源调度框架YARN-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

8、编辑YARN配置文件 - yarn-site.xml

  • 执行命令:vim yarn-site.xml
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
<configuration>
    <!--配置资源管理器:master-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <!--配置节点管理器上运行的附加服务-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!--关闭虚拟内存检测,在虚拟机环境中不做配置会报错-->
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
</configuration>

9、编辑数据节点文件 - workers

  • 执行命令:vim workers
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

三、从主节点分发到从节点

(一)从master节点分发到slave1节点

1、分发JDK

  • 执行命令:scp -r $JAVA_HOME root@slave1:$JAVA_HOME(注意,拷贝目录,一定要加-r选项)
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave1节点上查看拷贝的JDK目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

2、分发Hadoop

  • 执行命令:scp -r $HADOOP_HOME root@slave1:$HADOOP_HOME
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave1节点上查看拷贝的hadoop目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

3、分发环境配置文件

  • 执行命令:scp /etc/profile root@slave1:/etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

4、刷新环境配置文件

  • 在slave1节点上执行命令:source /etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

5、查看jdk和hadoop版本

  • 在slave1节点上执行命令:java -version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave1节点上执行命令:hadoop version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

6、分发主机名IP地址映射文件

  • 执行命令:scp /etc/hosts root@slave1:/etc/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(二)从master节点分发到slave2节点

1、分发JDK

  • 执行命令:scp -r $JAVA_HOME root@slave2:$JAVA_HOME(注意,拷贝目录,一定要加-r选项)
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave2节点上查看拷贝的JDK目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

2、分发Hadoop

  • 执行命令:scp -r $HADOOP_HOME root@slave2:$HADOOP_HOME
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave2节点上查看拷贝的hadoop目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

3、分发环境配置文件

  • 执行命令:scp /etc/profile root@slave2:/etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

4、刷新环境配置文件

  • 在slave2节点上执行命令:source /etc/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

5、查看jdk和hadoop版本

  • 在slave2节点上执行命令:java -version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

  • 在slave2节点上执行命令:hadoop version
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

6、分发主机名IP地址映射文件

  • 执行命令:scp /etc/hosts root@slave2:/etc/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

四、格式化名称节点

  • 执行命令:hdfs namenode -format
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • common.Storage: Storage directory /usr/local/hadoop-3.3.4/tmp/namenode has been successfully formatted. 表明名称节点格式化成功。

五、启动Hadoop集群

  • 启动hadoop服务,执行命令:start-all.sh
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看进程,执行命令:jps
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 如果缺少进程,大多是因为响应的配置文件有问题,请仔细对照检查
  • hadoop-env.sh没有刷新,导致HADOOP_CONF_DIR环境变量找到不到
  • core-site.xmlfs.defaultFS写成了fs.defaultFs,导致启动Hadoop之后,没有HDFS的三个进程:NameNodeSecondaryNameNodeDateNode
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

六、初试HDFS Shell

搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据文章来源地址https://www.toymoban.com/news/detail-757283.html

(一)查看目录

1、命令

  • hdfs dfs -ls <路径>

2、演示

  • 执行命令:hdfs dfs -ls /
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(二)创建目录

1、创建单层目录

(1)命令
  • hdfs dfs -mkdir <单层目录>
(2)演示
  • 执行命令:hdfs dfs -mkdir /BigData
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在slave1节点上查看新建的目录
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

2、创建多层目录

(1)命令
  • hdfs dfs -mkdir -p <多层目录>
(2)演示
  • 在slave1节点上执行命令:hdfs dfs -mkdir -p /china/sichuan/luzhou/lzy
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 在master节点上查看新建的多层目录,执行命令:hdfs dfs -ls -R /china
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 说明:-R (- recursive)表示递归查看目录里全部东西

(三)上传文件

1、命令

  • hdfs dfs -put <文件> <路径>

2、演示

  • 执行命令:hdfs dfs -put /etc/hosts /BigData
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看上传的文件
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 执行命令:hdfs dfs -D dfs.replication=2 -put /etc/profile /BigData (上传文件时指定副本数)
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看上传的文件
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 修改副本数,执行命令:hdfs dfs -setrep 3 /BigData/profile
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 检验副本数是否已修改
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(四)查看文件内容

1、命令

  • hdfs dfs -cat <文件>

2、演示

  • 执行命令:hdfs dfs -cat /BigData/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(五)删除文件

1、命令

  • hdfs dfs -rm <文件>

2、演示

  • 执行命令:hdfs dfs -rm /BigData/hosts
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据
  • 查看文件是否真的被删除
    搭建完全分布式Hadoop,Hadoop分布式入门,分布式,hadoop,大数据

(六)删除目录

七、查看Hadoop WebUI

八、运行MR应用 - 词频统计

九、关闭Hadoop集群

到了这里,关于搭建完全分布式Hadoop的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop完全分布式搭建(Hadoop-3.3.0)

            本教程讲解Hadoop-3.3.0在Ubuntu系统下集群的搭建。         在正式开始之前,需要自己先安装好一台虚拟机。下面给大家整理了过程中需要用到的资源包,可以自行获取: 1.打开终端,输入命令,创建新用户 2.为hadoop用户设置密码 3.为了我们后面操作方便,这里可以给

    2024年04月11日
    浏览(25)
  • 【Hadoop】完全分布式集群搭建

    大家好,我是向阳花花花花,这篇文章是我历时三天,推翻重做两小时进行搭建的Hadoop集群(完全分布式)个人笔记和感想,收录于初心的《大数据》专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,一名正在努力的双非二本院校计算机专业学生 💕

    2024年02月15日
    浏览(26)
  • Hadoop的完全分布式搭建

    主机名 Hadoop10 Hadoop11 Hadoop12 网络 192.168.10.10 192.168.10.11 192.168.10.12 用户 hadoop root hadoop root hadoop root HDFS NameNode DateNode DateNode Secondary NameNode DataNode YARN NodeManager NodeManager ResourceManager NodeManager 安装虚拟机系统,省略 第一步:网卡配置 使用 vi 编辑器编辑系统的网卡配置文件,配置以下

    2024年02月08日
    浏览(31)
  • Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(41)
  • Hadoop完全分布式集群搭建

    1.在虚拟机关机的状态下选择克隆 2.开始克隆 3.选择从当前状态创建 4.创建一个完整的克隆 5.选择新的虚拟机存储位置(选择内存充足的磁盘) 6.开始克隆 7.克隆完成 8.同样的方法克隆第二台虚拟机 9.在计算机中存在三台虚拟机 将第一台虚拟机更名为hadoop01 修改hadoop01的主机

    2024年02月02日
    浏览(32)
  • hadoop平台完全分布式搭建

    安装前准备 一、设置ssh免密登录 1.编辑hosts文件,添加主机名映射内容 vim  /etc/hosts 添加内容: 172.17.0.2      master 172.17.0.3      slave1 172.17.0.4      slave2 2.生成公钥和私钥 ssh-keygen –t rsa 然后按三次回车 3.复制公钥到其他容器(包括自己) ssh-copy-id master ssh-copy-id slav

    2024年03月17日
    浏览(37)
  • 【Hadoop】安装部署-完全分布式搭建

    Hadoop是一个适合大数据的分布式存储和计算平台。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态圈,包括很多软件框架。而我们的完全分布式,指的是在真实环境下,使⽤多台机器,共同配合,来构建⼀个完整的分布式文件系统。在真实环境中,

    2024年02月07日
    浏览(31)
  • hadoop01_完全分布式搭建

    Hadoop运行模式包括: 本地模式 (计算的数据存在Linux本地,在一台服务器上 自己测试)、 伪分布式模式 (和集群接轨 HDFS yarn,在一台服务器上执行)、 完全分布式模式 。 本地模式 :(hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR程序的时

    2024年02月04日
    浏览(28)
  • Hadoop3完全分布式搭建

    使用hostnamectl set-hostname 修改当前主机名 1,使用 systemctl stop firewalld systemctl disable firewalld 关闭防火墙 2,使用 vim /etc/selinux/config 修改为 SELINUX=disabled 1,修改网络配置 修改如下三项内容: BOOTPROTO=static ONBOOT=yes IPADDR=自己想要设置的IP。这个ip参考vmware的虚拟网络编辑器的vmnet8的

    2024年01月21日
    浏览(42)
  • HADOOP完全分布式搭建(饭制版)

    安装系统 点击VMware Workstation左上角文件,新建虚拟机 选择自定义,点击下一步 点击下一步 选择 稍后安装操作系统 (后续我们使用的操作系统为CentOS7),点击下一步 客户机系统选择Linux,版本选择CentOS 7 64位,点击下一步 自定义安装位置,点击下一步。 处理器配置2核2G 此虚拟

    2024年03月22日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包