Hadoop完全分布式搭建

这篇具有很好参考价值的文章主要介绍了Hadoop完全分布式搭建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

零、准备步骤

1.下载VM

Hadoop完全分布式搭建

2.下载Centos镜像

Hadoop完全分布式搭建

3.下载hadoop

Hadoop完全分布式搭建

4.下载FinalShell

Hadoop完全分布式搭建

5.下载jdk文件

Hadoop完全分布式搭建

 6.下载hive,数据仓库学习大数据专业的用的到

Hadoop完全分布式搭建

一、开始安装虚拟机(按着步骤顺序安装)

Hadoop完全分布式搭建

Hadoop完全分布式搭建

Hadoop完全分布式搭建

 Hadoop完全分布式搭建

 Hadoop完全分布式搭建

Hadoop完全分布式搭建

Hadoop完全分布式搭建

Hadoop完全分布式搭建

Hadoop完全分布式搭建

注:开启虚拟机把鼠标放入屏幕点击后消失,使用键盘上下键进行选择

Hadoop完全分布式搭建

Hadoop完全分布式搭建

Hadoop完全分布式搭建

 Hadoop完全分布式搭建

Hadoop完全分布式搭建

注:点击之后,什么都不动,再点击完成(因为它自动帮我们分区了)

Hadoop完全分布式搭建

Hadoop完全分布式搭建

注:我们配置一下网络和主机名,打开它

Hadoop完全分布式搭建

Hadoop完全分布式搭建

 Hadoop完全分布式搭建

Hadoop完全分布式搭建

注:安装好后,对Node1进行完全克隆搭建完全分布式(自己提前在磁盘创建目录Node1(已经创建过了)、Node2、Node3),复制克隆的时候把虚拟机先关机

Hadoop完全分布式搭建

Hadoop完全分布式搭建

Hadoop完全分布式搭建

 至此我们三台虚拟机已经搞好了,下面进行基础的配置

---------------------------------------------------------------------------------------------------------------------------------

二、对三台虚拟机完成主机名、固定IP、SSH免密登录等系统设置

2.1、修改三台虚拟机主机名

(相关操作需要在三台虚拟机都要进行哦!!!)

Hadoop完全分布式搭建

1.su root 进入root用户进行操作

2.hostnamectl set-hostname node1 设置主机名称指令

3.systemctl restart network   重启一下网络

2.2修改三台虚拟机IP地址

1.点击编辑、点击虚拟网络编辑器、点击NAT设置,记住这些参数

Hadoop完全分布式搭建

2.指令:vim /etc/sysconfig/network-scripts/ifcfg-ens33

Hadoop完全分布式搭建

3.保存按键盘ESC 输入 :wq

4.vim /etc/sysconfig/network-scripts/ifcfg-ens33   进入后增加数据:

IPADDR="192.168.88.132"

NETMASK="255.255.255.0"

GATEWAY="192.168.88.2"

DNS2="192.168.88.2"

5.重启:systemctl restart network

2.3主机映射

在自己电脑C盘打开这个文件夹 C:\Windows\System32\drivers\etc

Hadoop完全分布式搭建

Hadoop完全分布式搭建

注:在三台虚拟机里面添加IP和主机名

指令:vim /etc/hosts

Hadoop完全分布式搭建

Hadoop完全分布式搭建

 Hadoop完全分布式搭建

Hadoop完全分布式搭建

这个是自己电脑的IP只不过把后面几位数字改成0-255内的数字

如果远程连接不了虚拟机在虚拟机里面下载这个文件

指令:yum install openssh-server -y

如果遇到虚拟机ping不通外网,查看自己的设置的VM8ip地址,和虚拟机里面的ip地址要对应

下面操作最好使用finalshell登录,可以粘贴复制很方便

2.4免密登录

免密指令:

每台都执行!!!

ssh-keygen -t rsa -b 4096

执行以上代码成功后,每台再执行这三条语句

ssh-copy-id node1

ssh-copy-id node2

ssh-copy-id node3

2.5其他用户

因为在企业用户中或者工作中我们一般不会用root用户,所以我们创建一个hadoop用户

useradd hadoop

passwd hadoop

123456

进入hadoop用户后再次进行免密登录执行2.4操作

三、配置环境

3.1传入hadoop、jdk、hive到指定文件夹里面。(这里我们创建一个/kkx/server文件夹,mkdir /kkx/server在根目录下面,后面我们把所有的安装软件放在里面)

指令:

1.cd

2.mkdir  /kkx/server

3.cd /kkx/server

把放置在windows目录里面的压缩包Hadoop、jdk、hive通过finalshell直接拖进去

然后解压 tar -zxvf   hadoop-3.2.4.tar.gz (另外两个也一样)

3.2、解压后我们进入/kkx/server目录设置软连接

指令: ln -s /kxx/server/jdk1.8.0_361  jdk

ln -s /kkx/server/hadoop-3.2.4  hadoop

3.3、设置环境变量:

vim /etc/profile

export JAVA_HOME=/kkx/server/jdk export PATH=$PATH:$JAVA_HOME/bin

HADOOP_HOME export HADOOP_HOME=/kkx/server/Hadoop

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

让环境变量生效

source /etc/profile

查看一下是否成功,

java -version

hadoop version

如果成功就会显示版本信息,如果没有成功自己根据上面操作在检查一下,实在不会最后在评论区大家一下解决

3.4

集群化软件之间需要通过端口互相通信,未了避免出现网络不通的问题,我们可以简单的在集群内部关闭防火墙

systemctl stop firewalld

systemctl disable firewalld

3.5关闭SELinux

指令:vim /etc/sysconfig/selinux

将SELINUX=enforcing改为SELINUX=disabled

保存退出,重启虚拟机 PS:disabled(千万别打错!!!)

init 6 虚拟机重启

init 0 虚拟机关机

3.6、同步时区

1.安装ntp软件

yum install -y ntp

2.更新时区

rm -f /etc/localtime;

sudo ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3.同步时间

ntpdate -u ntp.aliyun.com

4.开启ntp服务并设置开机自启

systemctl start ntpd

systemctl enable ntpd

(遇到问题:yum安装软件报Cannot find a valid baseurl for repo: base/7/x86_64错误

解决方法:

cd /etc/yum.repos.d/

Hadoop完全分布式搭建问题就是这个CentOS-Base.repo文件,解决方法就是:将这个文件后缀名修改使这个文件无效

问题就是这个CentOS-Base.repo文件,解决方法就是:将这个文件后缀名修改使这个文件无效)

四、截至目前基础已经配置的差不多了,将虚拟机拍摄快照

Hadoop完全分布式搭建

五、安装hadoop

5.1

进入hadoop/etc/hadoop里面对workers文件、hadoop-env.sh文件进行修改

1.删掉localhost 在workers文件增加

node1

node2

node3

2.hadoovim hadoopp-env.sh在首行增加内容:

export JAVA_HOME=/kkx/server/jdk

export HADOOP_HOME=/kkx/server/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HADOOP_LOG_DIR=$HADOOP_HOME/logs

3.修改core-site.xml文件

在<configuration>里面插入以下代码,注意代码不要搞错了!!

<property>

<name>fs.defaultFS</name>

<value>hdfs://node1:8020</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>131072</value>

</property>

文件系统 hdfs://node1:8020为整个HDFS内部的通讯地址,

表名DataNode将和node1的端口通讯,node1是NameNode所在机器,

此配置固定node1必须启动NameNode进程。

4.修改hdfs-site.xml

<property>

<name>dfs.datanode.data.dir.perm</name>

<value>700</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>/data/nn</value>

</property>

<property>

<name>dfs.namenode.hosts</name>

<value>node1,node2,node3</value>

</property>

<property>

<name>dfs.blocksize</name>

<value>268435456</value>

</property>

<property>

<name>dfs.namenode.handler.count</name>

<value>100</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/data/dn</value>

</property>

解析:

key:dfs.datanode.data.dir.perm

hdfs文件操作系统,默认创建的文件权限设置

值:700即:rwx------

key:dfs.namenode.name.dir

含义:NameNode元数据的存储位置

值:/data/nn,在node1节点的data/nn目录下

key:dfs.namenode.hosts

含义:NameNode允许那几个DataNodel连接

值:node1、node2、node3这三台服务器被授权

key:dfs.blocksize

含义:hdfs默认块大小

值:268425456(256MB)

key:dfs.namenode.handler.count

含义:namenode处理的并发线程数

值:100,以100个并行度处理文件的管理系统

key:dfs.datanode.data.dir

含义:从节点DataNode的数据存储目录

值:/data/dn,即数据存放在node1、node2、node3,三台机器的、data/dn内

5.创建文件存储的目录

在node1

mkdir -p /data/nn

mkdir -p /data/dn

在node2、node3

mkdir -p /data/dn

5.在node1的server目录下拷贝hadoop文件给node2、node3

scp -r hadoop- 3.2.4 node2:'/kkx/server/'

scp -r hadoop- 3.2.4 node3:'/kkx/server/'

并在node2、node3为hadoop配置软链接

ln -s /kkx/server/hadoop-3.2.4  /kkx/server/hadoop

修改hadoop文件夹中的bin和sbin环境变量方便使用里面的脚本vim /etc/profile

export HADOOP_HOME=/kkx/server/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

在三台机器授权为hadoop用户

chown -R hadoop:hadoop /data

chown -R hadoop:hadoop /export

六、在创建的hadoo用户启动进入hadoop用户

hdfs namenode -format

start-all.sh 开启所有集群

目前已经可以操作基本hadoop以及mapreduce执行任务了

后面我们再配置一下yarn

下面是相关操作

#start-dfs.sh #启动HDFS stop-dfs.sh #停止HDFS

#start-yarn.sh #启动YARN stop-yarn.sh #停止YARN

#start-all.sh #启动HDFS和YARN stop-all.sh #停止HDFS和YARN

#mr-jobhistory-daemon.sh start historyserver #启动historyserver mr-jobhistory-daemon.sh start #historyserver #停止historyserver

6.1配置YARN集群

在mapred-env.sh添加

export JAVA_HOME=/kkx/server/jdk

export  HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000

export HADOOP_MAPREO_ROOT_LOGGER=INFO,RFA

 编辑mapred-site.xml

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

<description>MapReduce的运行框架设置为YARN</description>

</property>

<property>

<name>mapreduce.jobhistory.address</name>

<value>node1:10020</value>

<description>历史服务通讯端口node1:10020</description>

</property>

<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>node1:19888</value>

<description>历史服务器web端口为node1的19888</description>

</property>

<property>

<name>mapreduce.jobhistory.intermediate-done-dir</name>

<value>/data/mr-history/tmp</value>

<description>历史信息在HDFS的记录临时路径</description>

</property>

<property>

<name>mapreduce.jobhistory.done-dir</name>

<value>/data/mr-history/done</value>

<description>历史信息在HDFS的记录路径</description>

</property>

<property>

<name>yarn.app.mapreduce.am.env</name>

<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>

<description>MapReduce HOME 设置为HADOOP_HOME</description>

</property>

<property>

<name>mapreduce.map.env</name>

<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>

<description>MaapReduce HOME 设置为HADOOP_HOME</description>

</property>

<property>

<name>mapreduce.reduce.env</name>

<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>

<description>MapReduce  HOME 设置为HADOOP_HOME</description>

</property>

6.2编辑 yarn.site-xml配置

<property>

<name>yarn.resourcemanager.hostname</name>

<value>node1</value>

<description>ResourceManager设置在node1节点</description>

</property>

<property>

<name>yarn.nodemanager.local-dirs</name>

<value>/data/nm-local</value>

<description>NodeManager中间数据本地存储路径</description>

</property>

<property>

<name>yarn.nodemanager.log-dirs</name>

<value>/data/nm-log</value>

<description>NodeManager数据日志本地存储路径</description>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

<description>为MapReduce程序开启Shuffle服务</description>

</property>

<property>

<name>yarn.log.server.url</name>

<value>http://node1:19888/jobhistory/logs</value>

<description>历史服务器URL</description>

</property>

<property>

<name>yarn.web-proxy.address</name>

<value>node1:8089</value>

<description>代理服务器主机和端口</description>

</property>

<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

<description>开启日志聚合</description>

</property>

<property>

<name>yarn.log-nodemanager.remote-app-log-dir</name>

<value>/tmp/logs</value>

<description>程序日志HDFS的存储路径</description>

</property>

<property>

<name>yarn.resourcemanager.scheduler.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>

<description>选择公平调度器</description>

</property>

6.3、配置完成

分发给其他节点

scp mapred-env.sh  mapred-site.xml  yarn-env.sh  yarn-site.xml  node2:'写入hadoop存放这个文件的路径'

scp mapred-env.sh  mapred-site.xml  yarn-env.sh  yarn-site.xml  node3:'写入hadoop存放这个文件的路径'

查看路径的方法是pwd

至此集群基本搭建完成,后面有什么需求还可以再进行追加配置文章来源地址https://www.toymoban.com/news/detail-441518.html

到了这里,关于Hadoop完全分布式搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(41)
  • Hadoop完全分布式集群搭建

    1.在虚拟机关机的状态下选择克隆 2.开始克隆 3.选择从当前状态创建 4.创建一个完整的克隆 5.选择新的虚拟机存储位置(选择内存充足的磁盘) 6.开始克隆 7.克隆完成 8.同样的方法克隆第二台虚拟机 9.在计算机中存在三台虚拟机 将第一台虚拟机更名为hadoop01 修改hadoop01的主机

    2024年02月02日
    浏览(32)
  • hadoop平台完全分布式搭建

    安装前准备 一、设置ssh免密登录 1.编辑hosts文件,添加主机名映射内容 vim  /etc/hosts 添加内容: 172.17.0.2      master 172.17.0.3      slave1 172.17.0.4      slave2 2.生成公钥和私钥 ssh-keygen –t rsa 然后按三次回车 3.复制公钥到其他容器(包括自己) ssh-copy-id master ssh-copy-id slav

    2024年03月17日
    浏览(36)
  • HADOOP完全分布式搭建(饭制版)

    安装系统 点击VMware Workstation左上角文件,新建虚拟机 选择自定义,点击下一步 点击下一步 选择 稍后安装操作系统 (后续我们使用的操作系统为CentOS7),点击下一步 客户机系统选择Linux,版本选择CentOS 7 64位,点击下一步 自定义安装位置,点击下一步。 处理器配置2核2G 此虚拟

    2024年03月22日
    浏览(45)
  • 【Hadoop】安装部署-完全分布式搭建

    Hadoop是一个适合大数据的分布式存储和计算平台。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态圈,包括很多软件框架。而我们的完全分布式,指的是在真实环境下,使⽤多台机器,共同配合,来构建⼀个完整的分布式文件系统。在真实环境中,

    2024年02月07日
    浏览(31)
  • hadoop01_完全分布式搭建

    Hadoop运行模式包括: 本地模式 (计算的数据存在Linux本地,在一台服务器上 自己测试)、 伪分布式模式 (和集群接轨 HDFS yarn,在一台服务器上执行)、 完全分布式模式 。 本地模式 :(hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR程序的时

    2024年02月04日
    浏览(28)
  • Hadoop3完全分布式搭建

    使用hostnamectl set-hostname 修改当前主机名 1,使用 systemctl stop firewalld systemctl disable firewalld 关闭防火墙 2,使用 vim /etc/selinux/config 修改为 SELINUX=disabled 1,修改网络配置 修改如下三项内容: BOOTPROTO=static ONBOOT=yes IPADDR=自己想要设置的IP。这个ip参考vmware的虚拟网络编辑器的vmnet8的

    2024年01月21日
    浏览(42)
  • Hadoop完全分布式搭建(Hadoop-3.3.0)

            本教程讲解Hadoop-3.3.0在Ubuntu系统下集群的搭建。         在正式开始之前,需要自己先安装好一台虚拟机。下面给大家整理了过程中需要用到的资源包,可以自行获取: 1.打开终端,输入命令,创建新用户 2.为hadoop用户设置密码 3.为了我们后面操作方便,这里可以给

    2024年04月11日
    浏览(25)
  • Hadoop完全分布式搭建教程(完整版)

    切换到Hadoop的etchadoop目录下并进行相关配置 1.配置workers文件 2.配置Hadoop-env.sh文件 3. 配置core-site.xml 文件 4.配置mapred-site.xml 文件 5. 配置hdfs-site.xml文件 6. 配置yarn-site.xml 文件 master:9870查看 ii. master:8088查看

    2024年02月07日
    浏览(29)
  • hadoop-3.3.3完全分布式集群搭建

    随着大数据的不断发展,hadoop在前段时间就已经更新到了3.x版本,与2.x版本存在着一些差异,在某大数据竞赛中也是使用的hadoop3.x的版本,本文就介绍hadoop3.x版本的完全分布式集群搭建。 jdk:1.8 hadoop:3.3.3 操作系统:centos7 需要的所有安装包都放在master节点的/opt目录下,安

    2024年02月09日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包