大数据学习02-Hadoop分布式集群部署

这篇具有很好参考价值的文章主要介绍了大数据学习02-Hadoop分布式集群部署。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

操作系统:centos7
软件环境:jdk8、hadoop-2.8.5

一、创建虚拟机

1.下载VMware,建议支持正版
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
2.安装到Widows目录下任意位置即可,安装目录自定义。打开VMware,界面如下:
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
3.创建虚拟机
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
创建虚拟机—>选择自定义
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
这一步按照默认的配置就好
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
选择系统,安装程序光盘映像文件iso,这里需要下载cenos镜像文件
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习给虚拟机命名,选择虚拟机安装位置
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习处理器配置
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
内存配置
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
配置虚拟机网络连接方式
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习

选择I/O控制器
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
创建磁盘
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
设置磁盘大小
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
选择虚拟磁盘存放地址
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
检查虚拟机配置,如果没有什么问题,点击完成
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
启动虚拟机,鼠标点击虚拟机屏幕,使用键盘上下键移动光标位置,光标在Install CentOS 7处,按下enter键
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
等待系统进入CentOS安装界面,选择简体中文
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
设置时区,选择亚洲–上海
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习软件选择,GNOME桌面
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
选择自动配置分区
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
点击开始安装
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
设置root密码
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
创建用户
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
等待…安装完成,重启虚拟机
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
初始设置,完成授权
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
进入centos登录界面
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习

二、配置虚拟机网络

编辑—>虚拟机网络编辑器–>NAT模式–>DHCP设置
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
查看网络信息
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
打开终端面板,进入root模式
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习

vi /etc/sysconfig/network-scripts/ifcfg-ens33 

修改网络配置,配置如下:
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
使用wq命令保存,使用下面命令重启网络服务

service network restart

免密登录配置

修改主机名称

vi /etc/hostname

编辑映射文件hosts

vi /etc/hosts

添加如下配置

192.168.245.200 master 
192.168.245.201 slave1
192.168.245.202 slave2
# 生成公钥与私钥(三次回车)
ssh-keygen -t rsa		

将~/.ssh/id_rsa.pub 分发到节点服务器的~/.ssh目录下,并重命名为 authorized_keys

for i in {1..2};do scp -r ~/.ssh/authorized_keys root@slave${i}:~/.ssh/;done

这样便可以实现不同节点服务器免密登录
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
每台服务器都需要配置

三、安装jdk

上传jdk到linux系统,这里使用jdk1.8版本
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
将其解压到指定目录下

tar -zxvf jdk-8u301-linux-x64.tar.gz -C /home/local/

移动至java目录

mv jdk1.8.0_301 java

配置环境

vim /etc/profile

添加如下配置

#java
export JAVA_HOME=/home/local/java
export JRE_HOME=/home/local/java/jre
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
export CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source /etc/profile

在终端输入java -version,出现下面信息,说明配置成功。
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习

四、安装hadoop

上传hadoop安装包到linux系统,这里使用hadoop2.8.5版本
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
解压安装包

tar -zxvf hadoop-2.8.5.tar.gz -C /home/local/

移动至hadoop目录

 mv hadoop-2.8.5/ hadoop

配置hadoop环境

vi /etc/profile

添加如下配置

#hadoop
export HADOOP_HOME=/home/local/hadoop
export PATH=$PATH:${HADOOP_HOME}/bin

使用配置的环境变量立即生效

source /etc/profile

配置 hadoop-env.sh 文件,指定java安装目录

cd $HADOOP_HOME/etc/hadoop

修改hadoop-env.sh文件

vi /hadoop-env.sh

配置如下

export JAVA_HOME=/home/local/java

配置Hadoop主要文件

核心配置文件 —— core-site.xml

HDFS 配置文件 —— hdfs-site.xml

YARN 配置文件 —— yarn-site.xml

MapReduce 配置文件 —— mapred-site.xml

1.core-site.xml
<configuration>
<!-- 指定 NameNode 的地址 -->
   <property>
      <name>fs.defaultFS</name>
      <value>hdfs://master:9000</value>
   </property>
<!-- 指定 Hadoop 数据的存储目录 -->
   <property>
      <name>hadoop.tmp.dir</name>
      <value>/opt/hadoop/tmp</value>
   </property>
<!-- 配置 HDFS 网页登录使用的静态用户为 master -->
   <property>
      <name>hadoop.http.staticuser.user</name>
      <value>master</value>
   </property>
</configuration>

2.hdfs-site.xml
<configuration>
    <property>
       <name>dfs.replication</name>
       <value>3</value>
    </property>
    <property>
       <name>dfs.namenode.name.dir</name>
       <value>file:/opt/hadoop/dfs/name</value>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>
       <value>file:/opt/hadoop/dfs/data</value>
    </property>
    <property>
       <name>dfs.namenode.http-address</name>
       <value>master:9870</value>
    </property>
    <property>
       <name>dfs.namenode.secondary.http-address</name>
       <value>slave2:9871</value>
    </property>
</configuration>
3.yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
   <!-- 指定 MR 走 shuffle -->
   <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
   </property>

   <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
   </property>
   
   <property>
       <name>yarn.resourcemanager.address</name>
       <value>master:8032</value>
   </property>
   <property>
       <name>yarn.resourcemanager.scheduler.address</name>
       <value>master:8030</value>
   </property>
   <property>
       <name>yarn.resourcemanager.resource-tracker.address</name>
       <value>master:8031</value>
   </property>
   <property>
       <name>yarn.resourcemanager.admin.address</name>
       <value>master:8033</value>
   </property>
   <!-- 指定 客户端web 的地址-->
   <property>
       <name>yarn.resourcemanager.webapp.address</name>
       <value>master:8088</value>
   </property>

   <!-- 环境变量的继承 -->
   <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
   </property>

   <!-- 如果要程序的运行日志信息上传到HDFS系统上,可配置日志聚集(选择配置) -->
   <!-- 开启日志聚集功能 -->
   <property>
     <name>yarn.log-aggregation-enable</name>
     <value>true</value>
   </property>
   <!-- 设置日志聚集服务器地址 -->
   <property>
     <name>yarn.log.server.url</name>
     <value>http://master:19888/jobhistory/logs</value>
   </property>
  <!-- 设置日志保留时间为7天 -->
   <property>
     <name>yarn.log-aggregation.retain-seconds</name>
     <value>604800</value>
   </property>
</configuration>
4.mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

五、启动hadoop

将hadoop分发到每个节点,每个节点都要进行格式化,进入$HADOOP_HOME/bin目录下

$HADOOP_HOME/bin/hdfs namenode -format

进入$HADOOP_HOME的sbin目录下,分别启动hdfs和yarn

./start-dfs.sh && ./start-yarn.sh

使用jps命令查看进程
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
六、访问Web UI界面
客户端Web页面
http://192.168.245.200:8088/cluster/nodes
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习
hdfs页面
大数据学习02-Hadoop分布式集群部署,大数据,大数据,分布式,学习文章来源地址https://www.toymoban.com/news/detail-578501.html

到了这里,关于大数据学习02-Hadoop分布式集群部署的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(40)
  • Hadoop3.3.5最新版本安装分布式集群部署

    Index of /dist/hadoop/common https://archive.apache.org/dist/hadoop/common  集群规划: 注意: NameNode和SecondaryNameNode不要安装在同一台服务器 ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。 机器 ip 分配节点 node01 192.168.56.201 NameNode 、DataNode、NodeManager node02 192.

    2024年02月01日
    浏览(46)
  • hadoop完全分布式集群搭建(超详细)-大数据集群搭建

    本次搭建完全分布式集群用到的环境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk 密码:553ubk 本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2 一.配置免密登陆 首先

    2024年02月10日
    浏览(33)
  • 大数据内容分享(九):Hadoop-生产集群搭建(完全分布式)

    目录 Hadoop运行模式——完全分布式 1、准备3台虚拟机(关闭防火墙、配置静态IP 和 主机名称) 2、安装JDK 和 Hadoop 并配置JDK和Hadoop的环境变量 3、配置完全分布式集群 4、集群配置 1)集群部署规划 2)配置文件说明 3)配置集群 5、集群启动 与 测试 1)workers的配置 2)启动集

    2024年02月21日
    浏览(84)
  • 大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程

    官网链接 进入后网站如图,各位按需下载 官网链接 进入页面点击下载 再根据我们需要下载的软件进入下载页面 点击右侧红框内的免费授权页面获取免费许可 进入后如图,两者我们都需要所以都勾选,填写的邮箱用于接收下载链接,下载后进行安装即可 这里先和大家强调一

    2024年02月07日
    浏览(37)
  • 39学习分布式计算框架 Hadoop 的高可用方案,如 NameNode 集群、ZooKeeper

    Hadoop 是一个分布式计算框架,用于存储和处理大数据。在 Hadoop 集群中,NameNode 是一个关键组件,它负责管理 Hadoop 分布式文件系统(HDFS)中的文件和目录。为了确保高可用性,需要使用多个 NameNode 节点进行冗余备份,并使用 ZooKeeper 进行故障检测和自动故障切换。 以下是学

    2023年04月26日
    浏览(36)
  • 【生产级实践】Docker部署配置Hadoop3.x + HBase2.x实现真正分布式集群环境

    网上找了很多资料,但能够实现Docker安装Hadoop3.X和Hbase2.X真正分布式集群的教程很零散,坑很多, 把经验做了整理, 避免趟坑。 1、机器环境 这里采用三台机器来部署分布式集群环境: 192.168.1.101 hadoop1 (docker管理节点) 192.168.1.102 hadoop2 192.168.1.103 hadoop3 2、下载Docker Hadoop的

    2024年02月02日
    浏览(32)
  • (大数据开发随笔9)Hadoop 3.3.x分布式环境部署——全分布式模式

    分布式文件系统中,HDFS相关的守护进程也分布在不同的机器上,如: NameNode守护进程,尽可能单独部署在一台硬件性能较好的机器中 其他的每台机器上都会部署一个DataNode进程,一般的硬件环境即可 SecondaryNameNode守护进程最好不要和NameNode在同一台机器上 守护进程布局 Name

    2023年04月16日
    浏览(36)
  • Hadoop分布式集群搭建

    集群以三台电脑搭建,每台电脑创建一个UbuntuKylin虚拟机,集群以三台UbuntuKylin虚拟机为基础搭建,虚拟机主机名分别为hadoop101、hadoop111和hadoop121。IP地址分别为192.168.214.101、192.168.214.111和192.168.214.121。 主机名 IP地址: hadoop101 192.168.214.101 hadoop111 192.168.214.111 hadoop121 192.168.214

    2024年02月03日
    浏览(35)
  • Hadoop分布式集群安装

            上一篇大数据文章讲解了在单机上搭建Hadoop-Yarn 伪分布式集群的安装方法,方便大家学习,真实环境不可能只有一台机器,肯定是多节点的集群,大单位还会建设很多Hadoop集群,比如各个大部门有自己的集群,或者按热、温、冷来划分建立集群,反正都是很多台服

    2024年01月19日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包