接上篇文章,完成Hadoop集群部署实验

这篇具有很好参考价值的文章主要介绍了接上篇文章,完成Hadoop集群部署实验。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实验介绍

1.1 实验内容

基于开源软件搭建满足企业需求的Hadoop生态系统,构建基础的大数据分析平台。
本实验采用4台机器搭建Hadoop完全分布式集群,其中1台机器作为Master节点,另外三台机器作为Slave节点,主机名分别为Slave1,Slave2和Slave3。

1.2 实验知识点

Hadoop集群部署
HDFS分布式文件系统管理

1.3 实验环境

Hadoop2.7.3
VMware Workstation 16 Pro for Windows

1.4 实验资源

资源名称 存储目录
hadoop安装包 /opt/software/package/

接上篇文章,完成Hadoop集群部署实验

1.5 实验步骤清单

检查实验环境(防火墙、hosts配置、ssh互信)
可以参考搭建Hadoop集群环境
部署hadoop集群(安装hadoop、创建hdfs数据文件、修改配置文件、主从节点同步)
测试hadoop集群(启动集群、验证集群)

二、实验架构

序号 IP地址 机器名
1 172.25.10.140 master
2 172.25.10.141 slave1
3 172.25.10.142 slave2
4 172.25.10.143 slave3

三、实验环境准备

启动虚拟机master、slave1,slave2和slave3的快照。
输入用户名root密码root登录系统。

四、实验步骤

4.1 查看环境

#关闭防火墙命令
systemctl stop firewalld
#检查防火墙是否关闭
firewall-cmd --state
接上篇文章,完成Hadoop集群部署实验

#检查四台虚拟机hosts文件
cat /etc/hosts
接上篇文章,完成Hadoop集群部署实验

#检查ssh环境
ssh slave1 date
ssh slave2 date
ssh slave3 date
接上篇文章,完成Hadoop集群部署实验

4.2部署Hadoop集群

4.2.1安装hadoop(master)

#解压安装包
tar zxvf /opt/software/package/hadoop-2.7.3.tar.gz -C /usr/local/

#重命名Hadoop安装目录
mv /usr/local/hadoop-2.7.3 /usr/local/hadoop

4.2.2创建hdfs数据文件存储目录(master)

#删除并创建hdfs数据文件存储目录
rm -rf /home/hadoopdir
mkdir /home/hadoopdir
#创建临时文件存储目录
mkdir /home/hadoopdir/tmp
#创建namenode数据目录
mkdir -p /home/hadoopdir/dfs/name
#创建datanode数据目录
mkdir /home/hadoopdir/dfs/data
接上篇文章,完成Hadoop集群部署实验

4.2.3修改配置文件(master)

1、配置环境变量
#检查环境变量

vim /etc/profile
#末尾添加
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=${HADOOP_INSTALL}/bin:${HADOOP_INSTALL}/sbin:${PATH}

接上篇文章,完成Hadoop集群部署实验

#/etc/profile文件生效
source /etc/profile

#hadoop-env.sh配置JAVA_HOME

vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh```

export JAVA_HOME=/usr/local/jdk/jre


#验证Hadoop版本
```hadoop version```
接上篇文章,完成Hadoop集群部署实验


2、修改core-site.xml内容参考如下
```vim /usr/local/hadoop/etc/hadoop/core-site.xml```
fs.defaultFS hdfs://master:9000 io.file.buffer.size 131072 hadoop.tmp.dir file:/home/hadoopdir/tmp/ A base for other temporary directories. hadoop.proxyuser.hadoop.hosts * hadoop.proxyuser.hadoop.groups * ``` 3、修改hdfs-site.xml文件 ```vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml``` ``` dfs.namenode.name.dir file:///home/hadoopdir/dfs/name dfs.datanode.data.dir file:///home/hadoopdir/dfs/data dfs.replication 2 dfs.webhdfs.enabled true ``` 4、修改mapred-site.xml #复制配置文件 ```cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml```

#修改配置文件
vim /usr/local/hadoop/etc/hadoop/mapred-site.xml

<configuration>         
<property> 
      <name>mapreduce.framework.name</name>
          <value>yarn</value>
           </property>
          <property>
                  <name>mapreduce.jobhistory.address</name>
                  <value>master:10020</value>
          </property>
          <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master:19888</value>
       </property>
 <property>
                <name>mapreduce.jobtracker.http.address</name>
                <value>master:50030</value>
       </property>
 <property>
                <name>mapred.job.tracker</name>
                <value>master:9001</value>
       </property>
</configuration>

5、修改 yarn-site.xml
vi /usr/local/hadoop/etc/hadoop/yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
        </property>
        <property>  
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>  
               <name>yarn.resourcemanager.hostname</name>
               <value>master</value>
       </property>  
        <property>   
               <name>yarn.resourcemanager.address</name>
               <value>master:8032</value>
       </property>
       <property>       
<name>yarn.resourcemanager.scheduler.address</name>
               <value>master:8030</value>
       </property>
       <property>   
<name>yarn.resourcemanager.resource-tracker.address</name>
             <value>master:8031</value>
      </property>
      <property>
              <name>yarn.resourcemanager.admin.address</name>
               <value>master:8033</value>
       </property>
       <property>
               <name>yarn.resourcemanager.webapp.address</name>
               <value>master:8088</value>
       </property>
</configuration>

6、修改 slaves文件
vim /usr/local/hadoop/etc/hadoop/slaves

slave1
slave2
slave3

7、初始化HDFS
hadoop namenode -format
接上篇文章,完成Hadoop集群部署实验

备注:最后出现“util.ExitUtil: Exiting with status 0”,表示成功。

4.2.4主从节点同步(master)

1、同步/usr/local/hadoop目录文件到slave节点
scp -r /usr/local/hadoop slave1:/usr/local/
scp -r /usr/local/hadoop/ slave2:/usr/local/
scp -r /usr/local/hadoop/ slave3:/usr/local/

2、同步/home/hadoopdir目录文件到slave节点
#删除目录
ssh slave1 rm -rf /home/hadoopdir
ssh slave2 rm -rf /home/hadoopdir
ssh slave3 rm -rf /home/hadoopdir
接上篇文章,完成Hadoop集群部署实验

#同步目录
scp -r /home/hadoopdir slave1:/home/
scp -r /home/hadoopdir slave2:/home/
scp -r /home/hadoopdir slave3:/home/

接上篇文章,完成Hadoop集群部署实验

3、同步环境信息
scp /etc/profile slave1:/etc/profile
scp /etc/profile slave2:/etc/profile
scp /etc/profile slave3:/etc/profile
接上篇文章,完成Hadoop集群部署实验

[root@slave1 ~]# source /etc/profile
``[root@slave2 ~]# source /etc/profile [root@slave3 ~]# source /etc/profile```
接上篇文章,完成Hadoop集群部署实验

4.3测试Hadoop集群

4.3.1启动集群

#启动hadoop集群(master)
start-all.sh
接上篇文章,完成Hadoop集群部署实验

4.3.2验证Hadoop集群
1、JPS查看Java进程
#master
接上篇文章,完成Hadoop集群部署实验

#slave1
接上篇文章,完成Hadoop集群部署实验

#slave2
接上篇文章,完成Hadoop集群部署实验
#slave3
接上篇文章,完成Hadoop集群部署实验

2、登录网页查看
打开浏览器,登录http://172.25.10.140:50070
接上篇文章,完成Hadoop集群部署实验

打开浏览器,查看yarn环境,登录http://172.25.10.140:8088
接上篇文章,完成Hadoop集群部署实验

五、实验总结

本次实验采用完全分布式集群安装方式,需要提前部署JDK环境、SSH验证等过程。安装并启动后可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。文章来源地址https://www.toymoban.com/news/detail-497336.html

到了这里,关于接上篇文章,完成Hadoop集群部署实验的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • docker从安装到部署项目,一篇文章教会你

    首先看下 Docker 图标: 一条小鲸鱼上面有些集装箱,比较形象的说明了 Docker 的特点,以后见到这个图标等同见到了 Docker 1. Docker 是一个开源的应用容器引擎,它基于 Go 语言开发,并遵从 Apache2.0 开源协议 2. 使用 Docker 可以让开发者封装他们的应用以及依赖包到一个可移植的

    2024年02月08日
    浏览(53)
  • <c++开发>通信工具 -之-SOME/IP移植部署 第一篇文章

    SOME/IP (Scalable service-Oriented MiddlewarE over IP) 是一种通信协议,主要用于嵌入式系统和车载网络中的服务导向通信。SOME/IP是AUTOSAR(AUTomotive Open System ARchitecture,汽车开放系统架构)标准的一部分,AUTOSAR是由主要汽车制造商和供应商共同制定的开放式汽车电子架构标准。 SOME/IP协

    2024年02月11日
    浏览(92)
  • stable diffusion webui界面布局(很多大佬一键安装包的样式,自己部署却没有?那就看这篇文章吧!)

    自己部署stable diffusion界面布局(很多大佬一键安装包的样式,自己部署却没有?那就看这篇文章吧!) 如下图,使用一键部署的项目,有【外挂vae模型】【跳过CLIP部署】,且【采样方法】的部署不是下拉列表,而是所有采样方法都放出来了 如下图:这是不适用一键部署包,

    2024年02月16日
    浏览(57)
  • 一篇文章教你使用Docker本地化部署Chatgpt(非api,速度非常快!!!)及裸连GPT的方式(告别镜像GPT)

    这种方法的好处就是没有登录限制,不用担心封号,没有ip的限制,是一种官方认可的方式 使用普通的科学的上网方式,也可以直接进行连接使用 该项目来源于Github大佬制作的关于GPT的本地化部署 有兴趣了解原理的可以去看看这个项目 潘多拉,一个让你呼吸顺畅的ChatGPT D

    2024年02月12日
    浏览(44)
  • 一篇文章学会高级IO

    IO是数据在传输时的一种动作描述,分为输入数据(I)和输出数据(O)两种动作。和一般而言,IO都需要维护一个收发数据的缓冲区,例如read、recv函数和write、send函数,它们的数据缓冲区都是由系统帮助创建的。对于C语言中常用到的scanf函数和printf函数,同样不需要用户自

    2024年02月05日
    浏览(68)
  • 七大 排序算法(一篇文章梳理)

    排序算法是计算机科学中不可或缺的一部分,它们在数据处理、数据库管理、搜索引擎、数据分析等多个领域都有广泛的应用。排序算法的主要任务是将一组数据元素按照某种特定的顺序(如升序或降序)进行排列。本文将对一些常见的排序算法进行详细的介绍和分析,包括

    2024年03月08日
    浏览(54)
  • 一篇文章玩透awk

    awk有很多种版本,例如nawk、gawk。gawk是GNU awk,它的功能很丰富。 本教程采用的是gawk 4.2.0版本,4.2.0版本的gawk是一个比较大的改版,新支持的一些特性非常好用,而在低于4.2.0版本时这些语法可能会报错。所以,请先安装4.2.0版本或更高版本的gawk。 查看awk版本 这里以安装ga

    2024年02月06日
    浏览(46)
  • 一篇文章理解虚拟滚动原理

    首先提到一个现象,前端的性能瓶颈那就是页面的卡顿,当然这种页面的卡顿包含了多种原因。例如HTTP请求过多导致数据加载国漫,下载的静态文件非常大导致页面加载时间很长,js中一些算法响应的时间过长等。很多前端工程师都花费很多的精力在dom渲染上来优化页面加载

    2024年02月05日
    浏览(37)
  • ai写作软件怎么写文章?这篇文章介绍三个好方法

    在人工智能技术的迅速发展下,ai写作成为创作领域的一项炙手可热的新技术。随着越来越多的创作者开始借助ai写作工具,ai写作逐渐引起了广泛的关注。ai写作是指利用人工智能技术和自然语言处理算法,为创作者提供文章的初版。不过有很多小伙伴对这一项技术还不太了

    2024年02月11日
    浏览(43)
  • 一篇文章介绍分布式事务

    事务 事务指的就是一个操作单元,在这个操作单元中的所有操作最终要保持一致的行为,要么所有操作都成功,要么所有的操作都被撤销。简单地说,事务提供一种“要么什么都不做,要么做全套”机制。 本地事务 本地事务其实可以认为是数据库提供的事务机制。说到数据

    2023年04月23日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包