Hadoop 相关介绍-Toy模板网

这篇具有很好参考价值的文章主要介绍了Hadoop 相关介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、Hadoop介绍

二、Hadoop 架构

1、 Hadoop 1.x 架构

2、Hadoop 2.x 3.x 架构

三、HDFS介绍

1、HDFS架构

2、HDFS 特点

四、 Hadoop 之 MapReduce 初体验

1、使用上述的测试包, 计算圆周率

2、使用上述的测试包, 进行词频统计

一、Hadoop介绍

1. Hadoop之父：道格卡丁（Doug Cutting）

2. 吉祥物：大象

3. Hadoop 解释：

狭义解释：指的是HDFS、MapReduce、Yarn等框架.

广义解释：指的是Hadoop生态圈，包括但不限于周边所有技术.

4. Hadoop组成：

HDFS(Hadoop distributed file system）：Hadoop分布式文件存储系统

MapReduce：分布式计算框架

Yarn：分布式任务接收和资源调度框架

5. 分布式和集群：

分布式：多台机器做不同的事，组成一个整体.

集群：多台机器做相同的事.

多台机器可以组成中心化模式（主从模式），也可以组成去中心化模式（主备模式）.

Hadoop 相关介绍,hadoop

二、Hadoop 架构

1、 Hadoop 1.x 架构

Hadoop 1.x = HDFS + MapReduce

HDFS集群中：

namenode 为主节点，负责管理整个HDFS集群以及维护和管理元数据.

SecondaryNameNode 为辅助节点，负责辅助namenode管理元数据.

datanode 为从节点，负责维护和管理源文件、数据的读、写操作以及定时向 namenode 报活.

MapReduce集群中：

JobTracker 为主节点，负责任务的接收、调度、监控以及资源的调度和分配.

TaskTracker 为从节点，负责接收并执行 JobTracker 分配过来的计算任务.

元数据：描述数据的数据称之为元数据.

由于 JobTarcker 任务过于繁重，容易宕机. 所以 2.x 3.x 架构有所改变.

2、Hadoop 2.x 3.x 架构

Hadoop 2.x 3.x = HDFS + MapReduce + Yarn

此时 MapReduce 已经没有集群概念了，而是代码级别的程序 . 即：MR计算任务

Yarn 集群中：

ResourceManager 为主节点，负责任务的接收以及资源的调度和分配.

nademanager 为从节点，负责接收并执行 ResourceManager 分配过来的计算任务.

Hadoop 相关介绍,hadoop

Hadoop 集群高可用模式图解

Hadoop 相关介绍,hadoop

三、HDFS介绍

1、HDFS架构

HDFS 的三大机制：

心跳机制（3秒，630秒，6小时）：

（1） datanode 会定时 3 秒向 namenode 发送心跳包.

（2）如果超过一定时间 630 秒，namenode 没有收到 datanode 的心跳包，就认为它宕机了，此时就会将该 datanode 的块信息交由其它活跃的 datanode 来储存.

（3）所有的 datanode 会定时 6 小时向 namenode 汇报一次自己完整的块信息，让 namenode 校验更新.

负载均衡：

namenode 会保证所有的 datanode 的资源使用率尽量保持一致.

副本机制：

可以提高容错率，默认的副本数是：3

如果当前副本总数 > 默认的副本数，namenode 会自动删除某个副本.

如果当前副本总数 < 默认的副本数， namenode 会自动增加该副本.

如果当前活跃的机器总数 < 默认的副本数，就会强制进入安全模式（safemode），安全模式下：只能读不能写.

2、HDFS 特点

（1） HDFS 文件系统可存储超大文件，时效性稍差.

（2） HDFS 具有硬件故障检测和自动快速恢复功能.

（3） HDFS 为数据存储提供很强的扩展能力.

（4） HDFS 存储一般为一次写入，多次读取，只支持追加写入，不支持随机修改.

（5） HDFS 可在廉价的机器上运行.

四、 Hadoop 之 MapReduce 初体验

Hadoop 框架提供了 MapReduce 的测试包 , 具体如下

1、使用上述的测试包, 计算圆周率

建议cd先进入到Hadoop提供的MR的测试包所在的路径下

#进入到 Hadoop 提供的 MR 测试包所在路径
cd /export/server/hadoop/share/hadoop/mapreduce

#执行 MR 包计算任务
yarn jar hadoop-mapreduce-examples-3.3.0.jar pi 2 50

格式解释：

yarn jar 固定格式 , 说明要把某个 jar 包交给 yarn 调度执行.

hadoop-mapreduce-examples-3.3.0.jar Hadoop 提供的 MR 任务的测试包

pi 要执行的任务名

2 表示 MapTask 的任务数 , 即 : 几个线程来做这个事儿.

50 投点数 , 越大 , 计算结果越精准 .

（圆周率计算底层用的是：蒙特卡洛算法）

运行结果：

2、使用上述的测试包, 进行词频统计

# 使用 MR 包进行词频统计
yarn jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input/word.txt
/output

结果展示：

Hadoop 相关介绍,hadoop 文章来源地址https://www.toymoban.com/news/detail-783932.html

到了这里，关于Hadoop 相关介绍的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Hadoop 相关介绍

一、Hadoop介绍

二、Hadoop 架构

1、 Hadoop 1.x 架构

2、Hadoop 2.x 3.x 架构

三、HDFS介绍

1、HDFS架构

2、HDFS 特点

四、 Hadoop 之 MapReduce 初体验

1、使用上述的测试包, 计算圆周率

2、使用上述的测试包, 进行词频统计

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2