Hadoop 相关介绍

这篇具有很好参考价值的文章主要介绍了Hadoop 相关介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、Hadoop介绍

二、Hadoop 架构

1、 Hadoop 1.x 架构

2、Hadoop 2.x 3.x 架构

三、HDFS介绍

1、HDFS架构

2、HDFS 特点

四、 Hadoop 之 MapReduce 初体验

1、使用上述的测试包, 计算圆周率

2、使用上述的测试包, 进行词频统计


一、Hadoop介绍

1. Hadoop之父:道格 卡丁 (Doug Cutting)

2. 吉祥物: 大象

3. Hadoop 解释:

狭义解释:指的是HDFS、MapReduce、Yarn等框架.

广义解释:指的是Hadoop生态圈,包括但不限于周边所有技术.

4. Hadoop组成:

HDFS(Hadoop distributed file system):Hadoop分布式文件存储系统

MapReduce:分布式计算框架

Yarn:分布式 任务接收和资源调度框架       

5. 分布式和集群:

分布式:多台机器做不同的事,组成一个整体.

集群: 多台机器做相同的事. 

多台机器可以组成 中心化模式 (主从模式),也可以组成 去中心化模式 (主备模式).   

Hadoop 相关介绍,hadoop

二、Hadoop 架构

1、 Hadoop 1.x 架构

Hadoop 1.x = HDFS + MapReduce

HDFS集群中:

namenode 为主节点,负责管理整个HDFS集群 以及 维护和管理元数据.

SecondaryNameNode 为辅助节点,负责辅助namenode管理元数据.

datanode 为从节点,负责维护和管理源文件 、 数据的读、写操作 以及 定时向 namenode 报活.

MapReduce集群中:

JobTracker 为主节点,负责任务的接收、调度、监控 以及 资源的调度和分配.

TaskTracker 为从节点,负责接收并执行 JobTracker 分配过来的计算任务.

元数据:描述数据的数据称之为元数据.

Hadoop 相关介绍,hadoop

由于 JobTarcker 任务过于繁重,容易宕机. 所以 2.x 3.x 架构有所改变.

2、Hadoop 2.x 3.x 架构

Hadoop 2.x 3.x = HDFS + MapReduce + Yarn

此时 MapReduce 已经没有集群概念了,而是代码级别的程序 . 即:MR计算任务

Yarn 集群中:

ResourceManager 为主节点,负责任务的接收 以及 资源的调度和分配.

nademanager 为从节点,负责接收并执行 ResourceManager 分配过来的计算任务.

Hadoop 相关介绍,hadoop

Hadoop 集群高可用模式图解

Hadoop 相关介绍,hadoop

三、HDFS介绍

1、HDFS架构

HDFS 的三大机制:

心跳机制(3秒,630秒,6小时):

(1) datanode 会定时 3 秒向 namenode 发送心跳包.

(2) 如果超过一定时间 630 秒,namenode 没有收到 datanode 的心跳包,就认为它宕机了,此时就会将该 datanode 的块信息交由其它活跃的 datanode 来储存.

(3) 所有的 datanode 会定时 6 小时向 namenode 汇报一次自己完整的块信息,让 namenode 校验更新.

负载均衡:

namenode 会保证所有的 datanode 的资源使用率尽量保持一致.

副本机制:

可以提高容错率,默认的副本数是:3

如果 当前副本总数 > 默认的副本数 ,namenode 会自动删除某个副本.

如果 当前副本总数 < 默认的副本数, namenode 会自动增加该副本.

如果 当前活跃的机器总数 < 默认的副本数,就会强制进入安全模式(safemode),安全模式下:只能读不能写.

Hadoop 相关介绍,hadoop

2、HDFS 特点

(1) HDFS 文件系统可存储超大文件,时效性稍差.

(2) HDFS 具有硬件故障检测和自动快速恢复功能.

(3) HDFS 为数据存储提供很强的扩展能力.

(4) HDFS 存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改.

(5) HDFS 可在廉价的机器上运行.

四、 Hadoop 之 MapReduce 初体验

Hadoop 框架提供了 MapReduce 的测试包 , 具体如下
Hadoop 相关介绍,hadoop

1、使用上述的测试包, 计算圆周率

建议cd先进入到Hadoop提供的MR的测试包所在的路径下

#进入到 Hadoop 提供的 MR 测试包所在路径
cd /export/server/hadoop/share/hadoop/mapreduce

#执行 MR 包计算任务
yarn jar hadoop-mapreduce-examples-3.3.0.jar pi 2 50

 格式解释:

yarn jar                                              固定格式 , 说明要把某个 jar 包交给 yarn 调度执行.
hadoop-mapreduce-examples-3.3.0.jar Hadoop                    提供的 MR 任务的测试包
pi                                                        要执行的任务名
2                                                        表示 MapTask 的任务数 , : 几个线程来做这个事儿.
50                                                       投点数 , 越大 , 计算结果越精准 .
(圆周率计算底层用的是:蒙特卡洛算法)
运行结果:
Hadoop 相关介绍,hadoop

2、使用上述的测试包, 进行词频统计

# 使用 MR 包进行词频统计
yarn jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input/word.txt
/output

结果展示:

Hadoop 相关介绍,hadoopHadoop 相关介绍,hadoopHadoop 相关介绍,hadoop 文章来源地址https://www.toymoban.com/news/detail-783932.html

到了这里,关于Hadoop 相关介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • hadoop3相关配置

    一、hadoop部署 master slave1 slave2 namenode 是 secondarynamenode 是 datanode 是 是 是 resourcemanager 是 nodemanager 是 是 是 jobhistory 是 二、相关设置 1、主机名与ip映射:hosts文件 验证:ping master,ping slave1,ping slave2 hosts文件要传送至slave1,slave2。思考原因?(让slave1和slave2可以通过主机名ping通对

    2024年02月22日
    浏览(44)
  • Hadoop——Hive相关问题汇总

    (1) 连接数据库时SSL问题  解决方法:useSSL=false要放最后 (2) jdbc:hive2://localhost:10091: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: Áõ¸ is not allowed to impersonate root org.apache.hadoop.ipc.RemoteException:User: Áõ¸

    2024年02月16日
    浏览(34)
  • Hadoop、HDFS 相关面试题

    Hadoop 是一个开源的分布式存储和计算框架,最初由 Apache 软件基金会开发。它允许大规模数据处理和存储,具有高度可靠性和可扩展性。 Hadoop 由两个核心部分组成: 分布式文件系统 HDFS —— 用于数据存储 计算框架 YARN —— 用于资源管理和作业调度 Hadoop 的主要特点有以下

    2024年04月16日
    浏览(41)
  • 基于Hadoop生态的相关框架与组件的搭建

    目录 一、前言 安装包 二、linux配置 1、配置网络参数 2、永久关闭防火墙 3、添加IP地址配置映射表 4、SSH免密登录设置 5、配置时间同步 三、准备工作 四、jdk安装 五、Zookeeper集群部署 1、Zookeeper集群启动脚本编写  六、Hadoop高可用集群部署 1、安装配置  2、修改配置文件 (

    2023年04月19日
    浏览(36)
  • 【hadoop】hbase的安装部署以及相关操作(图文详解)

    ​ HBase是一种基于列存储的分布式数据库系统,它能够快速地存储和处理大规模数据。与传统的关系型数据库不同,HBase采用了分布式的架构,能够实现数据的高可靠性、高可扩展性和高性能。在实际应用中,正确地安装和部署HBase集群是非常重要的。 在安装hbase之前,需要虚

    2024年02月04日
    浏览(42)
  • 从零开始的Hadoop学习(二)| Hadoop介绍、优势、组成、HDFS架构

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,Hadoop通常是指一个更广泛的概念—Hadoop生态圈。 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致

    2024年02月11日
    浏览(48)
  • 初学者部署Ambari及通过Ambari安装hadoop相关组件

    目录 1.准备工作 1.2初始化配置 1.2.1设置主机名 1.2.2HOSTS文件 1.2.3关闭防火墙和selinux 1.2.4免密配置(单台机器也需要) 1.2.5修改yum源为阿里源 1.2.6配置JAVA环境变量(如果未安装java环境则需要先安装) ​​​​​​​1.2.7NTP时钟同步 ​​​​​​​1.2.8安装httpd服务 ​​​​​​​

    2024年02月06日
    浏览(36)
  • 手把手教你在linux中部署hadoop以及hadoop功能介绍

    我们在学大数据的时候hadoop是躲避不开的地方,所以如何在linux中部署hadoop,下面就是手把手教你如何部署hadoop。你只要复制粘体,然后按enter键就可以了。 准备:   安装Linux版本的服务器。可以参考中前半部分安装服务器的内容即可:VM部署CentOS并且设置网络_ZeroMaster的博客

    2024年02月03日
    浏览(56)
  • Hadoop --- HDFS介绍

    HDFS 全称是Hadoop Distributed File System hadoop分布式(cluser)文件存储系统。适合一次写入,多次读出的场景。 HDFS不需要单独安装,安装Hadoop的时候带了HDFS系统。 Hadoop安装可以参考:  有基础的,已经安装了虚拟机的 : Hadoop安装 没有基础, 也没有安装虚拟机的: Hadoop集群安

    2024年02月10日
    浏览(41)
  • 【新星计划】Hadoop入门介绍

      目录 一、 大数据概述 1.1 大数据是什么 1.2 大数据的特点 1.3大数据的应用场景 1.4 大数据生态圈 1.5 开发工具补充: 二、 Hadoop介绍 2.1 Hadoop是什么  2.2 Hadoop的背景 2.3 Hadoop就业前景         大数据 是指无法在一定时间内用常规软件工具对其内容进行抓取、 管理 和处理

    2024年02月12日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包