Hadoop的基本概念和架构

这篇具有很好参考价值的文章主要介绍了Hadoop的基本概念和架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Hadoop的基本概念和架构

学习路线

  1. hadoop的基本概念和架构
  2. hadoop的安装和配置(单机安装)(集群安装)
  3. hadoop的HDFS文件系统
  4. hadoop的MapReduce计算框架
  5. hadoop的YARN资源管理器
  6. hadoop的高级特效,如HBase,Hive,Pig等
  7. hadoop的优化和调优
  8. hadoop的应用场景,如日志分析,数据挖掘等

简介

​ Hadoop是由Apache基金会所发布的开源的分布式计算框架,由Java语言编写,主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统(GFS)的思想,提供了一个可靠,高效,可扩展的分布式计算平台。

​ Hadoop可以运行在廉价的硬件上,而且提供了高吞吐量,通过横向扩展的方式提高计算能力,因此被广泛应用与大数据处理领域。

三大核心

HDFS(存储系统)

​ 存储系统:是指用于存储数据的系统,包括文件系统、数据库系统等。

​ 在Hadoop中,HDFS是Hadoop分布式文件系统,它是Hadoop的核心组件之一。

HDFS采用了Master/Slave的架构,

  • Master节点负责管理和调度
    • NameNode作为Master节点,负责管理文件系统的命名空间和文件块的映射关系
  • Slave节点负责执行具体的任务
    • DataNode作为Slave节点,负责存储文件块的实际数据

Hadoop的基本概念和架构

HDFS的优点是具有高可靠性、高可扩展性、高吞吐量等特点,适合存储大规模数据集。

MapReduce(计算环节)

计算环节:是指对存储在存储系统中的数据进行计算的过程,包括数据的读取、处理和输出等。

​ 在Hadoop中,MapReduce是Hadoop的计算框架,它采用了Map和Reduce两个阶段,其中Map阶段负责将输入数据切分成若干个小块,并对每个小块进行处理,输出中间结果;Reduce阶段负责将中间结果进行合并,得到最终的输出结果。

MapReduce是一种分布式计算模型,用于处理大规模数据集。它将数据分成多个小块,然后在多个计算节点上并行处理这些小块。MapReduce的工作原理如下:

  1. Map阶段:将输入数据分成多个小块,然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数,将输入数据转换成键值对。

  2. Shuffle阶段:将Map函数的输出结果按照键进行分组,然后将同一组的键值对发送到同一个Reduce节点上。

  3. Reduce阶段:将同一组的键值对发送到同一个Reduce节点上,然后在该节点上执行Reduce函数,将同一组的键值对合并成一个结果。

  4. 输出结果:将所有Reduce节点的输出结果合并成一个最终结果。

Hadoop的基本概念和架构

MapReduce的优点是具有高可靠性、高可扩展性、高并发性等特点,适合处理大规模数据集。

YARN(资源分配)

资源分配:是指将计算任务分配给集群中的各个节点进行处理的过程,包括任务调度、资源管理等。

​ 在Hadoop中,YARN(Yet Another Resource Negotiator)是Hadoop的资源管理系统,它负责集群中各个节点的资源管理和任务调度。

​ YARN采用了Master/Slave的架构,其中ResourceManager作为Master节点,负责管理集群中的资源,NodeManager作为Slave节点,负责管理单个节点的资源。ResourceManager负责对各个NodeManager上的资源进行统一管理个和调度。

​ YARN的基本结构包含ResourceManager、NodeManager、ApplicationMaster三个组件

  • ResourceManager:是YARN的核心组件,负责资源的管理和分配。主要功能:
    • 接收客户端提交的应用程序,并为其分配ApplicationMaster
    • 监控集群中的资源使用情况,为ApplicationMaster分配资源
    • 处理NodeManager的心跳信息,更新集群资源使用情况
    • 处理ApplicationMaster的请求,如为其分配资源、杀死应用程序等
  • NodeManager:是YARN的节点管理器,负责节点的管理和任务的执行。主要功能
    • 监控节点上的资源使用情况,向ResourceManager发送心跳信息
    • 接收ApplicationMaster的请求,为其分配容器
    • 启动容器中的任务,并监控任务的执行情况
    • 向ApplicationMaster发送任务执行状态
  • ApplicationMaster:是YARN的应用程序管理器,负责应用程序的管理和调度。主要功能
    • 向ResourceManager提交应用程序,并为其分配资源
    • 向NodeManager申请容器,并为容器分配任务
    • 监控任务的执行情况,并向NodeManager发送任务执行状态
    • 处理任务执行失败的情况,如重新分配任务、杀死任务等

Hadoop的基本概念和架构

YARN的优点是具有高可靠性、高可扩展性、高灵活性等特点,适合管理大规模集群的资源。

举例:

假设有一个大型电商网站,需要对用户的购物行为进行分析,以便提高销售额。

首先,需要将用户的购物数据存储到HDFS中,以便后续的计算。

然后,使用MapReduce计算框架对购物数据进行处理,得到用户的购物行为特征。

最后,使用YARN资源管理系统将计算任务分配给集群中的各个节点进行处理,以提高计算效率。

总结:

Hadoop的基本概念和架构

HDFS(分布式文件存储系统):解决大规模数据集

YARN(资源管理系统):将计算任务分配给集群中的各个节点进行处理

MapReduce(分布式计算框架):对存储在HDFS中的数据进行计算文章来源地址https://www.toymoban.com/news/detail-461240.html

到了这里,关于Hadoop的基本概念和架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Autosar MCAL软件架构基本概念

    MCAL 架构介绍 Autosar整体架构图如下所示: MCAL是MicroController Abstraction Layer(微控制器抽象层)的缩写。如下图所示,MCAL位于AUTOSAR软件架构中基本软件(Basic Software,BSW)的底层,是可以直接访问MCU寄存器和内部外设的底层驱动。这样划分的目的是使上层软件(如ECU抽象层、系

    2024年02月01日
    浏览(40)
  • 【K8S 基本概念】Kurbernetes的架构和核心概念

    目录 一、Kurbernetes 1.1 简介 1.2、K8S的特性: 1.3、docker和K8S: 1.4、K8S的作用: 1.5、K8S的特性: 二、K8S集群架构与组件: 三、K8S的核心组件: 一、master组件: 1、kube-apiserver: 2、kube-controller-manager: 3、kube-scheduler: 4、ETCD组件: 二、node组件: 1、kubelet: 2、kube-proxy: 3、do

    2024年02月04日
    浏览(51)
  • 02_kafka_基本概念_基础架构

    至多一次:消息被确认消费后,删除消息;一般只允许被一个消费者消费,且队列中的数据不允许被重复消费。activeMQ 就是这种。 没有限制:消息可以被多个消费者同时消费,并且同一个消费者可以多次消费同一个记录;大数据场景。 集群中的一则消息也称为 Record ; Topi

    2024年02月13日
    浏览(47)
  • Kafka - 深入了解Kafka基础架构:Kafka的基本概念

    我们首先了解一些Kafka的基本概念。 1)Producer :消息生产者,就是向kafka broker发消息的客户端 2)Consumer :消息消费者,向kafka broker获取消息的客户端 3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个broker可以有多个

    2024年02月08日
    浏览(37)
  • 系统架构设计师笔记第16期:数据库基本概念

    数据库技术在过去几十年中经历了显著的发展和演变。 层次数据库和网状数据库:20世纪60年代和70年代初,层次数据库和网状数据库是主流的数据库模型。层次数据库使用树状结构组织数据,而网状数据库使用复杂的网络结构。这些数据库模型适用于特定的数据组织和查询需

    2024年02月09日
    浏览(50)
  • [4]云计算概念、技术与架构Thomas Erl-第6章 基本云安全

    解决云中基本信息安全问题的术语和概念‼️ 定义一组对公有云环境来说最常见的威胁和攻击‼️ 考试重点: 1.解释和区别云计算安全概念:“完整性和真实性”; 2.解释“流量窃听”; 3.解释“恶意媒介”; 4.解释“信任边界重叠”; 5.“风险管理”的主要工作有哪些,

    2024年01月16日
    浏览(42)
  • Docker - 基本概念、与虚拟机的区别、架构、镜像操作、容器操作、数据卷挂载

    目录 一、对 Docker  的理解 1、Docker 基本概念 2、Docker 与 虚拟机的区别 3、何为镜像和容器? 4、Docker 主要架构 二、Docker 基本操作 1、Docker 镜像操作 2、案例(镜像):去 DockerHub 搜索并拉取一个 Nginx 镜像,打包后删除镜像,重新加载 .tar 文件 3、Docker 容器操作 1.docker run(启

    2024年04月13日
    浏览(44)
  • 【Azure 架构师学习笔记】- Azure Databricks (7) --Unity Catalog(UC) 基本概念和组件

    本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog 在以前的Databricks中,主要由Workspace和集群、SQL Warehouse组成, 这两年Databricks公司推出了Unity Catalog(UC)之后,整个Databricks架构都有了

    2024年02月20日
    浏览(50)
  • 【Hadoop】Hadoop入门概念简介

    🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!🍁🐥 🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁🍁🪁🍁🪁 🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁 感谢点赞和关注 ,每天进步

    2024年02月11日
    浏览(41)
  • 【Hadoop】Hadoop概念与实践

    安装 HomeBrew 参考官方文档进行安装 配置本机 ssh 免密登录 hadoop 运行过程中需要 ssh localhost ,需要做一些配置保证可以执行成功 允许远程登录 偏好设置 - 共享 - 勾选「远程登录」 配置 SSH 通过 ssh-keygen 生成 ssh key ssh-copy-id -i [key 文件] localhost 配置免密登录 ssh localhost 也只能正

    2024年02月06日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包