Hadoop基础学习---2、Hadoop概述

这篇具有很好参考价值的文章主要介绍了Hadoop基础学习---2、Hadoop概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、Hadoop概述

1.1 Hadoop是什么?

1、Hadoop是一个又Apache基金会所开发的分布式系统基础架构。
2、主要解决海量数据的存储和海量数据的分析计算。
3、广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
Hadoop基础学习---2、Hadoop概述

1.2 Hadoop 优势(4高)

1、高可靠性:Hadoop底层维护多个数据副本,所有即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
2、高扩展性:在集群间分配任务数据,可方便扩展数以千计的节点
3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
4、高容错性:能够自动将失败的任务重新分配。

1.3 Hadoop组成

Hadoop基础学习---2、Hadoop概述
在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。Hadoop3.x在组成上没有变化。

1.3.1 HDFS架构概述

Hadoop Distributed File System 简称HDFS,是一个分布式文件系统。
1、NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。
2、DataNode(dn):在本地文件系统存储文件块数据块,以及块数据的校验和。
3、Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份

1.3.2 Yarn架构概述

Yet Another Resource Negotiator简称Yarn。另一种资源协调者,是Hadoop的资源管理器。

1、ResourceManager(RM):整个集群资源(内存、CPU等)的老大。
2、NodeManager(NM):当个节点服务器资源的老大
3、ApplicationMaster(AM):单个任务运行的老大
4、Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源(CPU、内存、磁盘、网络等)。
Hadoop基础学习---2、Hadoop概述
说明:
1、客户端可以有多个。
2、集群上可以运行多个ApplicationMaster。
3、每个NodeManager上可以有多个Container。

1.3.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce
1、Map阶段并行处理输入数据
2、Reduce阶段对Map结果进行汇总
Hadoop基础学习---2、Hadoop概述

1.3.4 HDFS、YARN、MapReduce三者关系

Hadoop基础学习---2、Hadoop概述

1.4 大数据技术生态体系

Hadoop基础学习---2、Hadoop概述
1、Sqoop::Sqoop 是一款开源的工具,主要用于在 Hadoop、Hive 与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
2、Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据。
3、Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统。
4、Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
5、Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
6、Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。
7、Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
8、Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
9、Zookeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

1.5 推荐系统架构图

Hadoop基础学习---2、Hadoop概述文章来源地址https://www.toymoban.com/news/detail-451745.html

到了这里,关于Hadoop基础学习---2、Hadoop概述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习基础之《概述》

    一、机器学习与人工智能、深度学习 1、机器学习是人工智能的一个实现途径 2、深度学习是机器学习的一个方法发展而来 二、统计学习和机器学习 实际机器学习在上世纪80年代已经出现,搞统计的 机器学习中有一个方法,叫人工神经网络,发展成深度学习 三、机器学习、深

    2024年02月12日
    浏览(33)
  • HarmonyOS鸿蒙学习基础篇 - 基本语法概述

    书接上文 HarmonyOS鸿蒙学习基础篇 - 运行第一个程序 Hello World 基本语法概述 打开 entrysrcmainetspagesindex.ets 代码如下 代码详细解释如下: 在以上示例中,ArkTS的基本组成如下所示。  装饰器: 用于装饰类、结构、方法以及变量,并赋予其特殊的含义。如上述示例中@Entry、@Comp

    2024年01月24日
    浏览(60)
  • hadoop 学习:mapreduce 入门案例一:WordCount 统计一个文本中单词的个数

    这个案例的需求很简单 现在这里有一个文本wordcount.txt,内容如下 现要求你使用 mapreduce 框架统计每个单词的出现个数  这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架 (1)创建一个 maven 工程,maven 工程框架可以选择quickstart (2)在properties中添加 had

    2024年02月11日
    浏览(43)
  • Docker学习笔记(一):入门篇,Docker概述、基本组成等,对Docker有一个初步的认识

    记录时间 [2024-4-5] 在先前的文章中,笔者进行了 Windows 系统下 YOLOv8 模型的简单测试,并由此引发思考:是否能尝试将此模型运行在 Linux 中呢?又或者,运行在 Docker 中。关于 Docker 的学习就这么展开了。 本文便是有关 Docker 入门的开篇之作,进行 Docker 概述,期待读者能够

    2024年04月11日
    浏览(41)
  • Hadoop(一)Hadoop概述

    1.Hadoop基本结构 Hadoop是一个分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。 Hadoop组成: Hadoop Common(辅助工具) : The common utilities that support the other Hadoop modules. Hadoop Distributed File System (数据存储) : A distributed file system that provides high-throughput acc

    2023年04月08日
    浏览(31)
  • Hadoop 1.0 到 Hadoop 3.0版本功能概述

    2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。 2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。 2006年2月被分离出来,成为一套完整独

    2023年04月23日
    浏览(80)
  • Hadoop之MapReduce概述

    MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce优缺点 优点 1)MapReduce易于编

    2024年02月08日
    浏览(54)
  • Hadoop入门概述

    Hadoop 是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。以下是学习Hadoop时需要掌握的一些关键概念和技术要点: Hadoop 概述 Hadoop是什么 : Hadoop是一个基于Java编写的开源软件库,用于在商用硬件集群上分布式处理和存储海量数据。 它提供了一个高容错性、

    2024年02月03日
    浏览(37)
  • Hadoop概述

    hadoop是一个由Apache基金会所开发的 分布式系统基础框架 其主要解决,海量 数据的存储和海量数据的的分析计算 问题 广义上,Hadoop通常是指一个更加广泛的概念—— Hadoop生态圈 Hadoop创始人Doug Cutting, 为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级

    2024年02月01日
    浏览(45)
  • 1.2 Hadoop概述

    ) 1.2.1 回归问题 通过前一篇帖子的介绍,特别是问题思考部分的说明,我们大致能够感受到为何需要新的技术体系来解决大数据问题,接下来咱们继续梳理细节。 step_0 传统方案既贵又搞不定大数据问题。 (1)传统数据的处理模式:用户+集中式系统+关系型数据库 优点是架构

    2024年01月23日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包