Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述

这篇具有很好参考价值的文章主要介绍了Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

在当今大数据时代,处理海量数据成为了一项关键任务。Hadoop作为一种开源的分布式计算框架,为大规模数据处理和存储提供了强大的解决方案。本文将介绍Hadoop的组成和其在大数据处理中的重要作用,让我们一同踏上学习Hadoop的旅程。

Hadoop概述

Hadoop 是什么

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

Hadoop 三大发行版本(了解)

Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。
Apache 版本最原始(最基础)的版本,对于入门学习最好。2006
Cloudera 内部集成了很多大数据框架,对应产品CDH。2008
Hortonworks 文档较好,对应产品HDP。2011
Hortonworks 现在已经被Cloudera 公司收购,推出新的品牌CDP。
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

Apache Hadoop

官网地址
下载地址:https://hadoop.apache.org/releases.html

Cloudera Hadoop

官网地址:https://www.cloudera.com/downloads/cdh
下载地址
(1)2008 年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的
商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009 年 Hadoop 的创始人Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主
要为CDH,Cloudera Manager,Cloudera Support
(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安
全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
(4)Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一
个Hadoop集群,并对集群的节点及服务进行实时监控。

Hortonworks Hadoop

官网地址
下载地址:https://hortonworks.com/downloads/#data-platform

(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述
工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
(3)Hortonworks 的主打产品是Hortonworks Data Platform(HDP),也同样是100%开
源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
(4)2018年Hortonworks 目前已经被Cloudera公司收购。

Hadoop 优势(4 高)

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元
素或存储出现故障,也不会导致数据的丢失。
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处
理速度。
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

4)高容错性:能够自动将失败的任务重新分配。
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

Hadoop 组成(面试重点)

Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

HDFS 架构概述

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。

  • 1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、
    文件权限),以及每个文件的块列表和块所在的DataNode等
  • 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
  • 3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN 架构概述

Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是 Hadoop 的资源管理器。

  • 1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大
  • 2)NodeManager(NM):单个节点服务器资源老大
  • 3)ApplicationMaster(AM):单个任务运行的老大
  • 4)Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等

说明1:客户端可以有多个

说明2:集群上可以运行多个ApplicationMaster

说明3:每个NodeManager上可以有多个Container

MapReduce 架构概述

MapReduce 将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce 阶段对Map结果进行汇总

HDFS、YARN、MapReduce三者关系

Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

大数据技术生态体系

Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式
图中涉及的技术名词解释如下:
视频、ppt等(非结构化数据)
数据来源层
1)Sqoop:Sqoop 是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)
间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进
到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,
Flume 支持在日志系统中定制各类数据发送方,用于收集数据;
3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统;
4)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数
据进行计算。
5)Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
6)Oozie:Oozie 是一个管理Hadoop作业(job)的工作流程调度管理系统。
7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,
它是一个适合于非结构化数据存储的数据库。
8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张
数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运
行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开
发专门的MapReduce应用,十分适合数据仓库的统计分析。
9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、
名字服务、分布式同步、组服务等。

推荐系统框架图

Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述,Hadoop学习指南,大数据,hadoop,分布式

总结:

Hadoop是大数据时代的重要组成部分,其分布式文件系统HDFS和分布式计算框架MapReduce构成了Hadoop的核心。Hadoop的出现为大规模数据处理和存储带来了新的解决方案,其高可扩展性、容错性和成本效益成为吸引用户的重要特点。

今天我们以了解和认识Hadoop为主,充分熟悉它的组成和细节,帮助我们更好的去学习它。文章来源地址https://www.toymoban.com/news/detail-620436.html

到了这里,关于Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习:数据增强】计算机视觉中数据增强的完整指南

    可能面临的一个常见挑战是模型的过拟合。这种情况发生在模型记住了训练样本的特征,但却无法将其预测能力应用到新的、未见过的图像上。过拟合在计算机视觉中尤为重要,在计算机视觉中,我们处理高维图像输入和大型、过度参数化的深度网络。有许多现代建模技术可

    2024年02月03日
    浏览(31)
  • 读SQL学习指南(第3版)笔记10_元数据与大数据

    1.3.19.1. system catalog 5.7.2.1. 服务器会检查数据表的元数据,以确定实际需要包含哪些分区 5.7.3.1. 只有那些包含查询所需数据的分区才会被包含在内 5.7.4.1. 财务数据可能需要在线保存7年,如果数据表已根据事务日期进行分区,就可以撤销数据保存时长超过7年的分区 5.9.1.1. 

    2024年02月10日
    浏览(28)
  • [Java 探索之路~大数据篇] 新时代大数据流处理入门指南

    本文主要介绍大数据基础,以及 flink 流计算 1.批处理 批处理(Batch Processing)是指对一批数据进行处理。我们身边的批处理比比皆是,最常见的批处理例子有:微信运动每天晚上有一个批处理任务,把用户好友一天所走的步数统计一遍,生成排序结果后推送给用户;银行信用

    2024年03月10日
    浏览(37)
  • Redis学习指南(2)-Redis与传统SQL数据库的差异

    在数据库领域,Redis和SQL数据库是两种不同的存储解决方案,各自具有一系列优势和劣势。本文将对Redis和SQL数据库进行对比分析,以帮助读者更好地了解它们的特点和适用场景。 1. 高性能 Redis以其出色的性能而闻名,主要因为它是一个基于内存的键值存储系统。这意味着数

    2024年01月21日
    浏览(32)
  • 读SQL学习指南(第3版)笔记03_创建和填充数据库

    3.2.3.1. ALTER TABLE person MODIFY person_id SMALLINT UNSIGNED AUTO_INCREMENT; 5.4.3.1. sql 5.4.3.2. %a 星期几的简写,比如Sun、Mon、... 5.4.3.3. %b 月份名称的简写,比如Jan、Feb、... 5.4.3.4. %c 月份的数字形式(0…12) 5.4.3.5. %d 月份中的天数(00…31) 5.4.3.6. %f 微秒数(000000…999999) 5.4.3.7. %H 24小

    2024年02月11日
    浏览(31)
  • 微信小程序网悦新闻开发--云函数以及云数据开发(七),详细学习指南

    微信小程序网悦新闻开发–我的模块开发(五) 微信小程序网悦新闻开发–自定义组件开发(六) 微信小程序网悦新闻开发–云函数以及云数据开发(七) 云函数 云函数是一段运行在云端的代码,无需管理服务器,在开发工具内编写、一键上传部署即可运行后端代码。 小

    2024年04月25日
    浏览(26)
  • 成为MySQL大师的第一步:轻松学习MySQL数据库的终极指南!

    官网:https://dev.mysql.com/ 1.1 安装 1.1.1 版本 MySQL官方提供了两个版本: 商业版本(MySQL Enterprise Edition) 该版本是收费的,我们可以使用30天。 官方会提供对应的技术支持。 社区版本(MySQL Community Server) 该版本是免费的,但是MySQL不会提供任何的技术支持。 1.1.2 安装 官网下载

    2024年02月06日
    浏览(36)
  • 【大数据进阶第三阶段之DolphinScheduler学习笔记】DolphinScheduler(海豚调度)的部署指南

    参考官网部署方式:https://dolphinscheduler.apache.org/zh-cn/docs/3.1.3/guide/installation/standalone 部署方式:单机部署,伪集群部署,集群部署。 如果是新手,想要体验 DolphinScheduler 的功能,推荐使用Standalone方式体检。如果你是在生产中使用,推荐使用 集群部署或者 kubernetes。 Standalone

    2024年01月22日
    浏览(33)
  • 使用交通、火灾和事故图像数据集进行深度学习模型训练的全面指南 - Python实现

    1. 引言 随着深度学习的迅速发展,模型的训练变得越来越依赖于高质量的数据。特别是在安全、监控和应急响应领域,识别交通、火灾和事故的图像是至关重要的。本文将介绍如何使用Python来处理这三种类别的图像数据集,为深度学习模型的训练做好准备。 2. 数据集概览 交

    2024年02月12日
    浏览(46)
  • 计算机网络:自顶向下第八版学习指南笔记和课后实验--网络层(数据平面)

    记录一些学习计算机网络:自顶向下的学习笔记和心得 Github地址,欢迎star ⭐️⭐️⭐️⭐️⭐️ 网络层中的每一台主机和路由器都有一个网络层的部分,网络层可以被分解为两个相互作用的部分: 数据平面 和 控制平面 数据平面主要是网络中每台路由器的功能,该数据平面

    2024年02月03日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包