一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系

这篇具有很好参考价值的文章主要介绍了一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

1.1 Hadoop 是什么

 1.2 Hadoop 发展历史

1.3 Hadoop 三大发行版本 

1.4 Hadoop优势(4高) 

1.5 Hadoop 组成(面试重点) 

1.5.1 HDFS 架构概述  

1.5.2 YARN 架构概述  

1.5.3 MapReduce 架构概述  

1.5.4 HDFS、YARN、MapReduce 三者关系  

1.6 大数据技术生态体系 

1.7 推荐系统框架图  


1.1 Hadoop 是什么

(1 Hadoop 是一个由 Apache 基金会所开发的 分布式系统基础架构
(2 )主要解决,海量数据的 存储 和海量数据的 分析计算 问题。
(3 )广义上来说, Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈
hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

 1.2 Hadoop 发展历史

(1 Hadoop 创始人 Doug Cutting ,为 了实 现与 Google 类似的全文搜索功能,他在 Lucene 框架基础上进行优
化升级,查询引擎和索引引擎。
(2 2001 年年底 Lucene 成为 Apache 基金会的一个子项目。
(3 )对于海量数据的场景, Lucene 框 架面 对与 Google 同样的困难, 存 储海量数据困难,检 索海 量速度慢
(4 )学习和模仿 Google 解决这些问题的办法 :微型版 Nutch
(5 )可以说 Google Hadoop 的思想之源( Google 在大数据方面的三篇论文)
        GFS --->HDFS
        Map-Reduce --->MR
        BigTable --->HBase
(6 2003-2004 年, Google 公开了部分 GFS MapReduce 思想的细节,以此为基础 Doug Cutting 等人用
2 年业余时间 实现了 DFS MapReduce 机制,使 Nutch 性能飙升。
(7 2005 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。
(8 2006 3 月份, Map-Reduce Nutch Distributed File System NDFS )分别被纳入到 Hadoop 项目
中, Hadoop 就此正式诞生,标志着大数据时代来临。
(9 )名字来源于 Doug Cutting 儿子的玩具大象

1.3 Hadoop 三大发行版本 

Hadoop 三大发行版本: Apache Cloudera Hortonworks
Apache 版本最原始(最基础)的版本,对于入门学习最好。 2006
Cloudera 内部集成了很多大数据框架,对应产品 CDH 2008
Hortonworks 文档较好,对应产品 HDP 2011
Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP
(1 Apache Hadoop
官网地址: http://hadoop.apache.org
下载地址: https://hadoop.apache.org/releases.html
(2 Cloudera Hadoop
官网地址: https://www.cloudera.com/downloads/cdh
下载地址: https://docs.cloudera.com/documentation/enterprise/6/release
notes/topics/rg_cdh_6_download.html
1 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop
商用解决方案,主要是包括支持、咨询服务、培训。
(2 2009 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司 Cloudera 产品主
要为 CDH Cloudera Manager Cloudera Support
(3 CDH Cloudera Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安
全性,稳定性上有所增强。 Cloudera 的标价为每年每个节点 10000 美元
(4 Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一
Hadoop 集群,并对集群的节点及服务进行实时监控。
(3 Hortonworks Hadoop
官网地址: https://hortonworks.com/products/data-center/hdp/
下载地址: https://hortonworks.com/downloads/#data-platform
1 2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建。
(2 )公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述
工程师均在 2005 年开始协助雅虎开发 Hadoop ,贡献了 Hadoop80% 的代码。
(3 Hortonworks 的主打产品是 Hortonworks Data Platform HDP ),也同样是 100%
源的产品, HDP 除常见的项目外还包括了 Ambari ,一款开源的安装和管理系统。
(4 2018 Hortonworks 目前 已经被 Cloudera 公司收购

1.4 Hadoop优势(4高) 

hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

1.5 Hadoop 组成(面试重点) 

hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

1.5.1 HDFS 架构概述  

Hadoop Distributed File System ,简称 HDFS ,是一个分布式文件系统
(1 NameNode nn ):存储文件的 元数据 ,如 文件名,文件目录结构,文件属性 (生成时间、副本数、
文件权限),以及每个文件的 块列表 块所在的 DataNode 等。
(2 DataNode(dn) :在本地文件系统 存储文件块数据 ,以及 块数据的校验和
(3 Secondary NameNode(2nn) 每隔一段时间对 NameNode 元数据备份
简单的说就是NameNode就相当于一个目录,一个索引,负责标记每一个DataNode的存放位置
而DataNode才是真正存放数据的, Secondary NameNode(2nn) :相当与老板的一个秘书,他会备份 一部分 数据,不会备份全部数据。
hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive
hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

1.5.2 YARN 架构概述  

Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是 Hadoop 的资源管理器。
hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

1.5.3 MapReduce 架构概述  

MapReduce 将计算过程分为两个阶段: Map Reduce
(1 Map 阶段并行处理输入数据
(2 Reduce 阶段对 Map 结果进行汇总

 hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

1.5.4 HDFS、YARN、MapReduce 三者关系  

hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

HDFS

 hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive 

YARN

hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

 用户提交任务,任务给到ResourceManager,ResourceManager  会找一个节点NodeManager,开启一个Container ,把任务(App Mstr)放在Container    App Mstr会向 

ResourceManager申请说自己需要多少资源  ResourceManager 看哪一个DataNode有资源,给他分配资源  之后  App Mstr 会在被分配的资源节点上开启计算任务(MapTask ),这个其实就是MapReduce 的map阶段,之后会返回一个Reduce到各自对应的节点,这就是他们三者之间的关系

1.6 大数据技术生态体系 

hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

图中涉及的技术名词解释如下:
hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive
hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

1.7 推荐系统框架图  

hadoop,大数据开发,hadoop,大数据,数据分析,hdfs,hive

假如说购买一个东西,打开京东首页,购买一个东西,这个购买行为会被记录下来,通过Nginx负载均衡打入到日志收集中,这种用户行为数据通常是用文件形式存储的,然后Flume进行日志收集

采集完之后,给Kafka 进行一个消息的缓冲,缓冲后,由于我们推荐系统具有实时性,所以走文章来源地址https://www.toymoban.com/news/detail-789270.html

Spark Streaming ,或 Flink进行实时计算,(用户是想购买呢,还是什么行为,以及下次给他推荐什么样的商品能够促进他的消费),将计算结果返回到后台,这个结果你可以用数据库或者是分析结果文件的形式存储,然后再被推荐业务的后台读走数据,最终反馈到前台页面展示出来!
本篇博客是在进行尚硅谷大数据相关课程学习后,加上自己的一些理解得出的一篇博客,希望能给学习Hadoop同学一些启发!

到了这里,关于一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ODPS是什么,阿里云ODPS前世今生

    前言: ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计

    2024年02月16日
    浏览(33)
  • 美团面试官:可重复读隔离级别实现原理是什么?(一文搞懂MVCC机制)

    本文首发于公众号【看点代码再上班】,欢迎围观,第一时间获取最新文章。 原文:美团面试官:可重复读隔离级别实现原理是什么?(一文搞懂MVCC机制) “全文共计4270字,预计阅读时间6分钟 大家好,我是 tin ,这是我的第26篇原创文章 还记得MySQL数据库事务都有哪些隔离

    2024年02月13日
    浏览(35)
  • 一篇文章带你了解 什么是u(ustd)带你了解他的前世今生

    在数字货币的繁荣世界中,USDT无疑是其中一位重要的角色。它的前世今生,是一个从无到有,从小到大,经历了种种波折和争议的故事。 2014年11月下旬,一个名为Realcoin的注册地为马恩岛和香港的公司决定改变自己的名字,取名为Tether。这个决定预示着一种新的数字货币即将

    2024年01月23日
    浏览(46)
  • 【区块链杂谈】区块链的前世今生(今生)

    在前面,我们回顾了区块链技术自诞生到野蛮生长的三个阶段,自某些不可抗因素主动干预之后,整个市场因为比特币价格的腰斩而萎靡不振,热衷于赚取热钱快钱的投机者逐渐退出,只留下了一片狼藉。 在这样的背景下, 区块链的发展逐渐由币价驱动转向技术驱动 ,投机

    2024年02月09日
    浏览(36)
  • OpenHarmony的前世今生

    目录 1.1.1:OpenHarmony的背景 1.1.2:OpenHarmony的诞生 1.1.3:OpenHarmony与HarmonyOS的关系 1.1.4:OpenHarmony的技术架构 1.1.5:OpenHarmony的技术特性 1.1.6:小结 OpenHarmony 是由开放原子开源基金会(OpenAtom Foundation)孵化及运营的开源项目,目标是面向全场景、全连接、全智能时代,基于开源

    2024年01月20日
    浏览(44)
  • InfiniBand 的前世今生

    今年,以 ChatGPT 为代表的 AI 大模型强势崛起,而 ChatGPT 所使用的网络,正是 InfiniBand,这也让 InfiniBand 大火了起来。那么,到底什么是 InfiniBand 呢?下面,我们就来带你深入了解 InfiniBand。 InfiniBand(也称为“无限带宽”,缩写为 IB)是一个用于高性能计算的计算机网络通信标

    2024年02月06日
    浏览(34)
  • 小程序插件的前世今生

    首先,在开始之前,我们需要了解小程序插件的概念。小程序插件可以理解为小程序的扩展功能,类似于应用商店中的插件。通过引入插件,我们可以给小程序添加一些特定的功能模块,例如地图、支付、分享等。这样一来,开发者就可以更加灵活地为用户提供丰富的体验。

    2024年02月03日
    浏览(44)
  • Main()函数的前世今生

             在开始分析程序之前,我们第一个要解决的问题,就是如何定位到 main函数,想要从二进制逆向的角度分析出main 函数,就必须要了解正向的代码下 main 函数的所有的细节和特 征。毕竟逆向的本质就是正向。 VS C++开发的程序在调试时总是从main或WinMain函数开始,这

    2024年02月09日
    浏览(42)
  • Docker 的前世今生

    🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 🌊 《IDEA开发秘籍》学会IDEA常用操作,工作效率翻倍~💐 🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬

    2024年02月16日
    浏览(45)
  • powerpc架构的前世今生

    PowerPC架构是一种基于精简指令集计算机(RISC)的处理器架构。它最初由IBM、Motorola和Apple共同开发,旨在为个人电脑、工作站和服务器提供高性能和可扩展性。 PowerPC架构在1991年首次推出,后来成为苹果Macintosh电脑的主要处理器架构。它在苹果电脑上使用的时间从1994年持续到

    2024年02月10日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包