大数据之旅--Hadoop入门

这篇具有很好参考价值的文章主要介绍了大数据之旅--Hadoop入门。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

内容大纲介绍

  • Hadoop框架国内外应用

  • Hadoop的架构图

  • Hadoop集群环境

  • Hadoop集群使用–页面访问


一、Hadoop框架国内外应用

  • 国外
    • Yahoo的Hadoop机器总节点数目已经超过42000个,有超过10万的核心CPU在运行Hadoop,总的集群存储容量大于350PB,每月提交的作业数目超过1000万个。
    • Yahoo的Hadoop应用主要包括以下几个方面:
      广告系统支持、
      用户行为分析、
      Web搜索支持、
      反垃圾邮件系统、
      个性化推荐
  • 国内
    • 阿里巴巴的Hadoop集群大约有3200台服务器,大约30000物理CPU核心,总内存100TB,总的存储容量超过60PB,每天的作业数目超过150000个
    • Hadoop集群主要为电子商务网络平台提供底层的基础计算和存储服务,主要应用包括:
      数据平台系统、
      搜索支撑、
      电子商务数据、
      推荐引擎系统、
      搜索排行榜
  • Hadoop的组成
    • HDFS: 分布式存储框架
    • MapReduce: 分布式计算框架
    • Yarn: 任务接收和调度器

二、 Hadoop的架构图

1、Hadoop1.X = HDFS + MapReduce

大数据之旅--Hadoop入门,大数据,hadoop,mapreduce,hdfs,yarn

  • HDFS: Hadoop Distributed FileSystem 分布式文件存储系统

  • HDFS集群架构解释

    1、namenode: 主节点
      1.管理整个HDFS集群
      2.维护和管理元数据
      
    2、什么是元数据(metadata)?
      答:描述数据的数据就被称之为: 元数据。例如:图书在哪层,哪个区域,哪个书架
      文件的存储路径,大小,时间,权限
      
    3、SecondaryNameNode: 辅助节点→辅助namenode管理元数据的
    
    4、datanode: 从节点
      1.维护和管理源文件
      2.负责数据的读,写操作
      3.定时向namenode报活
    
  • MapReduce集群架构解释

    1、JobTracker:主节点
        (1)负责任务的接收
        (2)负责任务的调度
        (3)负责任务的监控
        (4)负责资源的调度和分配
        
    2、TaskTracker: 从节点
    负责接收并执行JobTracker分配过来的计算任务
    
    3、JobTracker的任务过于繁重,容易宕机,
    存在: 单点故障的问题
    
2、Hadoop2.X, 3.X = HDFS + MapReduce + Yarn

大数据之旅--Hadoop入门,大数据,hadoop,mapreduce,hdfs,yarn

  • Hadoop2.X,3.X的HDFS和1.X一样(架构解释看1.X的HDFS集群架构解释)

  • MapReduce 和Yarn架构解释

    1、ResourceManager : 主节点
        1.负黄任务的接收
        2.负责资源的调度和分配
    2、AppMaster进程:代码级别
    	1个计算任务 = 1个Application Master进程
    	由该AppMaster进程来监控和管理该计算任务
        并负责向ResourceManager 申请资源
    3、nodemanager : 从节点
    	负责接收并执行ResourceManager分配过来的计算任务
    
    	此时已经没有MapReduce集群的概念了,而是代码饭别的程序,即: MR计算任务.
    我们只需要用代码编写MR计算任务,然后交由Yarn调度执行即可
    
3、Hadoop集群高可用模式图解

大数据之旅--Hadoop入门,大数据,hadoop,mapreduce,hdfs,yarn

三、Hadoop集群环境搭建

  • 搭建方式

    • 方式1: Standalone mode 单机模式

      把所有的服务(namenode, SecondaryNameNode, datanode, ResourceManager, nodemanager)装到1台机器, 适用于: 学习, 调试.

    • 方式2: Cluster mode 集群模式

      node1: namenode, datanode, ResourceManager, nodemanager

      node2: SecondaryNameNode, datanode, nodemanager

      node3: datanode nodemanager

      大数据之旅--Hadoop入门,大数据,hadoop,mapreduce,hdfs,yarn

  • 使用给的Hadoop集群环境即可.

    1. 把三台虚拟机都恢复到 07-hive安装完成 这个快照.

    2. 设置三台虚拟机的硬件, node1的配置可以稍微高一点.

    3. 启动三台虚拟机, 然后用CRT连接.

      ip分别是: 192.168.88.161, 192.168.88.162, 192.168.88.163

      账号和密码分别是: root, 123456

    4. 在node1中执行 start-all.sh 命令, 即可启动Hadoop集群.

    5. 然后在node1中单独运行 mapred --daemon start historyserver 启动历史服务.

    6. 然后在三台虚拟机中分别输入 jps 查看服务, 具体如下:

      大数据之旅--Hadoop入门,大数据,hadoop,mapreduce,hdfs,yarn

    7. 之后就可以在浏览器中输入如下的的端口号进行访问了.

      * HDFS的WebUI界面:  192.168.88.161:9870		
      
      ​	细节: 如果是Hadoop2.X, 端口号是: 50070
      
      * Yarn的WebUI界面: 192.168.88.161:8088,  只记录本次启动Hadoop集群至关闭, 所有的计算任务.
      
      * 历史服务的WebUI界面: 192.168.88.161:19888, 记录Hadoop从搭建好至现在, 所有的计算任务.
      
    8. 如果想在浏览器中直接通过 域名的方式直接访问上述的WebUI界面, 则需要配置下: 域名映射.

      # 域名映射的意思是: 我们只写域名, 底层会被自动解析为对应的IP地址.
      
      # Linux系统配置域名映射, 具体步骤如下, 但是不用你做, 我都给你配置好了. 
      vim /etc/hosts
      
      # 在上述文件的最后追加如下的内容
      192.168.88.161 node1 node1.itcast.cn
      192.168.88.162 node2 node2.itcast.cn
      192.168.88.163 node3 node3.itcast.cn
      
      # 保存退出, 然后重启Linux系统即可. 
      
      
      # windows系统 配置域名映射, 具体步骤如下:
      在 C:\Windows\System32\drivers\etc\hosts 文件中, 追加如下的内容:
      
      # HiveCluster
      192.168.88.161 node1.itcast.cn node1
      192.168.88.162 node2.itcast.cn node2
      192.168.88.163 node3.itcast.cn node3
      
      # 保存, 关闭hosts文件, 然后重启windows系统即可. 
      
      # 问: 可能你的C盘的hosts文件不让你修改, 提示权限不够, 怎么办?
      # 答: 把hosts文件拷贝到桌面, 然后进行修改, 改完之后再拖回来, 选择替换即可. 
      

四、Hadoop集群使用–页面访问

配置完域名映射之后,可以把下面IP(192.168.88.161)换成(node1)

1、查看HDFS页面
启动NameNode.连接URL: http://192.168.88.161:9870
大数据之旅--Hadoop入门,大数据,hadoop,mapreduce,hdfs,yarn

2、查看Yarn页面
启动ResourceManager.连接URL:http://192.168.88.161:8088
大数据之旅--Hadoop入门,大数据,hadoop,mapreduce,hdfs,yarn

3、查看已经finished的mapreduce运行日志
启动historyserver.连接URL:http://192.168.88.161:19888 大数据之旅--Hadoop入门,大数据,hadoop,mapreduce,hdfs,yarn文章来源地址https://www.toymoban.com/news/detail-811209.html

到了这里,关于大数据之旅--Hadoop入门的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Hadoop】二、Hadoop MapReduce与Hadoop YARN

    md笔记 1、Hadoop MapReduce 1.1、理解MapReduce思想 MapReduce的思想核心是“ 先分再合,分而治之 ”。 所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最

    2024年02月05日
    浏览(60)
  • 大数据期资料2023 Beta版 - Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase详解

    了解大数据概念、Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase等技术,包括特点、命令操作和启动关闭方法。获取2023年大数据资料Beta版。

    2024年02月06日
    浏览(242)
  • 《Hadoop篇》------HDFS与MapReduce

    目录 一、HDFS角色职责总结 二、CheckPoint机制 三、Mapreduce序列化 四、Mapper 4.1、官方介绍 4.2、Split计算 4.3、Split和block对应关系 4.4、启发式算法 五、MapTask整体的流程 六、压缩算法 6.1、压缩算法适用场景 6.2、压缩算法选择  6.2.1、Gzip压缩 6.2.2、Bzips压缩 6.2.3、Lzo压缩 七、Res

    2023年04月08日
    浏览(63)
  • 05.hadoop上课笔记之hadoop5mapreduce和yarn

    1.yarn(yet another resource negotiator)分布式资源管理系统 1.作业(job)包含多个任务(task) 2.container封装了cpu的各种资源 2.yarn的结构 1.ResouceManager(全局资源管理) 系统资源管理分配 处理客户端请求,健康检查namenode 2.nodemanager(当前节点资源管理) 3.applicationMaster(发送心跳RM.二次分配资源给

    2024年02月08日
    浏览(55)
  • Hadoop3.0大数据处理学习3(MapReduce原理分析、日志归集、序列化机制、Yarn资源调度器)

    前言:如果想知道一堆牌中有多少张红桃,直接的方式是一张张的检查,并数出有多少张红桃。 而MapReduce的方法是,给所有的节点分配这堆牌,让每个节点计算自己手中有几张是红桃,然后将这个数汇总,得到结果。 官方介绍:MapReduce是一种分布式计算模型,由Google提出,

    2024年02月08日
    浏览(55)
  • [AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅

    作为一位Java大师,我始终追求着技术的边界,最近我将目光聚焦在大数据领域。在这个充满机遇和挑战的领域中,我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从\\\"是什么\\\"、\\\"为什么\\\"和\\\"怎么办\\\"三个角度,系统地介绍这些技术。 Hadoop Hadoop是一个开源的分布式计算

    2024年02月03日
    浏览(40)
  • 云计算与大数据之间的羁绊(期末不挂科版):云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 大数据是需求,云计算是手段。没有大数据,就不需要云计算;没有云计算,就无法处理大数据。 所有的计算能力、存储能力、和各种各样功能的应用都通过网络

    2024年02月04日
    浏览(67)
  • 大数据之旅--Hadoop入门

    内容大纲介绍 Hadoop框架国内外应用 Hadoop的架构图 Hadoop集群环境 Hadoop集群使用–页面访问 国外 Yahoo的Hadoop机器总节点数目已经超过42000个,有超过10万的核心CPU在运行Hadoop,总的集群存储容量大于350PB,每月提交的作业数目超过1000万个。 Yahoo的Hadoop应用主要包括以下几个方面

    2024年01月21日
    浏览(28)
  • 基于Hadoop的MapReduce网站日志大数据分析(含预处理MapReduce程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts)

    需要本项目的可以私信博主!!! 本项目包含:PPT,可视化代码,项目源码,配套Hadoop环境(解压可视化),shell脚本,MapReduce代码,文档以及相关说明教程,大数据集! 本文介绍了一种基于Hadoop的网站日志大数据分析方法。本项目首先将网站日志上传到HDFS分布式文件系统

    2024年02月16日
    浏览(67)
  • Hadoop生态 | HDFS | Yarn | Hive | Hbase

    ⭐ 简单说两句 ⭐ 作者: 后端小知识 , CSDN后端领域新星创作者|阿里云专家博主 CSDN 个人主页 :后端小知识 🔎 GZH : 后端小知识 🎉 欢迎关注 🔎 点赞 👍 收藏 ⭐️ 留言 📝 进入大数据阶段就意味着进入NoSQL阶段,更多的是面向OLAP场景,即数据仓库、BI应用等。 大数据技

    2024年04月08日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包