05.hadoop上课笔记之hadoop5mapreduce和yarn

这篇具有很好参考价值的文章主要介绍了05.hadoop上课笔记之hadoop5mapreduce和yarn。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.yarn(yet another resource negotiator)分布式资源管理系统

1.作业(job)包含多个任务(task)
2.container封装了cpu的各种资源

2.yarn的结构

1.ResouceManager(全局资源管理)
系统资源管理分配 处理客户端请求,健康检查namenode
2.nodemanager(当前节点资源管理)
3.applicationMaster(发送心跳RM.二次分配资源给container,跟踪任务情况,每个客户端申请的都生成一个am)

3.mapreduce(解决计算问题) 改进版spark更简单和流行,Flink可以实时处理,前两个不可以

  1. 应用场景(略)
  2. 分为2个阶段 map(映射)(之间有整体shuffle排序)和reduce(规约) 分而治之(半成品,需要自己加代码)(落地,内存到磁盘)
    大任务分为小任务到不同机器,然后任务汇总(数苹果,分几个人数,然后汇总数量)
    !!!考试 map的数量由split决定的
  3. 工作流程
    0. 输入和分片Split, InputFormat处理输入的格式(默认一行一行处理)
    1. map 在数据中选择<k,v> 如输入1行为 hello,key为第一行为1,value为hello
    2. shuffle 先整合( mysql group by) 归并排序(order by) 后排序(助手sorter) (对key排序,字母顺序或者数字顺序)
    <k,<v1,v2,v3>>
    3. reduce
    <k2,v2> #为map阶段处理后的结果

4.怎么打包jar

项目运行后export runnable jar
图形界面Scala IDE直接运行代码,在args加参数

5.mapreduce输出存储在日志 /usr/local #把yarn日志聚合配置好

6.winrar先以管理员打开 后解压

7.,mapreduce的输入输出格式

   默认TextInputFormat key编号 value为文本行
         SequentFormat ??我也没有用过 二进制格式

8.mapreduce

1.map
2.reduce
3.driver初始化的通用模块在main函数

9.excel数据用, 逗号分割,也可以处理访问量统计

10.Combiner 是迷你的reduce 在map本地进行合并(局部合并)避免网络传输慢(可有可无)
使用情况: 不影响最终数据,比如求平均值时,默认不打开

11.Partitioner分区器(必须有的) Hash数字指纹(输入一个文件,生成多个文件)

//2月份的用户在一个文件 1月份的用户在另外一个文件
//几个reduce决定几个分区
//需要单独写个分区类,判断放到哪个分区,先分区---->Combiner->reduce文章来源地址https://www.toymoban.com/news/detail-474609.html

到了这里,关于05.hadoop上课笔记之hadoop5mapreduce和yarn的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop 2:MapReduce

    理解MapReduce思想 MapReduce的思想核心是“先分再合,分而治之”。 所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果。 这种思想来源于日

    2024年02月06日
    浏览(34)
  • 【Hadoop】- MapReduce概述[5]

    目录 前言 一、分布式计算框架 - MapReduce 二、MapReduce执行原理 MapReduce是一种 分布式计算框架 ,由Google开发。它的设计目标是将大规模数据集的处理和生成任务分布到一个由廉价计算机组成的集群中。 在MapReduce模型中,输入数据被分割成若干小块,并在集群中的多个节点上并

    2024年04月25日
    浏览(25)
  • MapReduce排序机制(Hadoop)

    在MapReduce中, 排序的目的是为了方便Reduce阶段的处理,通常是为了将相同键的键值对聚合在一起,以便进行聚合操作或其他处理。 对于MapTask,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使 用率达到一定 阈值 后,再对缓冲区中的数据进行一次快速排序,并将这

    2024年04月24日
    浏览(23)
  • Hadoop MapReduce解析

    Hadoop MapReduce是一个用于处理大量数据的编程模型和一个相应的实现框架。MapReduce作业通常分为两个阶段:Map阶段和Reduce阶段。 Map阶段 在Map阶段,你编写的Map函数会对输入数据进行处理。每个输入数据片段(例如一行文本)都会被Map函数处理,并产生中间键值对。 以单词计数

    2024年04月14日
    浏览(24)
  • hadoop之MapReduce简介

    MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 简单说MapReduce是一个框架,一个分布式计算框架,

    2024年02月04日
    浏览(36)
  • hadoop-MapReduce

    1. MapReduce设计思想 2. MapReduce分布式计算的基本原理 3. 使用Java进行MapReduce编程 4. 在Hadoop集群中提交MapReduce任务 5.Yarn工作机制 1. MapReduce设计思想 1.1  什么是MapReduce 1 )MapReduce是一个分布式计算框架 它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。 起源于

    2024年02月10日
    浏览(29)
  • Hadoop生态之Mapreduce

    今天给大家带来的是Hadoop生态中的Mapreduce,看到这里诸佬们可能就有疑惑了呢,啥是Mapreduce?小小的脑袋大大的疑惑。 在上篇博客中博主使用了王者来举例子,如果把Hadoop当作王者的话,HDFS是后台存储点券数据的系统的话,那么我们今天介绍的Mapreduce就是某者用来计算优惠

    2024年02月02日
    浏览(35)
  • hadoop之mapreduce详解

         优化前我们需要知道hadoop适合干什么活,适合什么场景,在工作中,我们要知道业务是怎样的,能才结合平台资源达到最有优化。除了这些我们当然还要知道mapreduce的执行过程,比如从文件的读取,map处理,shuffle过程,reduce处理,文件的输出或者存储。在工作中,往往

    2024年02月15日
    浏览(34)
  • hadoop --- MapReduce

    MapReduce定义: MapReduce可以分解为Map (映射) + Reduce (规约) , 具体过程:   Map : 输入数据集被切分成多个小块,并分配给不同的计算节点进行处理 Shuffle and Sort:洗牌和排序,在 Map 阶段结束后,将每个 Mapper 生成的键值对按照键进行排序,并将相同键的值归并在一起,并将相

    2024年02月15日
    浏览(42)
  • Hadoop之MapReduce概述

    MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce优缺点 优点 1)MapReduce易于编

    2024年02月08日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包