大数据面试题集锦-Hadoop面试题(三)-MapReduce

这篇具有很好参考价值的文章主要介绍了大数据面试题集锦-Hadoop面试题(三)-MapReduce。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。

目录
  • 1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?
  • 2、FileInputFormat切片机制
  • 3、在一个Hadoop 任务中,什么是InputSplit(切片),以及切片是用来做什么的,切片与block有什么区别?
  • 4、如何判定一个job的map和reduce的数量?
  • 5、 Maptask的个数由什么决定?
  • 6、MapTask和ReduceTask工作机制或工作原理
  • 7、描述mapReduce有几种排序及排序发生的阶段
  • 8、描述mapReduce中shuffle阶段的工作流程,如何优化shuffle阶段
  • 9、描述mapReduce中combiner的作用是什么,一般使用情景,以及和reduce的区别?
  • 10、如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?
  • 11、MapReduce 出现单点负载多大,怎么负载平衡?
  • 12、MapReduce 怎么实现 TopN?
  • 13、Hadoop的缓存机制(Distributedcache)是怎么样的?
  • 14、mapReduce如何实现两个表的join?
  • 15、什么样的计算不适用mr来提速?
  • 16、更多大数据面试集锦

1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?

1)序列化和反序列化
  (1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。
  (2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。
  (3)Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制(Writable),精简、高效。

2)自定义bean对象要想序列化传输步骤及注意事项:

(1)必须实现Writable接口
  (2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造
  (3)重写序列化方法
  (4)重写反序列化方法
  (5)注意反序列化的顺序和序列化的顺序完全一致
  (6)要想把结果显示在文件中,需要重写toString(),且用"\t"分开,方便后续用
  (7)如果需要将自定义的bean放在key中传输,则还需要实现comparable接口,因为mapreduce框中的shuffle过程一定会对key进行排序

2、FileInputFormat切片机制

job提交流程源码详解

 waitForCompletion()
  submit();
  // 1、建立连接
    connect();
      // 1)创建提交job的代理
      new Cluster(getConfiguration());
        // (1)判断是本地yarn还是远程
        initialize(jobTrackAddr, conf);
  // 2、提交job
  submitter.submitJobInternal(Job.this, cluster)
    // 1)创建给集群提交数据的Stag路径
    Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
    // 2)获取jobid ,并创建job路径
    JobID jobId = submitClient.getNewJobID();
    // 3)拷贝jar包到集群
    copyAndConfigureFiles(job, submitJobDir);
    rUploader.uploadFiles(job, jobSubmitDir);
    // 4)计算切片,生成切片规划文件
    writeSplits(job, submitJobDir);
    maps = writeNewSplits(job, jobSubmitDir);
    input.getSplits(job);
    // 5)向Stag路径写xml配置文件
    writeConf(conf, submitJobFile);
    conf.writeXml(out);
    // 6)提交job,返回提交状态
    status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

3、在一个Hadoop 任务中,什么是InputSplit(切片),以及切片是用来做什么的,切片与block有什么区别?

FileInputFormat源码解析(input.getSplits(job))
(1)找到你数据存储的目录。
(2)开始遍历处理(规划切片)目录下的每一个文件。
(3)遍历第一个文件xx.txt。
  a)获取文件大小fs.sizeOf(xx.txt);。
  b)计算切片大小
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))。
  c)默认情况下,切片大小=blocksize。
  d)开始切,形成第1个切片:xx.txt—0:128M 第2个切片xx.txt—128:256M 第3个切片xx.txt—256M:300M(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片)。
  e)将切片信息写到一个切片规划文件中。
  f)整个切片的核心过程在getSplit()方法中完成。
  g)数据切片只是在逻辑上对输入数据进行分片,并不会再磁盘上将其切分成分片进行存储。InputSplit只记录了分片的元数据信息,比如起始位置、长度以及所在的节点列表等。
  h)注意:block是HDFS上物理上存储的存储的数据,切片是对数据逻辑上的划分。
(4)提交切片规划文件到yarn上,yarn上的MrAppMaster就可以根据切片规划文件计算开启maptask个数。

4、如何判定一个job的map和reduce的数量?

1)map数量
  splitSize=max{minSize,min{maxSize,blockSize}}
  map数量由处理的数据分成的block数量决定default_num = total_size / split_size;
2)reduce数量
  reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1。

5、 Maptask的个数由什么决定?

一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定。

6、MapTask和ReduceTask工作机制或工作原理

MapTask工作机制

(1)Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。
(2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。
(3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。
(4)Spill阶段:即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。
(5)Combine阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。

ReduceTask工作机制
(1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。
(2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。
(3)Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。 由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可。
(4)Reduce阶段:reduce()函数将计算结果写到HDFS上。

7、描述mapReduce有几种排序及排序发生的阶段

1)排序的分类:
  (1)部分排序:
    MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。
  (2)全排序:
    如何用Hadoop产生一个全局排序的文件?最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了MapReduce所提供的并行架构。
    替代方案:首先创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如:可以为待分析文件创建3个分区,在第一分区中,记录的单词首字母a-g,第二分区记录单词首字母h-n, 第三分区记录单词首字母o-z。
  (3)辅助排序:(GroupingComparator分组)
    Mapreduce框架在记录到达reducer之前按键对记录排序,但键所对应的值并没有被排序。甚至在不同的执行轮次中,这些值的排序也不固定,因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说,大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是,有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。
  (4)二次排序:
    在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序。
2)自定义排序WritableComparable
  bean对象实现WritableComparable接口重写compareTo方法,就可以实现排序
    @Override
    public int compareTo(FlowBean o) {
      // 倒序排列,从大到小
      return this.sumFlow > o.getSumFlow() ? -1 : 1;
    }
3)排序发生的阶段:
  (1)一个是在map side发生在spill后partition前。
  (2)一个是在reduce side发生在copy后 reduce前。

8、描述mapReduce中shuffle阶段的工作流程,如何优化shuffle阶段

分区,排序,溢写,拷贝到对应reduce机器上,增加combiner,压缩溢写的文件。

9、描述mapReduce中combiner的作用是什么,一般使用情景,以及和reduce的区别?

1)Combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络传输量。
2)Combiner能够应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv应该跟reducer的输入kv类型要对应起来。
3)Combiner和reducer的区别在于运行的位置。
  Combiner是在每一个maptask所在的节点运行;
  Reducer是接收全局所有Mapper的输出结果。

10、如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?

如果没有自定义的 partitioning,则默认的 partition 算法,即根据每一条数据的 key 的 hashcode 值摸运算(%)reduce 的数量,得到的数字就是“分区号“。

11、MapReduce 出现单点负载多大,怎么负载平衡?

通过Partitioner实现

12、MapReduce 怎么实现 TopN?

可以自定义groupingcomparator,对结果进行最大值排序,然后再reduce输出时,控制只输出前n个数。就达到了topn输出的目的。

13、Hadoop的缓存机制(Distributedcache)是怎么样的?

分布式缓存一个最重要的应用就是在进行join操作的时候,如果一个表很大,另一个表很小,我们就可以将这个小表进行广播处理,即每个计算节点上都存一份,然后进行map端的连接操作,经过我的实验验证,这种情况下处理效率大大高于一般的reduce端join,广播处理就运用到了分布式缓存的技术。
  DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前,文件在每个Job中只会被拷贝一次,缓存的归档文件会被在Slave节点中解压缩。将本地文件复制到HDFS中去,接着Client会通过addCacheFile() 和addCacheArchive()方法告诉DistributedCache在HDFS中的位置。当文件存放到文地时,JobClient同样获得DistributedCache来创建符号链接,其形式为文件的URI加fragment标识。当用户需要获得缓存中所有有效文件的列表时,JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都返回一个指向本地文件路径对象数组。

14、mapReduce如何实现两个表的join?

1)reduce side join : 在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签(tag),比如:tag=0 表示来自文件File1,tag=2 表示来自文件File2。
  2)map side join : Map side join 是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,以至于小表可以直接存放到内存中。这样,我们可以将小表复制多份,让每个map task 内存中存在一份(比如存放到hash table 中),然后只扫描大表:对于大表中的每一条记录key/value,在hash table 中查找是否有相同的key 的记录,如果有,则连接后输出即可。

15、什么样的计算不适用mr来提速?

1)数据量很小
2)特别多的小文件
3)特别频繁的读的时候,索引是更好的存取机制的时候
4)需要使用事务的时候
5)只有一台机器的时候文章来源地址https://www.toymoban.com/news/detail-511578.html

16、更多大数据面试集锦

  1. 大数据书籍资料分享
  2. 大数据面试题集锦

到了这里,关于大数据面试题集锦-Hadoop面试题(三)-MapReduce的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • vue面试题集锦

    1. 谈一谈对 MVVM 的理解? MVVM 是 Model-View-ViewModel 的缩写。MVVM 是一种设计思想。 Model 层代表数据模型,也可以在 Model 中定义数据修改和操作的业务逻辑; View 代表 UI 组件,它负责将数据模型转化成 UI 展现出来,View 是一个同步 View 和 Model 的对象 在 MVVM 架构下,View 和 Model 之

    2024年01月21日
    浏览(47)
  • Spark面试题集锦

    1、什么是Apache Spark?Spark是什么? 是基于内存的分布式的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。包含Spark core、Spark sql、Spark streaming 、Spark MLlib 、spark GraphX五个核心组件。 2、Spark的核心组件是什么? Spark Core:是其它组件的基础,spark的内核

    2024年02月04日
    浏览(46)
  • 音视频开发面试题集锦

    下面是 2022.06 月音视频面试题集锦内容的节选: 媒体封装层是表示媒体数据是什么封装格式的,比如 MP4、FLV。在这层信息里,通常会携带码流编码格式的信息。 拿 MP4 来说,我们可以根据 Sample Description Box(moov/trak/mdia/minf/stbl/stsd) 中的信息来确定其封装的码流的编码格式。

    2023年04月13日
    浏览(59)
  • 500道网络安全面试题集锦(附答案)

    本篇文章内容为网络安全各个方向涉及的面试题,但是无论如何都无法覆盖所有的面试问题,更多的还是希望由点达面,查漏补缺,然后祝各位前程似锦,都能找到自己满意的工作!   攻击者通过在web界面中嵌入恶意脚本(通常为js代码),造成用户在浏览网页时,控制用户

    2024年02月15日
    浏览(56)
  • Java大厂常见1000道面试题集锦(一)

    本系列为Java常见面试题集锦,持续更新中,包括笔试题和面试题, 建议收藏慢慢看 while(true){} 是一个无限循环的语句,它的作用是让程序在执行到该语句时不停地循环下去,直到程序被终止或者遇到 break、return 等跳出循环的语句。 无限循环的使用场景比较多,例如: 实现

    2024年02月06日
    浏览(54)
  • 找工作吗?50道Python面试题集锦【附答案】

    嗨害大家好鸭!我是爱摸鱼的芝士~ 希望能够帮助你在今年的求职面试中脱颖而出, 找到一份高薪工作~ 这些面试题涉及Python基础知识、Python编程、数据分析以及Python函数库等多个方面。 提前预祝给这篇文章点赞收藏的友友们~ 拿到心中最满意的那一份OFFER~ Q1、Python中的列表

    2023年04月18日
    浏览(42)
  • mysql数据库面试题基础知识,Hadoop之MapReduce04,腾讯java面试流程

    该方法的执行过程比较复杂,我们慢慢来分析,首先来看下简化的时序图 3.1waitForCompletion public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException, ClassNotFoundException { // 判断任务的状态,如果是DEFINE就提交 if (state == JobState.DEFINE) { submit(); } if (verbose) { // 监听并且

    2024年04月14日
    浏览(62)
  • 大数据开发之Hadoop(MapReduce)

    MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 1.2.1 优点 1、MapReduce易于编程 它简单的实现一些

    2024年01月22日
    浏览(48)
  • 大数据框架之Hadoop:MapReduce(三)MapReduce框架原理——MapTask工作机制

    MapTask工作机制如下图所示。 (1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect收集阶段:在用户编写map()函数中,当数据处

    2023年04月08日
    浏览(66)
  • 大数据课程D4——hadoop的MapReduce

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解MapReduce的作用和特点; ⚪ 掌握MapReduce的组件; ⚪ 掌握MapReduce的Shuffle; ⚪ 掌握MapReduce的小文件问题; ⚪ 掌握MapReduce的压缩机制; ⚪ 掌握MapReduce的推测执行机制; ⚪ 掌握MapReduce的数据倾斜问题; 1.

    2024年02月15日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包