分布式计算----期末复习题(仅供参考)

这篇具有很好参考价值的文章主要介绍了分布式计算----期末复习题(仅供参考)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一.单选题,每个2分

1.Hadoop之父是下面的哪一位?(B)

A. James Gosling       B.Doug Cutting   C.Matei Zaharia   D.Linus Benedict Torvalds

2.Hadoop中,用于处理或者分析海量数据的组件是哪一个?(  B   )

A.HDFS    B.MapReduce    C.Yarn   D.以上选项都不是

3.HDFS中存储和管理元数据的是哪一项?(C)

A.ResourceManager      B.NodeManager

C.NameNodeD.DataNode

4.用户自己编写Hadoop的MapReduce算法,可以不用实现哪个阶段?      (    B   )

A.MapB.Shuffle     C.ReduceD.main函数

5.在HDFS的/hive/hadoop目录下创建data01目录,正确的一项是 (    B   )

A.mkdir /hive/hadoop/data01

B.hdfs dfs -mkdir /hive/hadoop/data01

C.hdfs dfs -mkdir  /data01

D.hdfs fs -cat /hive/hadoop/data01

6.关于Hadoop的MapReduce的描述,说法正确的一项是? (   C    )

A.可以用来存储大数据

B.用于管理大数据资源

C.是一个分布式计算框架

D.可以做实时数据分析

7、Hive表中的数据存储在什么地方? (  D     )

A. MySQL             B. Oracle

C. MapReduce      D. HDFS

8、在MapReduce中,如果将reducer数设置为0会发生怎样的情形  (  b     )

A.仅有Reduce作业发生          B. 仅有Map作业发生

 C. Reducer输出会成为           D .MapReduce无法

9、在MapReduce中,哪个将会对数据按 key 进行分区和排序  (    a   )

A.Shuffle          B.Reducer     

C.Mapper和Reducer      D.Mapper

10、在Hadoop的MapReduce中,Map的数量取决于什么  (    d   )

A.存储数据         B.任务数         C.输出数据        D.输入数据

11、在MapReduce,哪个阶段能够减少网络中数据量传输   (   c    )

A. Shuffle  

B. Reduce 

C. Combiner 

D. Map和Sort

12.格式化NameNode的命令是哪一项              (    a    )

A.hdfs namenode  –formatB.hdfs format

C.hdfs datanode -format               D.hadoop jar format

13.在Hadoop中,DataNode的作用是什么?     (  b    )

A.提供WEB端服务器

B.存储数据

C.提供统一的命名服务

D.NameNode提供整个HDFS文件系统的NameSpace管理,块管理等服务

14.Hive的基础架构组件不包括下列那些?           (    b   )

A.客户端   B.Tez    C.解析器     D.元数据

二.多选题,每个4分

1.常规的大数据项目通常采用的流程包括?    ( ABCD     )

A.数据的采集 B.数据的存储 C.数据的分析 D.可视化

2.有关Hadoop的MapReduce,下面哪个说法是错误的  (   ABC    )

A. 它提供了资源管理能力

B. 它是开源数据仓库系统,主要用于存储海量数据。

C. 它不能用来处理海量数据

D. 它可以用于海量数据的离线分析。

3.下面关于Hadoop的描述,正确有哪些? ( ABCD      )

A. HDFS可以用来存储海量数据

B. Yarn是Hadoop2.0起推出的一款资源管理系统

C. Hadoop的MapReduce是一个分布式的计算框架,可以用来处理大数据

D. Hadoop生态适合海量离线数据处理

4.Hadoop一般有三种安装模式,分别是?   (  BCD     )

A.Hadoop Smart模式B.伪分布模式

C.完全分布模式D.本地模式

5.Hadoop的基础组件(三大组件)有哪些? (   ABC    )

A.MapReduce  B.HDFS   C.Yarn   D.Derby

6.MapReduce的应用场景有哪些?(  ABCD     )

A.单词统计

B.简单的数据统计

C.统计搜索词频率,帮助优化搜索词提示

D.可以进行极大值.极小值统计

7.Hive的架构中Driver有哪些组件?     (  ABCD     )

A.编译器     B.优化器C.执行器D.解析器

8.自定义Writable接口,需要实现下列那些的? (BCD   )

A.toString     B.readFields   C.compareTo     D.write

9.Hadoop中资源调度的方式有哪几种?             ( ABC     )

A.FIFO调度器  B.Capacity调度器   C.Fair 调度器   D.延时调度

三.Java代码走读,并解释其含义

1.

(1)Configuration conf = new Configuration();

(1)Job job = Job.getInstance(conf);

1>(1)配置信息及封装任务

(2)job.setJarByClass(FlowDriver.class);

2>(2)设置jar加载路径

(3)job.setMapperClass(MyMapper.class);

(3)job.setReducerClass(MyReducer.class);

3>(3)设置要运行的map和reduce的类

(4)job.setMapOutputKeyClass(FlowBean.class);

(4)job.setMapOutputValueClass(NullWritable.class);

4>(4)答案:设置map的输出

(5)job.setOutputKeyClass(FlowBean.class);

(5)job.setOutputValueClass(NullWritable.class);

5>(5)设置最终输出的kv类型

2、

public static void myHadoop01() throws Exception {

String uri = "hdfs://HadoopMaster:9000";

Configuration conf = new Configuration();

(1)conf.set("fs.defaultFS",uri );

(2)FileSystem system = FileSystem.get(conf);

(3)FileStatus[] fileStatus = system.listStatus(new Path(uri));

(4)for (FileStatus fs : fileStatus) {

if(fs.isFile()) {

System.out.println("file:" + fs.getPath().toString());

}else {

System.out.println("directory:" + fs.getPath().toString());

}

}

}

代码解释:

(1)设置NameNode的通讯地址

(2)获取FileSystem对象

(3)获取HDFS根目录下的所有文件或者目录

(4)循环打印出HDFS根目录下的所有文件或者目录

3、

public class MyReducerTest extends Reducer<Text, FlowBean, Text, FlowBean> {

FlowBean v = new FlowBean();

@Override

(1)public void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {

long totalUp = 0;

long totalDown = 0;

(2)for (FlowBean value: values) {

(2)    totalUp += value.getUpFlow();

(2)   totalDown +=value.getDownFlow();}

(3)v.set(totalUp, totalDown);

(4)context.write(key, v);

}

}

代码解释:

(1)子类重写父类的reduce方法

(2)遍历每个values, 将其中的上行流量和下行流量进行累加

(3)封装输出的v

(4)输出k,v 键值对

四.程序设计题

实验(九):开发MapReduce算法,实现单词统计分析

请自己总结,每一段代码大概是什么意思,请同学们自己再看一看。

/**

Map阶段

*/

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

@Override

public void map(LongWritable key, Text value,Context context) throws lOException, InterruptedException {

//拿到- -行文本内容,转换成String

String line = value.toString0;

//将这行文本切分成单词

String0 words=line.split(","); I

//输出<单词,1>

for(String word:words){

context.write(new Text(word), new IntWritable(1));

}}}
/**

Reduce阶段

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

@Override

public void reduce(Text key, Iterable <IntWritable> values,Context context) throws lOException, InterruptedException {

//定义一个计数器

int count = 0;

//通过value这个迭代器,遍历这一组kv中所有的value, 进行累加

for(IntWritable value:values){

count+=value.get0;

//输出这个单词的统计结果

context.write(key, new IntWritable(count);

}}
/**

Main方法

*/

public class WordCountJobSubmitter {

public static void main(String] args) throws lOException, ClassNotFoundException, InterruptedException {

Configuration conf = new Configuration0;

Job wordCountJob = Job.getInstance(conf);

//指定本job所在的jar包

wordCountlob. setJarByClass(WordCountJobSubmitter.class);

//设置wordCountJob所用的mapper逻辑类为哪个类

wordCountJob.setMapperClass(WordCountMapper.class);

//设置wordCountJob所用的reducer逻辑类为哪个类

wordCountJob. setReducerClass(WordCountReducer.class);

//设置map阶段输出的kv数据类型

wordCountJob. setMapOutputKeyClass(Text.class);

wordCountob.setMapOutputValueClass(IntWritable.class);

//设置最终输出的kv数据类型

wordCountJob. setOutputKeyClass(Text.class);

wordCountJob.setMapOutputValueClass(IntWritable.class);

//设置最终输出的kv数据类型

wordCountJob.setOutputKeyClass(Text.class);

wordCountJob.setOutputValueClass(IntWritable.class);t

//设置要处理的文本数据所存放的路径

FileInputFormat setInputPaths(wordCountJob, "hdfs://IP:9000/mapreduce/mydata";

FileOutputFormat. setOutputPath(wordCountJob, new Path"hdfs://IP:9000/mapreduce/output/1);

//提交job给hadoop集群

wordCountJob.waitForCompletion(true);

}}

五.思考题

1.在Hadoop集群中,单独启动hdfs的脚本是哪一个?以Hadoop2.x或者Hadoop3.0为例,HDFS启动成功以后,会有哪些进程,它们分别是什么?

start-dfs.sh。查看进程:NameNode,secondary namenode(前2是主节点出现)、DataNode(从节点出现)。

2.在Hadoop集群中,单独启动yarn的脚本是哪一个?Yarn启动成功以后,会有哪些进程,分别是什么?

单独看yarn的进程:start-yarn.sh ,出现resourcemanager(主节点),nodemanager(从节点)。

3.如果你使用的是Hadoop3.x版本,HDFS的页面访问端口是多少?Yarn的页面访问端口又是多少?(hdfs端口:9870。yarn端口:8088)

4.根据你对Hive的使用和练习,Hive的数据存放在哪里?Hive底层默认的计算引擎(计算框架)是什么?hive数据信息放在MySQL上。hive底层的计算框架:MapReduce。

其他补充:

1》hdfs默认的副本数3份,指定的进程能起来,文件的作用:

(1) hadoop -env.sh作用: 用于Hadoop运行环境的配置

(2) hdfs -site.xml作用:配置DataNode的数据块冗余度

(3) core- site.xml作用: 配置NameNode的所在主机或者通讯地址及NameNode格式化后的目录的路径

(4) mapper-site.xml 作用: 配置mapreduce运行框架yarn容器

(5) yarn-site.xml.作用: 配置ResourceManager所在 主机及MapReduce的shuffle方式

(6) Works(Slaves)文章来源地址https://www.toymoban.com/news/detail-497605.html

到了这里,关于分布式计算----期末复习题(仅供参考)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 耗时一个月!期末熬夜复习整理 | 计算机网络(谢希仁第七版)大合集【知识点+大量习题讲解】

    期末计网满绩计划 教材:计算机网络(第七版)谢希仁版 第一章概述 第二章物理层 第三章数据链路层 第四章网络层 第五章运输层 第六章应用层 第七章网络安全 小生凡一,期待你的关注。

    2024年02月11日
    浏览(32)
  • 专业英语期末复习题

    选择题 15*0.5 中英文词汇互译15*0.5 缩略语10*2 完形填空10*1 选词填空20**1 阅读理解10*1 句子和短文翻译6题=25分 【单选题】( )is a functional unit that interprets and carries out instructions. A、memory B、processor C、storage D、network 【单选题】( ) consists of the symbols, characters, and usage rules tha

    2023年04月21日
    浏览(28)
  • 算法期末复习题

    一、选择题 1 、二分搜索算法是利用(     A        )实现的算法。 A 、分治策略   B、动态规划法   C、贪心法    D、回溯法 2 、下列不是动态规划算法基本步骤的是(   A     )。 A 、找出最优解的性质   B、构造最优解   C、算出最优解   D、定义最优解 3 、衡量

    2024年02月11日
    浏览(33)
  • Python期末复习题

    一 回文数判断。设n是一任意自然数,如果n的各位数字反向排列所得自然数与n相等,则n被称为回文数。从键盘输入一个数字,请编写程序判断这个数字是不是回文数,若是返回True,否则返回False。 【输入示例】12321 【输出示例】True 二 素数判断。编写一个函数isPrime(x),接受

    2024年02月08日
    浏览(35)
  • 【Oracle】期末复习题

    目录 一. 单选题(共164 题) 二. 多选题(共14 题) 三. 填空题(共4 题) 四. 分析题(共五题) 一)考生子系统 三)考试存储方案 四)铁路12306 五)顺丰快递 1.   快速恢复区是为保存归档日志、备份、闪回日志等内容在磁盘上专门留出的空间。一般情况下,建议快速恢复

    2024年01月16日
    浏览(33)
  • 操作系统期末复习题

    一、简答 1. 什么是进程?它与程序相比有哪些特性? 进程是进程实体的运行过程,是系统进行资源分配和调度的基本单位。 动态性、独立性、并发性 2. 什么是进程?进程静态实体的组成是什么? 程序、数据集合、进程控制块PCB 3. 进程的三种基本状态是什么?画出进程的三

    2024年02月11日
    浏览(46)
  • 软件工程-期末复习题

    第1章软件工程概述 1、软件的概念及特点 概念: 计算机软件是由专业人员开发并长期维护的软件产品。完整的软件产品包括了在各种不同容量和体系结构计算机上的可执行的程序,运行过程中产生的各种结果,以及以硬复制和电子表格等多种方式存在的软件文档 特点: 1)

    2024年02月13日
    浏览(30)
  • ssm开源框架期末复习题

    01-05:C D C D A 06-10:D B B C B 11-15:C D D C D 16-19:C D B D 20.拦截器 21.时间 22. ORM 23.《Mapper》 24.动态SQL 25.依赖注入 26.构造器注入,Setter注入,接口注入 27.singleton, prototype 28.基于XML装配Bean , 基于注解装配Bean , 基于组件扫描注解装配Bean 29.解耦 30.@Controller , @RequestMapping 31.控制器

    2024年02月05日
    浏览(27)
  • 算法设计与分析期末复习题

    1.应用Johnson法则的流水作业调度采用的算法是(D) A. 贪心算法 B. 分支限界法 C.分治法 D. 动态规划算法 2.Hanoi塔问题如下图所示。现要求将塔座A上的的所有圆盘移到塔座B上,并仍按同样顺序叠置。移动圆盘时遵守Hanoi塔问题的移动规则。由此设计出解Hanoi塔问题的递归算法正

    2024年02月09日
    浏览(29)
  • python二级和期末复习题

    2023年04月12日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包