云计算与云存储 期中试卷

这篇具有很好参考价值的文章主要介绍了云计算与云存储 期中试卷。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

( 2022 -2023  学年第 1 学期)

 

信息工程学院     班(年)级 课程   云计算与云存储

题目

总分

得分

阅卷人

一、单项选择题(每题 3 分,共 21 分)

1.OpenStack 是一个由NASA(美国国家航空航天局)和 Rackspace 合作研发并发起的,以 Apache 许可证授权的自由软件和开放源代码项目。openstack 技术属于()架构的实现。(A )

(A)基础设置即服务;       (B)平台即服务;

(C)软件即服务;           (D)硬件即服务;

2.云端资源只给两个或者两个以上的特定单位组织内的员工使用,除此之外的人和机构都无权租赁和使用云端计算资源,例如,深圳地区的酒店联盟组建的关于酒店方面的云服务,这种云服务属于(B)

(A)私有云;           (B)社区云;

(C)公有云;           (D)混合云;

3.下列哪个支持将 RDD  数据长久地保存在磁盘文件中进行数据重用      (B)

(A)cache() ;          (B)checkpoint();

(C)persist ();           (D)memory();

4.软件架构的演变过程很漫长,经历了几十年发展,主要经历了从()的过程。(A)

(A)单体架构-分布式架构-SOA 架构-微服务架构

(B)分布式架构-单体架构-微服务架构- SOA 架构

(C)单体架构-微服务架构-分布式架构-SOA 架构

(D)分布式架构- SOA 架构-单体架构-微服务架构

5.当需要比较多个服务器在不同长度的时间段内的性能时,由于不同组数据的测量尺度相差太大,或者数据量纲的不同,使用()指标可以较好地消除测量尺度和量纲对结果的影响。      ( C)

(A)平均值;             (B)方差;

(C)变异系数;           (D)标准差;

6.软件系统的高可靠性(也称为可用性,英文描述为 HA,High Available)里有个衡量其可靠性的标准——9 的个数。5 个 9 表示在该软件系统在连续运行 1 年时间里最多可能的业务中断时间是 ( D)

(A)87.6  小时;          (B)8.76 小时;

(C)52.6 分钟;           (D)5.26 分钟;

7.将键值对 RDD 中具有相同键的元素进行分组,可以使用什么操作:   (B)

(A)sortByKey();                            (B)groupByKey();

(C)reduceByKey();                       (D)keys();

二、多项选择题(每题 4 分,共 8 分)

1.Spark 的设计遵循“一个软件需要满足不同应用场景”的理念,逐渐形成了一套完整的生态系统,可以支持以下哪些操作计算:     (ABCD)

(A)图计算(GraphX);               (B)SQL 即席查询(Spark SQL);

(C)机器学习(MLlib);             (D)流式计算(Spark Streaming);

2.spark 的部署模式有:       (ABCD)

(A)本地模式;                           (B)standalone 模式;

(C)spark on yarn 模式;            (D)mesos 模式;

三、简答题(每题 10 分,共 60 分)

  • 1. 云计算技术主要有三个显著特点:资源池化,弹性伸缩,安全可靠,分别对这三个特点进行简要的描述(10 分)。
  1. 资源池化:具有相当的规模,支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自,而不是固定的有形的实体。
  2. 云计算不针对特定的应用,同一个可以同时支撑不同的应用运行,的规模可以动态伸缩,满足应用和用户规模增长的需要。
  3. 安全可靠:“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
  • 2. RDD 之间的依赖关系可以分为窄依赖和宽依赖,请对窄依赖和宽依赖分别进行介绍并举例说明(10 分)。

        窄依赖:是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如map、                          filter、union等操作都会产生窄依赖;(独生子女)

        宽依赖:是指一个父RDD的Partition会被多个子RDD的Partition所使用,例如groupByKey、                         reduceByKey、sortByKey等操作都会产生宽依赖;(超生)

  • 3. RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。请简要介绍 RDD 的 5 个核心属性(10 分)
  1. RDD是由一系列partition组成(block块对应partition),textFile底层调用的是MR读取hdfs上的数据的方法默认一个block块对应一个split,split的大小和block大小一致,可以自己调整。
  2. 函数作用在每一个partition(split)上
  3. RDD之间有一系列的依赖关系(容错机制)。
  4. 分区器作用在K,V格式的RDD上。
  5. 提供一系列最佳的计算位置。按照“移动数据不如移动计算”的理念,Spark在进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。
  • 4.  RDD  通过缓存或者检查点技术将前面的计算结果持久化,,并供后面的 RDD 反复用。请简要说明cache,persist 和checkpoint 这 3 种持久化技术的区别。(10 分)。
  1. Cache 缓存只是将数据临时保存起来。Cache 缓存的数据通常存储在内存,可靠性低。不切断血缘依赖,只会在血缘关系中添加新的依赖,一旦出现问题,可以重头读取数据。
  2. persisit:将数据临时存储在磁盘文件中进行数据重用,涉及到磁盘IO,性能较低,但是数据安全。如果作业执行完毕,临时保存的数据文件就会丢失。
  3. CheckPoint:将数据长久地保存在磁盘文件中进行数据重用,涉及到磁盘IO,性能较低,但是数据安全。为了包装数据安全,一般情况下会把当前需要持久化的RDD重新创建并保存。
  4. Checkpoint 检查点会切断血缘依赖,重新建立新的血缘关系。
  5. cache 机制是每计算出一个要 cache 的 partition 就直接将其 cache 到内存了。但 checkpoint是等到 job 结束后另外启动专门的 job 去完成 checkpoint 。
  • 5. Hadoop 的 MR 框架和Spark 框架都是数据处理框架,请简要说明它们关系,以及我们在使用时候如何选择 (10 分)。
  1. Spark把运算中数据放到内存中,迭代计算效率会更高;MR的中间结果需要落地磁盘,所以大量的磁盘IO操作,会影响性能
  2. MR是基于进程,Spark是基于线程。MR是多进程单线程模型,而Spark是多进程多线程模型;此外,Spark是粗粒度资源申请模式,而MR是细粒度资源申请模式
  3. Spark容错性高,它通过弹性分布数据集RDD来实现高容错,RDD是一组分布式存在节点内存中只读性的数据,这些集合是弹性,某一部分数据丢失或出错,可以通过整个数据集的计算流程的血缘来实现重建;MR的容错需要重新计算,成本高。
  4. Spark更加通用,Spark提供了transformation和action这两大类多功能API,另外还有流式处理SparkStreaming模块,机器学习、图计算;MR只提供Map和Reduce方法,没有其他模块,MR其实是有机器学习的基本上没有人使用。
  5. Spark框架的生态更加丰富,首先由RDD、血缘Lineage,执行时有有向无环图DAG,Stage划分等等,很多时候Spark作业需要在不同场景上运行,此时可以根据不同场景进行调优;MR计算框架相对简单,对性能也相对较弱,单运行稳定,适合长时间在后台运行。
  • 6. Spark 包含 5 大核心模块,请对每个模块进行简要介绍(10 分)。

        1、Spark Core:包含了 Spark 最核心与基础的功能,为其他 Spark 功能模块提供了核心层                 的支撑,可类比 Spring 框架中的 Spring Core。

        2、Spark SQL:官方文档的介绍如下图,Spark SQL 适用于结构化表和非结构化数据的查                 询,并且可以在运行时自适配执行计划,支持 ANSI SQL(即标准的结构化查询语言)。

        3、Spark Streaming:是 Spark 平台上针对实时数据进行流式计算的组件,而流式数据指的              是实时或接近实时的时效性处理的大数据流,常见的流式数据处理使用Spark、Storm和                  Samza等框架。

        4、Spark MLlib:是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据                 导入等额外的功能,还提供了一些更底层的机器学习原语。

        5、Spark GraphX:是 Spark 面向图计算提供的框架与算法库。

四、编程题 (每题 11 分,共 11 分)

1.有一组键值对("Spark",5),("Hadoop",3),("Scala",4),("Spark",3),("Hadoop",1),键值对的 key 表示图书名称,value 表示某天图书的销量,编程计算每个键对应的平均值,即计算每种图书当天的平均销量,将每本图书的平均销量打印到控制台。(10 分)

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {

    val sparkConf =new SparkConf().setMaster("local").setAppName("WordCount")

    val sc= new SparkContext(sparkConf)

    val datas: RDD[(String,Int)] = sc.makeRDD(

      List(("Spark",5),("Hadoop",3),("Scala",4),("Spark",3),("Hadoop",1)),5)

    val a = datas.groupByKey() //按key分组 (张三,CompactBuffer(78, 80, 88))

      .map(x => {

        var num = 0

        var sum = 0

        for (i <- x._2) {

          sum = sum + i

          num = num + 1

        }

        val avg = sum / num

        (x._1, avg)

      })

    a.collect.foreach(x => println(x._1+"\t"+x._2))

    //关闭连接

    sc.stop()

  }}文章来源地址https://www.toymoban.com/news/detail-830563.html

到了这里,关于云计算与云存储 期中试卷的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云计算与云服务

    当下,云计算(Cloud Computing)已经成为企业和个人应用的核心技术之一。而虚拟化是云计算的基础技术 1.1、什么是虚拟化 百科词条对虚拟化的解释为: 虚拟化在计算机方面通常是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,简化软

    2024年02月06日
    浏览(29)
  • 云计算与云原生

    如今是云时代,云计算,大数据,人工智能等新的名词在最近爆火。今天我们来了解一下,云计算与云原生。 在了解云原生之前,我们必须要了解云计算。 在了解云计算之前我们需要先了解一下什么叫做分布式计算。 什么是分布式计算? 在了解分布式计算之前,我们需要先

    2024年02月01日
    浏览(44)
  • 大数据与云计算

    1 大数据 1.1 大数据简介 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模

    2024年02月02日
    浏览(52)
  • 什么是边缘计算?边缘计算与云计算的区别?

    边缘计算是更靠近数据源而不是集中式服务器或基于云的位置对客户端数据的处理和计算。简而言之,边缘计算使计算资源、数据存储和企业应用程序更接近人们实际消费信息的地方。 边缘计算架构 数据是任何正常业务的核心。多年来,前所未有的计算能力和连接设备积累

    2024年01月18日
    浏览(41)
  • 硬件基础与云计算基础

    操作系统的作用: 管理底层硬件设备 整合资源提供给上层软件使用 硬件资源分类: 计算资源:CPU、内存和GPU 存储资源:硬盘和光驱(和U盘) 网络资源:网卡(全称:网络接口卡) CPU是计算机的核心部件,负责程序的控制和运算。 CPU常见故障: 电脑无法开机       CP

    2024年02月09日
    浏览(30)
  • 大数据与云计算基础

    大数据与云计算 1.第三次信息化浪潮 大数据是指规模庞大、种类繁多、处理速度快的数据集合,通过高度并行处理和分布式计算等技术,可以从中提取出有价值的信息和知识。 大数据具有以下几个 特点 : 三个V:大数据通常被描述为具有“三个V”,即数据量大(Volume)、数

    2024年04月16日
    浏览(34)
  • 云计算分类与云架构

    目录 1. 按照服务类型分类 2. 按照服务方式分类 3. 云架构        所谓云计算的服务类型,就是指其为用户提供什么样的服务,通过这样的服务,用户可以获得什么样的资源,以及用户如何去使用这样的服务。目前,业界普遍认为,以服务类型为指标,云计算可可以分为三类

    2024年04月25日
    浏览(26)
  • 大数据与云计算期末复习

    (注:填空题、选择题紫色的是答案) 选择题 “云计算”名称中的“云”,其渊源来源于以下哪种说法? A. 云计算某些方面向云一样不可捉摸 B. 云计算的支撑技术互联网常以一个云状图案来表示,因此提供资源的网络常被成为“云”。 C. 云计算的规模一般像云一样广阔

    2024年02月02日
    浏览(42)
  • 云安全与云计算的关系

    云计算又被称为网格计算,是分布式计算的一种,能够将大量的数据计算处理程序通过网络“云”分解成多个小程序,然后将这些小程序的结果反馈给用户。云计算主要就是能够解决任务分发,并进行计算结果的合并。 云安全则是我国企业创造的概念,是基于云计算商业模式

    2024年04月16日
    浏览(31)
  • 大数据与云计算课后习题

    参考: https://blog.csdn.net/weixin_44986776/article/details/114855025 https://www.pianshen.com/article/33741007662/ 以及古老师ppt 第一章 请举例说明结构化数据、半结构化数据、非结构化数据的区别。 结构化数据指的是数据在一个记录文件里面以固定格式存在的数据。结构化数据可以通过固有键值

    2023年04月08日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包