云计算与大数据第8章 大数据采集习题及答案

这篇具有很好参考价值的文章主要介绍了云计算与大数据第8章 大数据采集习题及答案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第8章 大数据采集习题

8.1 选择题

1、数据采集的数据对象类型包括(  D  )。

A. 结构化数据      B. 半结构化数据     C. 非结构化数据      D. 以上都是

2、数据采集的主要性能要求不包括以下的(  B  )。

A. 全面性          B. 安全性           C. 多维性            D. 高效性

3、大数据采集相对于传统数据采集的优势不包括(  C  )。

A. 数据源广泛      B. 安全性           C. 速度有限        D. 数据类型丰富

4、大数据采集和传统数据采集的区别可以从下面的(  B  )看出。

1数据源     2数据量     3数据类型   4数据产生速度    5数据存储

A. 123             B. 12345       C. 234            D. 2345

5、下面不属于Scrapy的组件的是(  A  )。

A. 传感器          B. 引擎             C. 下载器            D. Spider

6、下面选项属于典型的网络数据采集工具的是(  A  )。

A. Scrapy            B. Fluentd           C. Logstash           D. Flume

7、目前传感器的主要组件不包括(  D  )。

A. 敏感元件         B. 转换元件      C. 信号调理转换电路     D. 二极管

8、下面不属于典型日志系统的是(  D  )。

A. Fluentd             B. Logstash        C. Scribe                        D. Nutch

9、Nutch的主要特点不包括(  C  )。

A. 伸缩性强       B. 可靠性高          C. 安全性强            D. 速度快

10、定向数据采集特别重视(  A  )。

A. 页面与主题的相关度  B. 链接的安全性  C. 系统的运行时间  D. 数据量的大小

8.2 填空题

1、数据采集的对象类型包括结构化数据、半结构化数据、( 非结构化数据 )。

2、数据采集三个基本的性能要求:全面性、 (   多维性    )、高效性。

3、传感器一般由敏感元件、(   转换原件    )、信号调理转换电路组成,有时还需外加辅助电源来提供转换能量。

4、分布式采集系统的主要特点包括(   伸缩性强    )、可靠性高、速度快。

5、分布式数据采集系统常常采用 (     主从式    )和对等式这两种架构。

8.3 简答题

1、请简述网络爬虫的基本原理。

答:

网络爬虫又称为网络蜘蛛、网络机器人,是一种按照一定的规则自动地抓取Web数据的程序或者脚本。网络爬虫会从一个或若干初始页面的统一资源定位器开始,获得初始页面上的数据,并且在抓取页面数据的过程中,不断从当前页面中抽取新的URL并放入URL队列,直到满足设置的停止条件为止。

2、请简述系统日志的概念及作用。

答:

系统日志用于在时间上连续地记录由系统指定的对象的动作及动作结果。系统日志可以记录系统进程和设备驱动程序的活动,包括系统服务的开启、关闭、暂停等状态,以及设备驱动程序启动、自检、故障等情况。操作系统、数据库、网络系统等平台每天都会产生大量的系统日志,收集、存储、处理和管理这些系统日志需要特定的日志系统。

3、请描述分布式数据采集系统的两种典型架构。

答:

  1. 对于主从式架构而言,由一台专门的主服务器来维护待抓取的URL队列,该服务器负责将URL分发到不同的工作服务器,而工作服务器则负责页面下载的工作。主服务器除了维护待抓取的URL队列以及分发URL,还要负责调节各个工作服务器的负载情况。基于主从式架构的分布式数据采集系统的优点是结构简单,容易管理和配置;其缺点是主服务器容易成为系统性能的瓶颈,特别是当工作服务器数量过于庞大时。
  2. 基于对等式架构的分布式数据采集系统没有主服务器,所有的抓取服务器在分工上没有区别,分别负责不同部分的网络数据的抓取。每一台抓取服务器都可以从待抓取的URL队列中利用Hash等方式获取需要负责抓取的部分URL,然后并行抓取。

8.4 解答题

1、在大数据时代,数据采集的工具多种多样。网络爬虫是一种按照一定的规则自动地抓取Web数据的程序或者脚本。请描述网络爬虫的工作流程。

答:

  1. 选取一部分种子URL。
  2. 将这些URL放入待抓取URL队列。
  3. 从待抓取URL队列取出待抓取URL,通过域名解析,得到主机的IP地址,将URL对应的页面下载下来,并存储到已下载的页面库中。
  4. 将这些URL放入已抓取URL队列。
  5. 分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列,进入下一轮循环。

2、Fluentd是Apache 2.0协议许可的开源日志数据收集器,支持用户实时地从数千台机器收集数据,主要特色包括哪些?

答:

  1. 使用JSON格式统一日志记录。Fluentd将数据结构化为JSON格式,不仅可以更容易地统一处理日志数据的收集、过滤、缓冲和输出,还可以保留灵活的模式。
  2. 可插拔架构。Fluentd拥有灵活的插件系统,用户可以通过插件更好地使用日志。可插拔架构,Fluentd的众多插件使其可以兼容数十种数据源和数据输出,插件也很容易编写和部署。
  3. 节省资源开销。Fluentd是采用C语言和Ruby语言编写的,需要较少系统资源,实例可以运行在数十MB的内存上,每个引擎每秒可以处理数以万计的事件。
  4. 基于内存和文件的缓存。Fluentd支持基于内存和文件的缓存,可防止数据丢失。
  5. 数据源与后端系统分离。Fluentd通过在数据源与后端系统之间提供统一的日志层来将二者分离。日志层允许开发人员和数据分析师使用多种类型的日志,可以更好地利用日志数据。

3、基于Hadoop平台的Nutch能够实现分布式数据的采集。请具体描述Nutch的运行流程。

答:

Nutch的工作主要可以分为两个环节:首先采集相关的页面,然后将采集的页面数据存放在本地,并建立索引。

  1. 建立初始种子链接的URL集合,将URL集合存放在文本,然后上传至HDFS。
  2. 执行Inject的操作,将种子URL集合注入URL队列。
  3. 执行Generate的操作,通过URL队列生成采集所需的链接列表。
  4. 执行Fetch的操作,根据链接列表的种子链接采集相关的页面内容。
  5. 执行Parse的操作,解析采集到的页面数据,然后生成parsedata和parsetex两个文件目录,分别存放页面文本内容和页面中的超链接等信息。
  6. 执行Update的操作,将抽取的新链接更新到始种子链接队列。
  7. 循环执行步骤3到步骤6,当满足设定的条件时,结束数据采集工作。

4、请分析何谓通用数据采集,何谓定向数据采集;请描述定向数据采集算法的典型步骤。

答:

通用数据采集的对象是从特定的种子链接开始的,采用广度搜索的方式,其目标是采集互联网上的全部页面。与通用数据采集相对的是以聚焦网络爬虫为核心的定向数据采集。定向数据采集服务于特定的专业群体,采集的数据只局限于某个主题或者与其相关的领域。

定向数据采集算法的步骤包括:文章来源地址https://www.toymoban.com/news/detail-784377.html

  1. 将初始的种子URL全部放入链接队列,根据初始的种子URL进行页面数据的采集,提取锚文本的内容、页面的标题及正文。
  2. 对正文进行分词的操作,计算关键字的权重和文本的相关度。
  3. 利用文本聚类算法将相关度高文本聚集在一起。
  4. 根据聚类好的文本,利用朴素贝叶斯算法计算待抓取的页面属于该主题的概率。
  5. 通过归类完成的与主题相关的页面生成页面主题评价器,假设所采集页面的数量小于预先设定的最大页面数量,则循环执行以下步骤。
  6. 从链接集合中选出得分最高的链接,采集该链接对应页面的数据,抽取对应页面中的链接并插入链接队列。
  7. 计算页面的主题相关度,若大于阈值,则保存所对应的页面,否则进行交叉和变异操作。
  8. 及时调整当前页面得分,重新计算从当前页面抽取的链接对应页面的得分。
  9. 根据最新的页面得分重排链接队列中的所有链接,把与主题相关的页面放入训练集合中,获取最新的页面主题评价器。
  10. 比较计算出的相关度与阈值,大于阈值的链接则重新返回步骤1;小于阈值的链接则直接舍弃。
  11. 按照上述的步骤,对页面进行定向数据采集,直到采集的页面数量大于或等于预先设定的最大页面数量为止。

到了这里,关于云计算与大数据第8章 大数据采集习题及答案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云计算与大数据第10章 大数据应用习题带答案

    1、目前典型的脑电信号的分类方式不包括(  B  )。 A. 按频率分类   B. 按信号长度分类   C. 按Gibbs分类   D.按图形分类 2、以下的(  D  )不属于心电信号的波段。 A. P频段        B. QT间期          C. U频段      D. SG频段 3、盲源信号分离所使用技术一般不包

    2024年02月01日
    浏览(30)
  • 云计算与大数据第9章 大数据处理习题带答案

    1、在数据预处理阶段,数据合并到一致的存储介质中,使得数据挖掘更有效、挖掘模式更易理解,这一过程是(  B  )。 A. 数据清洗         B. 数据集成        C. 数据归约      D.数据转换    2、以下(  B  )不是数据归约策略。 A. 属性子集的选择   B. 属性构

    2024年02月09日
    浏览(34)
  • 云计算与大数据第7章 大数据概览练习题及答案

    1、下列说法错误的是(  B  )。 A. 数据是指对客观事件进行记录并可以鉴别的符号     B. 信息是数据的表现形式和载体 C. 数据只有在传递的过程中才能够被称为信息 D. 信息的时效性对于信息的使用和传递具有重要的意义 2、从数据的表现形式看,大数据的主要典型特征有

    2024年02月02日
    浏览(29)
  • 云计算与大数据第11章 大数据隐私保护习题带答案

    1、以下(  D  )通常不是导致数据隐私泄露问题的来源。 A.  数据被肆意收集   B. 数据集成融合   C. 大数据分析   D. DDOS攻击 2、以下(  C  )不是数据隐私保护的主要目标。 A.  机密性   B. 完整性   C. 合理性   D. 可用性 3、发布数据时将隐私数据中的显式标识符删

    2024年02月13日
    浏览(29)
  • 云计算与大数据第三章 云存储练习题及答案

    1、SAN是一种(B)。 A. 存储设备                            B. 专为数据存储而设计和构建的存储网络系统 C. 光纤交换机                        D. HBA 2、在GFS中,客户端可以并行访问多个(C),提高了系统的整体性能。 A. 客户端               

    2024年02月03日
    浏览(29)
  • 云计算与大数据第15章 分布式大数据处理平台Hadoop习题带答案

    1、分布式系统的特点不包括以下的(  D  )。 A. 分布性     B. 高可用性        C. 可扩展性     D.串行性 2、Hadoop平台中的(  B  )负责数据的存储。 A. Namenode   B. Datanode         C. JobTracker D. SecondaryNamenode 3、HDFS中block的默认副本数量是(  A  )。 A.3     

    2024年02月06日
    浏览(32)
  • 云计算与大数据期末考试题库

    1. 以下哪一项不属于Hadoop可以运行的模式___C___。 A. 单机(本地)模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2、Hadoop作者  Martin Fowler Kent Beck Doug cutting√ 3、HDFS默认Block Size的大小是 32MB 64MB√ 128MB 4、下列哪项通常是集群的最主要的性能瓶颈 CPU 网络 磁盘IO√ 内存 5、下面

    2023年04月09日
    浏览(29)
  • 云计算与大数据第16章 分布式内存计算平台Spark习题

    1、Spark是Hadoop生态(  B  )组件的替代方案。 A. Hadoop     B. MapReduce        C. Yarn             D.HDFS 2、以下(  D  )不是Spark的主要组件。 A. Driver      B. SparkContext       C. ClusterManager D. ResourceManager 3、Spark中的Executor是(  A  )。 A.执行器      B.主节

    2024年02月14日
    浏览(48)
  • 云计算与大数据 第14章 云仿真平台CloudSim习题

    1、仿真三要素为(  B  )、模型和计算机。 A. 工具        B. 系统              C. 对象              D.程序 2、CloudSim中用来仿真构建云数据中心,实现虚拟机对资源的分配策略的核心类是(  B  )。 A. Cloudlet      B. DataCenter          C. Host      

    2024年02月05日
    浏览(88)
  • 边缘计算网关的工业设备数据采集方案-天拓四方

    随着工业4.0时代的到来,工业设备数据采集成为了实现智能制造、提升生产效率的关键环节。传统的数据采集方案往往依赖于中心化的数据处理方式,但这种方式在面对海量数据、实时性要求高的工业场景时,往往显得力不从心。因此,利用边缘计算网关实现工业设备数据采

    2024年04月28日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包