大数据技术原理与应用(7-11)-TYUT(完结)

这篇具有很好参考价值的文章主要介绍了大数据技术原理与应用(7-11)-TYUT(完结)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第七章 MapReduce

1.Hadoop生态系统的两个核心组件:HDFS和MapReduce。MapReduce体系结构:ClientJobTrackerTaskTracker以及Task

2.JobTracker负责资源监控和作业调度,监控所有TaskTracker与Job的健康状况

TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker

4.Map和Reduce函数的输入输出格式

5.map端的Shuffle进程:

  • 输入数据和执行map任务(键值对→多个键值对)
  • 写入缓存
  • 溢写(分区,排序,合并)(用哈希进行分区;根据key进行排序;合并,将具有相同键的值加起来)
  • 文件归并

reduce端的shuffle进程:

  • 领取数据
  • 归并数据
  • 把数据输入给reduce任务

6,Mapreduce是一种分布式并行编程模型。存储在HDFS的数据集被切分为小数据集,每个map任务输入一个小数据集(分片),map任务会并行处理。map任务生成的结果会作为reduce任务的输入,最终由reduce任务输出结果,写入HDFS。

map函数将输入的元素转化为<key,value>键值对,进行并发处理输出:<k1,v1>list(<k2,v2>)

reduce函数将具有相同键的键值对组合起来,输出处理后的键值对,输出结果合并成一个文件。<k2,list(v20)><k3,v3>

7.大规模数据集处理包括分布式存储和分布式计算。(hadoop中分别对应HDFSMapreduce

map的输出进行分区,排序,合并,归并,交给reduce来处理,这个过程就叫shuffle

MapReduce使用inputformat模块对map进行预处理,将输入文件切分为inputsplit(输入分片),每个分片针对一个map任务。

8.Mapreduce的6个执行阶段理解。

第八章 Hadoop再探讨

1.新一代资源管理调度框架YARN包含3个组件:

ResourceManager:

  • 处理客户端请求
  • 启动/监控ApplicationMaster
  • 监控NodeManager
  • 资源分配与调度

ApplicationMaster:

  • 为应用程序申请资源,并分配给内部任务
  • 任务调度,监控与容错

NodeManager:

  • 单个节点上的资源管理
  • 处理来自ResourceManager/ApplicationMaster的命令

2.MapReduce在Hadoop1.0中资源管理效率低,2.0中设计了yarn(新一代资源管理调度框架)

HDFS单一名称节点存在单点失效问题,解决:HDFS HA(高可用架构),提供名称节点热备份机制

HDFS单一命名节点无法实现资源隔离。解决:HDFS 联邦,管理多个命名空间。

3.Hadoop生态系统中的Pig组件,处理大规模数据的脚本语言,用户编写几条简单的语句,系统自动转换为Mapreduce作业。

4.简而言之,yarn对jobtracker功能进行拆分

5.Hadoop2.0组件,pig,tez,kafaka,

第九章 数据仓库Hive 

Hive是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。

hive体系结构的4层次:数据源,数据存储和管理,数据服务,数据应用。

hive区别于数据库的地方,可以有历史记录。

hive借助Hadoop来完成数据的存储与处理。

类SQL语言-hiveSQL

以Mapreduce作为执行引擎:

1.HDFS作为高可靠的底层存储方式,存海量数据

2.Mapreduce对海量数据进行批处理,实现高性能运算

3.Hive借助HDFS和Mapreduce实现数据的存储处理,用HiveQL编写的处理逻辑,最终都要转换成Mapreduce任务运行。

4.pig可作为hive的替代工具。Pig是一种数据流语言和运行环境,在Hadoop平台上查询半结构化数据集,将外部数据装载到Hadoop集群中,转化为用户需要的数据格式。

5.HBASE为hive提供实时数据访问。Hbase面向列的,分布式的,可伸缩的数据库,可提供数据的实时访问,hive只能处理静态数据。两者互补。

6.Hive生态系统

第十章 Spark(并行计算框架)

1.spark生态系统主要包含Spark Core(提供内存计算),spark SQL(交互式查询分析) ,Spark Streaming(流计算),Mllib(机器学习算法库组件),GraphX(图计算)等组件。

2.RDD是分布式内存的抽象概念,提供了一种高度受限的共享内存模型。

RDD提供了一组丰富的操作:行动和转换。

行动用于执行计算并指定输出的形式,转换制定RDD之间的相互依赖关系。

转换操作接收并返回RDD,而行动接受RDD但返回非RDD。

运行原理:

1)创建RDD对象;

2SparkContext负责计算RDD之间的依赖关系,构建DAG

3DAGScheduler负责把DAG图分解成多个Stage,每个Stage中包含了多个Task,每个Task会被TaskScheduler分发给各个WorkerNode上的Executor去执行。

rdd特性:高容错 ,中间结果持久化内存

3.Scala是一种多范式编程语言。spark通过scala实现rdd的API。

4.spark特点:运行速度快,容易使用,通用性,运行模式多样。

5.基本概念

DAG:有向无环图,反映RDD之间的依赖关系。(spark基于DAG任务调度执行机制,spark根据rdd依赖关系生成DAG,开始计算)

RDD:分布式对象集合,只读的分区记录集合。(只读意味着不能直接修改)每个RDD可分为多个分区,每个分区是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算

作业:一个作业包含多个RDD及其操作。

Executor:运行在工作节点上的一个进程,负责运行任务。(对应Hadoop里的MapReduce)

应用:用户编写的Spark应用程序。

任务:运行在Executor上的工作单元。

阶段:作业调度的基本单位,作业中有多个任务,每组任务就是阶段。

6.spark与Hadoop相比,spark在运算时将运算结果存入内存,hadoop存入磁盘。spark效率更高。

第11章 流计算(简单看看,应该不考)

1.MapReduce-批处理计算,impala-基于历史数据的交互式查询,storm-实时数据流的数据处理

2.流数据特征:

数据快速持续到达,潜在大小也许是无穷无尽的
数据来源众多,格式复杂
数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储
注重数据的整体价值,不过分关注个别数据
数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序

3.流计算:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息 

4.流计算过程:数据实时采集、数据实时计算、实时查询服务

5.开源流计算框架Storm文章来源地址https://www.toymoban.com/news/detail-430455.html

到了这里,关于大数据技术原理与应用(7-11)-TYUT(完结)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • RFID原理及应用期末复习笔记 | 1.RFID概述【完结✿✿ヽ(°▽°)ノ✿】

    系列索引:RFID原理及应用期末复习笔记 | 快速索引 RFID是博主大三下的一门专业课,因为疫情缩短学期进程提前结课,所以期末考试也来的更早,这里就简单记录一下自己复习时的一些笔记,也给后来的学弟学妹一点小帮助。 持续更新 直至期末结束,欢迎有需要的朋友一键

    2024年02月08日
    浏览(37)
  • 大数据技术原理与应用

    第一章 大数据概述 1.1 信息化浪潮 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前

    2024年02月07日
    浏览(30)
  • 云计算技术与应用课后答案第七章

    第七章 云技术 1、下列设备(或资源)可以成为虚拟内容的是: (ABCD) A、CPU B、内存 C、存储 D、网络 2、下列不属于虚拟化技术所具备的优势的是: (D) A、资源共享 B、负载动态优化 C、节能环保 D、人工管理 3、(B )年,IBM公司发布的IBM7044 被认为是最早在商业系统上实现虚拟化。

    2024年01月17日
    浏览(40)
  • 大数据技术原理与应用笔记

    参考: 课程教学(林子雨老师) 程序羊大数据学习路线 HDFS入门 Hbase入门 NoSql入门 1.1大数据时代 三次信息化浪潮 1.2大数据的概念和影响 大数据的4v特征 volume大量化、velocity快速化、variety多样化、value价值化 数据量大 数据类型繁多 – 大数据是由结构化和非结构化数据组成

    2024年02月07日
    浏览(22)
  • 期末复习-大数据技术原理与应用

    第三次信息化浪潮 信息科技为大数据时代提供技术支撑,具体是存储容量增大, CPU 处理速度提高,网络带宽的提高 数据生产方式的变革,运营式系统阶段,用户原则内容阶段,感知式系统阶段 20 世纪 90 年代到 21 世纪初的萌芽阶段, 21 世纪前 10 年的成熟期, 2010 年之后的

    2024年02月08日
    浏览(73)
  • 《大数据技术原理与应用》 期末复习

    桂林电子科技大学 大数据课程 复习笔记 考试范围 : 教材:《大数据技术原理与应用》第三版 林子雨 第1章:大数据概述 🎉 第2章:大数据处理架构Hadoop 🎉 第3章:分布式文件系统HDFS 🎉 第4章:分布式数据库HBase🎉 第5章:NoSQL数据库🎉 第7章:MapReduce🎉 第10章:Spark🎉

    2024年02月09日
    浏览(37)
  • 大数据技术原理与应用——第一章

    三次信息化浪潮 信息化浪潮 时间 标志 解决的问题 第一次信息化浪潮 1980 个人计算机 信息处理 第二次信息化浪潮 1995 互联网 信息传输 第三次信息化浪潮 2010 大数据、云计算、互联网 信息爆炸 大数据的技术支撑 数据产生方式 数据量大 “大数据摩尔定律”:人类产生的数

    2024年01月16日
    浏览(44)
  • 【大虾送书第七期】深入浅出SSD:固态存储核心技术、原理与实战

    目录  ✨写在前面   ✨内容简介  ✨作者简介  ✨名人推荐  ✨文末福利      🦐博客主页:大虾好吃吗的博客      🦐专栏地址:免费送书活动专栏地址         近年来国家大力支持半导体行业,鼓励自主创新,中国SSD技术和产业良性发展,产业链在不断完善,与

    2024年02月10日
    浏览(55)
  • 大数据技术原理与应用期末复习(林子雨)

    1. 高可靠性: 采用冗余数据存储方式,即一个副本发生故障,其他副本可保证正常对外提供服务 2. 高效性: hadoop采用分布式存储和分布式处理,能够高效的处理PB级数据 3. 高可扩展性: 可以高效稳定地运行在廉价的计算机集群上,可扩展到数以千计的计算机节点上 4. 高容

    2024年01月21日
    浏览(39)
  • 大数据技术原理与应用(第3版)期末复习

    (单选30 判断10 简答10 操作30 编程20) 编程掌握: HDFS文件操作 MapReduce程序 HBase数据库命令操作 大数据的4v特征 数据量大、处理快、数据类型多、价值密度低 大数据完全颠覆了传统的思维方式: 全样而非抽样、 效率而非精确、 相关而非因果 第三次信息化浪潮:云计算,物

    2024年02月12日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包