云计算-Spark部分复习(自用)

10月前作者：莫德丽莎分类：Toy博客阅读(37) 违法举报

这篇具有很好参考价值的文章主要介绍了云计算-Spark部分复习(自用)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

SPARK（有操作）：
1. spark作业
2. spark-RDD（必考编程：常用算子 map groupby key flatmap-单词统计、单词排序）
3. spark-sql（和hive相似，可能有捆绑，如何操作*考的不深，不一定编程必须了解操作判断选择题）
4. spark-streaming（看包、做作业，题目有变换）

一、Spark的代码特点:简洁易懂

云计算-Spark部分复习(自用),云计算

二、Spark与Hadoop的对比云计算-Spark部分复习(自用),云计算

三、Spark架构

Spark的基本组件有Excutor,SparkContext和Task

云计算-Spark部分复习(自用),云计算

四、Spark的运行基本流程

云计算-Spark部分复习(自用),云计算

五、Yarn-cluster和yarn-client

Yarn-cluster适用于生产环境, Yarn-client适用于交互和调试

云计算-Spark部分复习(自用),云计算

六、RDD简介

云计算-Spark部分复习(自用),云计算

七、RDD的特点

云计算-Spark部分复习(自用),云计算

八、Stage的概念

RDD有两种依赖，分别为宽依赖(wide dependency/shuffle dependency)和窄依赖(narrow dependency)

这里借用一下CSDN中杨林伟博主的介绍

1.窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖

2.宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到Shuffle) 云计算-Spark部分复习(自用),云计算

云计算-Spark部分复习(自用),云计算

九、Spark的核心原理

1.用户代码(如rdd1.join...)转换为有向无环图(DAG)后,交给DAGScheduler

2.有DAGScheduler把RDD的有向无环图分割成各个Stage的有向无环图形成TaskSet,再提交给TaskScheduler

3.有TaskScheduler把任务(Task)提交给每个Worker上的Executor执行据以的Task

4.在TaskScheduler中,是不知道各个Stage的存在的,运行的只有Task

云计算-Spark部分复习(自用),云计算

十、Stage的概念

云计算-Spark部分复习(自用),云计算

十一、RDD的转换与操作(学生的平均成绩计算)

云计算-Spark部分复习(自用),云计算

十一、Spark中文件的读取与存储云计算-Spark部分复习(自用),云计算

详细步骤如下云计算-Spark部分复习(自用),云计算

云计算-Spark部分复习(自用),云计算

云计算-Spark部分复习(自用),云计算

十二、编写SparkWordCount(单词计数程序)

云计算-Spark部分复习(自用),云计算

十三、持久化

云计算-Spark部分复习(自用),云计算

十四、Spark DataFrame基本操作

① DataFrame：DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库的二维表格，带有 Schema 元信息(可以理解为数据库的列名和类型)。DataFrame = RDD ＋泛型 + SQL 的操作 + 优化

② DataSet：DataSet是DataFrame的进一步发展，它比RDD保存了更多的描述信息，概念上等同于关系型数据库中的二维表，它保存了类型信息，是强类型的，提供了编译时类型检查。调用 Dataset 的方法先会生成逻辑计划，然后被 spark 的优化器进行优化，最终生成物理计划，然后提交到集群中运行！DataFrame = Dateset[Row]

DataFrame = RDD - 泛型 + Schema + SQL + 优化
DataSet = DataFrame + 泛型
DataSet = RDD + Schema + SQL + 优化

DataFrame是一种不可变的分布式数据集,被组织成指定的列,类似于关系数据库中的表

数据集的每一列都带有名称和类型,对于数据的内部结构又很强的描述性

RDD是分布式的Java对象的集合,DataDrame是分布式的Row对象的集合

云计算-Spark部分复习(自用),云计算

云计算-Spark部分复习(自用),云计算

十五、读取mysql数据库test的student表

云计算-Spark部分复习(自用),云计算

十六、从Hive中的表创建DataFrame

云计算-Spark部分复习(自用),云计算

十七、保存DataFrame

云计算-Spark部分复习(自用),云计算文章来源地址https://www.toymoban.com/news/detail-763797.html

到了这里，关于云计算-Spark部分复习(自用)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

移动应用开发期末复习（自用复习勿转）

主要考察实验中的通知：notification,service。数据库的增删改查操作结合界面的一些操作。 Android是一种基于Linux的软件平台和操作系统，采用了软件堆层（Software Stack）的架构，由下往上分别是Linux内核层、硬件抽象层、系统运行时库层（又称为中间件层）、应用程序框架层和系

2024年02月05日
浏览(46)
测试复习(自用)

什么是软件测试验证软件特性是否满足用户的需求专业名词需求满足用户期望或正式文档（合同、标准、规范）所具备的条件和权能，包含用户需求和软件需求用户需求软件需求是测试人员开展软件测试工作的依据如何让测试人员更好了解需求呢从需求分析阶段测试人

2024年02月08日
浏览(37)
软件工程复习自用---第一章

软件危机的概念在计算机软件的开发和维护过程中所遇到的一系列严重问题软件和程序的关系与区别软件的概念：软件是包括程序，数据及其相关文档的完整集合程序是能够完成预定功能和性能的可执行的指令序列数据是使程序能够适当地处理信息的数据结构文档是开发

2024年01月17日
浏览(43)
软件工程复习自用---第六章

结构程序设计经典定义：如果一个程序的代码块仅仅通过顺序、选择和循环这3种基本控制结构进行连接，并且每个代码块只有一个入口和一个出口，则称这个程序是结构化的。结构程序设计更全面的定义：结构程序设计是尽可能少用GO TO语句的程序

2024年01月19日
浏览(47)
软件工程复习自用---第五章

典型的总体设计步骤 1.设想供选择的方案在总体设计阶段分析员应该考虑各种可能的实现方案，并且力求从中选出最佳方案。需求分析阶段得出的数据流图是总体设计的极好的出发点。设想供选择的方案的一种常用的方法是，设想把数据流图中的处理分组的各

2024年01月17日
浏览(57)
软件工程复习自用---第四章

非形式化方法的缺点形式化方法的优点应用形式化方法的准则 1.应该选用适当的表示方法。 2.应该形式化，但不要过分形式化。 3.应该估算成本。 4.应该有形式化方法顾问随时提供咨询。 5.不应该放弃传统的开发方法。 6.应该建立详尽的文档。 7.不应该放弃质量标准。 8.不

2024年01月19日
浏览(47)
Java面试复习网站和仓库——自用

疯狂创客圈 JavaTutorial github JavaHome github learning-note github architect-awesome github advanced-java github technology-talk github Java-Interview-Adcanced gitee JavaGuide gitee

2024年02月13日
浏览(37)
软件工程复习自用---第三章

需求分析是软件定义时期的最后一个阶段，它的基本任务是准确地回答“系统必须做什么”这个问题确定对系统的综合要求分析系统的数据要求任何一个软件系统本质上都是信息处理系统数据结构表示数据元素之间的逻辑关系。利用数据字典可以全面准确地定义数据，但是

2024年01月17日
浏览(50)
软件工程复习自用---第二章

可行性研究的目的不是解决问题，而是确定问题是否值得去解决可行性研究分析过程进一步分析和澄清问题定义分析员应该导出系统的逻辑模型探索若干种可供选择的主要解法要至少从以下三个方面研究每种解法的可行

2024年01月20日
浏览(41)
概率论-条件数学期望（复习笔记自用）

实际上，求条件期望就是在新的概率空间上进行计算,即，因此也继承了期望的所有性质如果，则E(X)=Eg(Y) 使用全概率公式，可以容易得到证明理解，找到共性正态分布的优良性质：正态分布的条件分布仍为正态分布公式的证明充分体现出微分法的优势理解：对于固定的

2024年02月08日
浏览(41)