云计算-Spark部分复习(自用)

这篇具有很好参考价值的文章主要介绍了云计算-Spark部分复习(自用)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

SPARK(有操作):
1. spark作业 
2. spark-RDD(必考编程:常用算子 map groupby key flatmap-单词统计、单词排序)
3. spark-sql(和hive相似,可能有捆绑,如何操作*考的不深,不一定编程  必须了解操作 判断选择题) 
4. spark-streaming(看包、做作业,题目有变换)

一、Spark的代码特点:简洁易懂

云计算-Spark部分复习(自用),云计算

二、Spark与Hadoop的对比云计算-Spark部分复习(自用),云计算

三、Spark架构

Spark的基本组件有Excutor,SparkContext和Task

云计算-Spark部分复习(自用),云计算

四、Spark的运行基本流程

云计算-Spark部分复习(自用),云计算

五、Yarn-cluster和yarn-client

Yarn-cluster适用于生产环境, Yarn-client适用于交互和调试

云计算-Spark部分复习(自用),云计算

六、RDD简介

云计算-Spark部分复习(自用),云计算

七、RDD的特点

云计算-Spark部分复习(自用),云计算

八、Stage的概念

RDD有两种依赖,分别为宽依赖(wide dependency/shuffle dependency)窄依赖(narrow dependency) 

这里借用一下CSDN中杨林伟博主的介绍

1.窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖

2.宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到Shuffle)云计算-Spark部分复习(自用),云计算

云计算-Spark部分复习(自用),云计算

九、Spark的核心原理

1.用户代码(如rdd1.join...)转换为有向无环图(DAG)后,交给DAGScheduler

2.有DAGScheduler把RDD的有向无环图分割成各个Stage的有向无环图形成TaskSet,再提交给TaskScheduler

3.有TaskScheduler把任务(Task)提交给每个Worker上的Executor执行据以的Task

4.在TaskScheduler中,是不知道各个Stage的存在的,运行的只有Task

云计算-Spark部分复习(自用),云计算

十、Stage的概念

云计算-Spark部分复习(自用),云计算

十一、RDD的转换与操作(学生的平均成绩计算)

云计算-Spark部分复习(自用),云计算

十一、Spark中文件的读取与存储云计算-Spark部分复习(自用),云计算

详细步骤如下云计算-Spark部分复习(自用),云计算

云计算-Spark部分复习(自用),云计算

云计算-Spark部分复习(自用),云计算

十二、编写SparkWordCount(单词计数程序)

云计算-Spark部分复习(自用),云计算

十三、持久化

云计算-Spark部分复习(自用),云计算

十四、Spark DataFrame基本操作

① DataFrame:DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库的二维表格,带有 Schema 元信息(可以理解为数据库的列名和类型)。DataFrame = RDD + 泛型 + SQL 的操作 + 优化

② DataSet:DataSet是DataFrame的进一步发展,它比RDD保存了更多的描述信息,概念上等同于关系型数据库中的二维表,它保存了类型信息,是强类型的,提供了编译时类型检查。调用 Dataset 的方法先会生成逻辑计划,然后被 spark 的优化器进行优化,最终生成物理计划,然后提交到集群中运行!DataFrame = Dateset[Row]
 

  • DataFrame = RDD - 泛型 + Schema + SQL + 优化
  • DataSet = DataFrame + 泛型
  • DataSet = RDD + Schema + SQL + 优化

DataFrame是一种不可变的分布式数据集,被组织成指定的列,类似于关系数据库中的表

数据集的每一列都带有名称和类型,对于数据的内部结构又很强的描述性

RDD是分布式的Java对象的集合,DataDrame是分布式的Row对象的集合

云计算-Spark部分复习(自用),云计算

云计算-Spark部分复习(自用),云计算

十五、读取mysql数据库test的student表

云计算-Spark部分复习(自用),云计算

十六、从Hive中的表创建DataFrame

云计算-Spark部分复习(自用),云计算

十七、保存DataFrame

云计算-Spark部分复习(自用),云计算文章来源地址https://www.toymoban.com/news/detail-763797.html

到了这里,关于云计算-Spark部分复习(自用)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 移动应用开发期末复习(自用复习勿转)

    主要考察实验中的通知:notification,service。数据库的增删改查操作结合界面的一些操作。 Android是一种基于Linux的软件平台和操作系统,采用了软件堆层(Software Stack)的架构,由下往上分别是Linux内核层、硬件抽象层、系统运行时库层(又称为中间件层)、应用程序框架层和系

    2024年02月05日
    浏览(42)
  • 测试复习(自用)

    什么是软件测试 验证软件特性是否满足用户的需求 专业名词 需求 满足用户期望或正式文档(合同、标准、规范)所具备的条件和权能,包含用户需求和软件需求 用户需求 软件需求 是测试人员开展软件测试工作的依据 如何让测试人员更好了解需求呢 从需求分析阶段测试人

    2024年02月08日
    浏览(33)
  • 软件工程复习自用---第一章

    软件危机的概念 在计算机软件的开发和维护过程中所遇到的一系列严重问题 软件和程序的关系与区别 软件的概念:软件是包括程序,数据及其相关文档的完整集合 程序是能够完成预定功能和性能的可执行的指令序列 数据是使程序能够适当地处理信息的数据结构 文档是开发

    2024年01月17日
    浏览(40)
  • 软件工程复习自用---第五章

    典型的总体设计步骤  1.设想供选择的方案         在总体设计阶段分析员应该考虑各种可能的实现方案,并且力求从中选出最佳方案。 需求分析阶段得出的数据流图是总体设计的极好的出发点。 设想供选择的方案的一种常用的方法是,设想把数据流图中的处理分组的各

    2024年01月17日
    浏览(54)
  • 软件工程复习自用---第六章

            结构程序设计经典定义: 如果一个程序的代码块仅仅通过顺序、选择和循环这3种基本控制结构进行连接,并且每个代码块只有一个入口和一个出口,则称这个程序是结构化的 。         结构程序设计更全面的定义:结构程序设计是尽可能少用GO TO语句的程序

    2024年01月19日
    浏览(43)
  • Java面试复习网站和仓库——自用

    疯狂创客圈 JavaTutorial github JavaHome github learning-note github architect-awesome github advanced-java github technology-talk github Java-Interview-Adcanced gitee JavaGuide gitee

    2024年02月13日
    浏览(36)
  • 软件工程复习自用---第二章

               可行性研究的目的不是解决问题,而是确定问题是否值得去解决 可行性研究分析过程         进一步分析和澄清问题定义         分析员应该导出系统的逻辑模型         探索若干种可供选择的主要解法 要至少从以下三个方面研究每种解法的可行

    2024年01月20日
    浏览(38)
  • 软件工程复习自用---第四章

    非形式化方法的缺点 形式化方法的优点 应用形式化方法的准则 1.应该选用适当的表示方法。 2.应该形式化,但不要过分形式化。 3.应该估算成本。 4.应该有形式化方法顾问随时提供咨询。 5.不应该放弃传统的开发方法。 6.应该建立详尽的文档。 7.不应该放弃质量标准。 8.不

    2024年01月19日
    浏览(45)
  • 软件工程复习自用---第三章

    需求分析是软件定义时期的最后一个阶段,它的基本任务是准确地回答“系统必须做什么”这个问题 确定对系统的综合要求 分析系统的数据要求 任何一个软件系统本质上都是信息处理系统 数据结构表示数据元素之间的逻辑关系。利用数据字典可以全面准确地定义数据,但是

    2024年01月17日
    浏览(50)
  • 线性代数复习公式整理(自用/持续更新)

    设A、B为n阶矩阵 ∣ A T ∣ = ∣ A ∣ left | A^T right | =left | A right | ​ A T ​ = ∣ A ∣ ∣ A m ∣ = ∣ A ∣ m left | A^m right | =left | A right | ^m ∣ A m ∣ = ∣ A ∣ m ∣ k A ∣ = k n ∣ A ∣ left | kA right | =k^nleft | A right | ∣ k A ∣ = k n ∣ A ∣ ∣ A B ∣ = ∣ A ∣ ∣ B ∣ left | AB right |

    2024年02月13日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包