谁能讲清楚Spark之Spark系统架构

9月前作者：数据咩分类：Toy博客阅读(35) 违法举报

这篇具有很好参考价值的文章主要介绍了谁能讲清楚Spark之Spark系统架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

### 整体架构概述
Spark与Hadoop MapReduce的结构类似，Spark也采用Master-Worker结构。如果一个Spark集群由4个节点组成，即1个Master节点和3个Worker节点，那么在部署Standalone版本后，Spark部署的系统架构图如图2.1所示。简单来说，Master节点负责管理应用和任务，Worker节点负责执行任务。

### 具体功能

我们接下来先介绍Master节点和Worker节点的具体功能，然后介绍一些Spark系统中的基本概念，以及一些实现细节。

1.Master节点和Worker节点的职责如下所述。

Master节点上常驻Master进程。该进程负责管理全部的Worker节点，如将Spark任务分配给Worker节点，收集Worker节点上任务的运行信息，监控Worker节点的存活状态等。
Worker节点上常驻Worker进程。该进程除了与Master节点通信，还负责管理Spark任务的执行，如启动Executor来执行具体的Spark任务，监控任务运行状态等。

2.执行顺讯

启动Spark集群时，Master节点上会启动Master进程，每个Worker节点上会启动Worker进程。启动Spark集群后，接下来可以提交Spark应用到集群中执行，Master节点接收到应用后首先会通知Worker节点启动Executor，然后分配Spark计算任务（task）到Executor上执行，Executor接收到task后，为每个task启动1个线程来执行。

3.这里有几个概念需要解释一下。

Spark application，即Sp文章来源地址https://www.toymoban.com/news/detail-651537.html

到了这里，关于谁能讲清楚Spark之Spark系统架构的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

视频地址：尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】尚硅谷大数据技术Spark教程-笔记03【SparkSQL(概述、核心编程、

2023年04月21日
浏览(48)
大数据之Spark架构设计与工作流程

Driver Program（驱动器）驱动器程序负责执行用户的主函数，创建 SparkContext 对象。它负责构建并优化 DAG（有向无环图），表示 RDD（弹性分布式数据集）操作的执行计划。驱动器还负责任务的调度，并与集群管理器（如 Hadoop YARN、Apache Mesos 或 Standalone 模式下的 Master 节点）进

2024年01月20日
浏览(103)
提高数据的安全性和可控性，数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路

在企业级应用中，数据的安全性和隐私保护是极其重要的。Spark 作为数栈底层计算引擎之一，必须确保数据只能被授权的人员访问，避免出现数据泄露和滥用的情况。为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性，数栈基于 Apache Ranger 实现了 Spark SQL 对数

2024年02月05日
浏览(59)
数据湖架构Hudi（二）Hudi版本0.12源码编译、Hudi集成spark、使用IDEA与spark对hudi表增删改查

Hadoop 3.1.3 Hive 3.1.2 Flink 1.13.6，scala-2.12 Spark 3.2.2，scala-2.12 2.1.1 环境准备 2.1.2 下载源码包 2.1.3 在pom文件中新增repository加速依赖下载在pom文件中修改依赖的组件版本： 2.1.4 修改源码兼容hadoop3并添加kafka依赖 Hudi默认依赖的hadoop2，要兼容hadoop3，除了修改版本，还需要修改如下代

2024年02月06日
浏览(57)
Spark（26）：Spark通讯架构

目录 0. 相关文章链接 1. Spark通信架构概述 2. Spark 通讯架构解析 Spark文章汇总 Spark 中通信框架的发展： Spark 早期版本中采用 Akka 作为内部通信部件。 Spark1.3 中引入 Netty 通信框架，为了解决 Shuffle 的大数据传输问题使用 Spark1.6 中 Akka 和 Netty 可以配置使用。 Netty 完全实现

2024年02月16日
浏览(36)
处理大数据的基础架构，OLTP和OLAP的区别，数据库与Hadoop、Spark、Hive和Flink大数据技术

2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开测开的话，你就得学数据库，sql，oracle，尤其sql要学，当然，像很多金融企业、安全机构啥的，他们必须要用oracle数据库这oracle比sql安全，强大多了，所以你需要学

2024年02月08日
浏览(61)
Spark学习(二)---Spark运行架构和核心概念

1.Spark运行架构 Spark框架的核心是一个计算引擎，它采用了master-slave的结构。图形中的 Driver 表示 master，负责管理整个集群中的作业任务调度。图形中的 Executor 则是 slave，负责实际执行任务。 1.1 核心组件由此可以得出，在Spark框架中有两个核心组件： 1.1.1 Driver Spark 驱动器

2024年02月13日
浏览(38)
HDFS常用操作以及使用Spark读取文件系统数据

掌握在Linux虚拟机中安装Hadoop和Spark的方法；熟悉HDFS的基本使用方法；掌握使用Spark访问本地文件和HDFS文件的方法。启动Hadoop，在HDFS中创建用户目录“/user/hadoop” 在Linux系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt，并在该文件中随便输入一些内容，

2024年04月22日
浏览(43)
大数据技术原理与应用实验6 Spark数据处理系统的搭建

熟悉常用的Spark操作。 1.熟悉Spark Shell的使用； 2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。操作系统：Linux Spark版本: 1.6 Hadoop版本: 3.3.0 JDK版本：1.8 使用Spark shell完成如下习题： a)读取Spark安装目录下的文件README.md（/usr/local/spark/README.md）； b)统计包含“Spark”的单词

2024年02月09日
浏览(62)
大数据编程实验一：HDFS常用操作和Spark读取文件系统数据

这是我们大数据专业开设的第二门课程——大数据编程，使用的参考书是《Spark编程基础》，这门课跟大数据技术基础是分开学习的，但这门课是用的我们自己在电脑上搭建的虚拟环境进行实验的，不是在那个平台上，而且搭建的还是伪分布式，这门课主要偏向于有关大数据

2024年04月10日
浏览(54)