Spark-RDD的依赖

10月前作者：中长跑路上crush 分类：Toy博客阅读(44) 违法举报

这篇具有很好参考价值的文章主要介绍了Spark-RDD的依赖。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

RDD的依赖

rdd之间是有依赖关系

窄依赖
- 每个父RDD的一个Partition最多被子RDD的一个Partition所使用
- 父rdd和子rdd的分区是一对一
  - map
  - flatMap
  - fliter
宽依赖
- 父RDD的Partition会被多个子RDD的Partition所使用
- 父rdd和子rdd的分区是一对多
  - grouBy()
  - grouByKey()
  - sortBy()
  - sortByKey()
  - reduceBykey()
  - distinct()

rdd1 --> rdd2 -->rdd3

Spark中有DAG管理依赖关系
- DAG叫做有向无环图，是一个图计算算法。
- 管理rdd依赖关系，保证rdd按照依赖关系进行数据的顺序计算
- 会根据rdd的依赖关系将计算过程分成多个计算步骤，每个计算步骤称为一个stage
- 在计算的rdd依赖关系中，一旦发生了宽依赖，就会进行步骤拆分
日志查看依赖关系和计算流程

服务启动： /export/server/spark/sbin/start-history-server.sh

程序运行期间查看 4040端口交互式开发

程序运行结束后查看 18080端口文章来源地址https://www.toymoban.com/news/detail-812877.html
- APP 是计算应用程序
  - job 计算任务（执行算子触发计算任务）
    - DAG 管理依赖关系
      - stage 计算步骤的划分
        task线程完成该步骤下方法计算

到了这里，关于Spark-RDD的依赖的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spark-RDD详解

RDD 弹性分布式数据集合是Spark中的一种数据类型，管理spark的内存数据 [1,2,3,4] spark中还有dataframe，dataset类型拓展：开发中可以通过类的形式自定以数据类型同时还提供各种计算方法弹性可以对海量数据根据需求分成多份（分区），每一份数据会有对应的task线程执行计算

2024年01月22日
浏览(82)
Spark弹性分布式数据集

1. Spark RDD是什么 RDD（Resilient Distributed Dataset，弹性分布式数据集）是一个不可变的分布式对象集合，是Spark中最基本的数据抽象。在代码中RDD是一个抽象类，代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。每个RDD都被分为多个分区，这些分区运行在集群中

2024年02月13日
浏览(60)
大数据学习06-Spark分布式集群部署

配置好IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 修改主机名 vi /etc/hostname 做好IP映射 vim /etc/hosts 关闭防火墙 systemctl status firewalld systemctl stop firewalld systemctl disable firewalld 配置SSH免密登录 ssh-keygen -t rsa 下载Scala安装包配置环境变量添加如下配置使环境生效验证 Spark官网解压上

2024年02月10日
浏览(70)
大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

前言：七八九用于Spark的编程实验大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析目录实验环境：实验步骤：一、解压二、配置环境变量：三、修改配置文件 1.修改spark-env.sh配置文件： 2.修改配置文件slaves: 3.分发配置文件：

2024年02月11日
浏览(54)
云计算与大数据第16章分布式内存计算平台Spark习题

1、Spark是Hadoop生态（ B ）组件的替代方案。 A. Hadoop B. MapReduce C. Yarn D．HDFS 2、以下（ D ）不是Spark的主要组件。 A. Driver B. SparkContext C. ClusterManager D. ResourceManager 3、Spark中的Executor是（ A ）。 A．执行器 B．主节

2024年02月14日
浏览(119)
分布式计算中的大数据处理:Hadoop与Spark的性能优化

大数据处理是现代计算机科学的一个重要领域，它涉及到处理海量数据的技术和方法。随着互联网的发展，数据的规模不断增长，传统的计算方法已经无法满足需求。因此，分布式计算技术逐渐成为了主流。 Hadoop和Spark是目前最为流行的分布式计算框架之一，它们都提供了高

2024年01月23日
浏览(57)
分布式计算框架：Spark、Dask、Ray 分布式计算哪家强：Spark、Dask、Ray

目录什么是分布式计算分布式计算哪家强：Spark、Dask、Ray 2 选择正确的框架 2.1 Spark 2.2 Dask 2.3 Ray 分布式计算是一种计算方法，和集中式计算是相对的。随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成

2024年02月11日
浏览(70)
数据存储和分布式计算的实际应用：如何使用Spark和Flink进行数据处理和分析

作为一名人工智能专家，程序员和软件架构师，我经常涉及到数据处理和分析。在当前大数据和云计算的时代，分布式计算已经成为了一个重要的技术方向。Spark和Flink是当前比较流行的分布式计算框架，它们提供了强大的分布式计算和数据分析功能，为数据处理和分析提供了

2024年02月16日
浏览(62)
Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建

搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联，都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话，所有配置文件添加的内容后面的注释记得删除，可能会报错。保险一点删除最好。上传安装包解压并重命名 rz上传如果没有安装rz可以使用命

2024年02月06日
浏览(83)
【Spark分布式内存计算框架——Spark 基础环境】1. Spark框架概述

第一章说明整个Spark 框架分为如下7个部分，总的来说分为Spark 基础环境、Spark 离线分析和Spark实时分析三个大的方面，如下图所示：第一方面、Spark 基础环境主要讲述Spark框架安装部署及开发运行，如何在本地模式和集群模式运行，使用spark-shell及IDEA开发应用程序，测试及

2024年02月11日
浏览(67)