关于Spark基本问题及结构[月薪2w的人都在看]

这篇具有很好参考价值的文章主要介绍了关于Spark基本问题及结构[月薪2w的人都在看]。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 

目录

 

1.Spark是什么?

2.Spark与Hadoop  Spark与MapReduce对比

Spark与Hadoop 优点                         

3. 什么是结构化数据? 什么是非结构化数据?

什么是结构化数据?

什么是非结构化数据?

4.Spark 架构作业执行原理

了解Spark架构

客户端

Driver

 SparkContext

 Cluster Manager

SparkWorker

Executor

Task

Standalone模式运行流程

yarn-cluster运行流程

了解Spark核心数据集RDD

分区的集合;

1.Spark是什么?

Spark的特点:Simple(易用性)、Fast(速度快)、Unified(通用性)、Scalable(兼容性)

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎

2.Spark与Hadoop  Spark与MapReduce对比

Spark与Hadoop 优点                         

(1).减少应用程序上传成本  (2). 增强任务并行度 (3).避免重新计算  (4).减少磁盘I/O

Spark与MapReduce对比

实用性方面:MapReduce不容易编程、不实用,而Spark有良好的API接口,方便对接编程,很实用;

特点方面:MapReduce初始实现分布式计算,而Spark实现分布式内存计算;

迭代运算方面:MapReduce几乎不能实现迭代运算,每次MR都要进行数据的重新读入和加载,而Spark可以将迭代数据集直接加载到内存处理,实现内存环境下的直接迭代运算;

容错性方面:MapReduce由HDFS分布式存储框架实现,而Spark内存数据集直接实现;

执行模型方面:MapReduce只能进行批处理,而Spark批处理、迭代处理、流处理均可;

支持的编程语言类型方面:MapReduce主要是Java,而Spark Java、Scala、Python、R等。

3. 什么是结构化数据? 什么是非结构化数据?

什么是结构化数据?

结构化数据是指按照预定义的模型结构化或以预定义的方式组织的数据。根据谷歌表示,“结构化数据是一种标准化的格式,用于提供关于页面的信息并对页面内容进行分类。”结构化查询语言(SQL)用于管理关系数据库中的结构化数据。这种语言最初被称为SEQUEL,是由IBM的Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期开发的。

用户只需对主题有基本的了解,就可以轻松地访问和解释结构化数据。例如,结构化数据的特定架构简化了机器学习(ML)算法的操作和查询。例如,在搜索引擎优化(SEO)中,结构化数据是帮助搜索引擎理解如何解释和显示内容的标记。

结构化数据通常存储在关系数据库管理系统(RDBMS)中。具有结构化数据的关系数据库的常见应用程序包括ATM活动、航空公司预订系统和销售事务。此外,保护结构化数据的方法很容易获得和理解。数据库提供了访问控制工具和技术来提高结构化数据的安全性。

什么是非结构化数据?

非结构化数据指的是既没有按照预定义的数据模型进行结构化,也没有按照预定义的方式组织的数据。这种类型的数据可以是人生成的,也可以是机器生成的,并且具有内部结构。非结构化数据可能包括文档、书籍、元数据、健康记录、图像、音频、视频、文件、电子邮件消息、网页等。

有几种方法可以存放非结构化数据,比如数据湖、NOSQL数据库和数据仓库。

21世纪后期,大数据的出现使得人们对非结构化数据在根本原因分析和预测分析等领域的应用产生了浓厚的兴趣。《计算机世界》(Computerworld) 2011年的一份有先见之明的报告显示,到2021年,组织中90%以上的数据可能是非结构化的。事实上,IDC和希捷预测,到2025年,全球数据空间将增长到175.8 zettabytes,而2015年的增长率约为26%,这些数据中的大部分是非结构化数据。

根据2013年IEEE的一份报告,有几种方法可以存放非结构化数据,比如数据湖、NoSQL数据库(非关系型)和数据仓库。随着这一领域的增长,已经开发了许多工具和平台,特别是用于非结构化数据的使用、管理、存储和保护,例如Amazon DynamoDB、MonkeyLearn和MongoDB Atlas。

4.Spark 架构作业执行原理

了解Spark架构

关于Spark基本问题及结构[月薪2w的人都在看],spark,大数据,分布式

客户端

用户提交作业的客户端。

Driver

运行Application的main()函数并创建SparkContext。

 SparkContext

整个应用的上下文,控制应用的生命周期。

 Cluster Manager

资源管理器,即在集群上获取资源的外部服务,目前主要有Standalone(Spark原生的资源管理器)和YARN(Hadoop集群的资源管理器)。

SparkWorker

集群中任何可以运行应用程序的节点,运行一个或多个Executor进程。

Executor

执行器,在Spark Worker上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executor。

Task

被发送到某个Executor的具体任务。

Standalone模式运行流程

关于Spark基本问题及结构[月薪2w的人都在看],spark,大数据,分布式

yarn-cluster运行流程

关于Spark基本问题及结构[月薪2w的人都在看],spark,大数据,分布式

关于Spark基本问题及结构[月薪2w的人都在看],spark,大数据,分布式

5.了解Spark核心数据集RDD

RDD(Resilient Distributed Datasets弹性分布式数据集),可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。

每个 RDD 都有如下几个成员:

 分区的集合;

 用来基于分区进行计算的函数(算子);

 依赖(与其他 RDD)的集合;

 对于键-值型的 RDD 的散列分区器(可选);

 对于用来计算出每个分区的地址集合(可选,如 HDFS 上的块存储的地址)文章来源地址https://www.toymoban.com/news/detail-839861.html

到了这里,关于关于Spark基本问题及结构[月薪2w的人都在看]的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 98%的人都不会使用这6种地图可视化方法,学会直接涨薪5K

    地图作为图表可视化中 存在感最强、效果最酷炫 的一种图表形式,一直深受报表制作者的青睐。可以说,有无地图,会直接影响到大家对报表是否 有档次 的直观感受。 譬如下面两张图: 图一 图二 哪张图更能吸引人的注意力,一目了然。同样是传递信息,图二却显得有些

    2024年02月12日
    浏览(47)
  • AI 辅助编程工具,会编程和不会编程的人都需要!附Cursor 保姆级使用教程

      我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」。 自 AI 技术被应用到辅助编程工具中后,编程的门槛被大幅降低,会编程和不会编程的人都需要得接触一下来提高自己的日常生产力! 程序员群体 可以通过 AI 编程助手大幅提高自己的工作效率,编写重复且低效的代

    2024年02月06日
    浏览(66)
  • 关于hive on spark部署后insert报错Error code 30041问题

    ERROR : FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.      Spark没有启动;      需在/opt/module/spark路径下输入以下内容启动spark: Spark与hive的版本不一致造成的问题(这里我找到了部分spark和hive对应的版本):      注意:官网下载的 Hive 3.1.2 和

    2024年02月02日
    浏览(52)
  • 解决出现找不到bink2w32.dll无法运行游戏的问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或者损坏了,这时你只需下载这个bink2w32.dll文件进行安装(前提是找到适合的版本),当我们执行

    2024年02月05日
    浏览(87)
  • 数据结构实验---顺序表的合并---链表的基本操作---重点解析约瑟夫问题

    实验的写法多种多样,但本文并未采用 #define 定义容量的写法,这样写已经是很老旧过时的写法。所有实验主体采用均为动态开辟,后续如果利用 C++ 来写或许会应用更多语法… 本篇展示数据结构的两个实验 其中,重点分析约瑟夫问题 实验中代码的命名风格等均与下方博客

    2024年02月16日
    浏览(62)
  • PLC有没有前途,作为从电气工程行业转行出来的人简单说几个问题

    1,如果年轻可以试试,如果年纪大了最好不要,国内的企业这个行业加班很多的。刚毕业可以混个10年左右,后面就很难了。最好根据自己的年级看是否转这个行业。 2,如果为了高一点的工资,养家糊口,也可以选着plc,这个行业工资一般,但是如果工程师等级上来,后面

    2024年02月07日
    浏览(127)
  • C语言---数据结构实验---顺序表的合并---链表的基本操作---重点解析约瑟夫问题

    实验的写法多种多样,但本文并未采用 #define 定义容量的写法,这样写已经是很老旧过时的写法。所有实验主体采用均为动态开辟,后续如果利用 C++ 来写或许会应用更多语法… 本篇展示数据结构的两个实验 其中,重点分析约瑟夫问题 实验中代码的命名风格等均与下方博客

    2024年02月16日
    浏览(70)
  • [机器学习、Spark]Spark MLlib实现数据基本统计

    👨‍🎓👨‍🎓博主:发量不足 📑📑本期更新内容: Spark MLlib基本统计 📑📑下篇文章预告:Spark MLlib的分类🔥🔥 简介:耐心,自信来源于你强大的思想和知识基础!!   目录 Spark MLlib基本统计 一.摘要统计 二.相关统计 三.分层抽样   MLlib提供了很多统计方法,包含

    2024年02月02日
    浏览(48)
  • Spark基本介绍

    目录 Spark是什么 一、Spark与MapReduce对比区别 二、Spark的发展 三、Spark的特点 四、Spark框架模块         Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎,是一个分布式计算框架。 Spark中新的数据结构RDD(弹性分布式数据集),使得大数据分析能够

    2024年02月05日
    浏览(32)
  • Spark(一): 基本架构及原理

    前言:  目标: 架构及生态: Spark与hadoop:  运行流程及特点: 常用术语: Spark运行模式: RDD运行流程: Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等

    2024年01月21日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包