关于Spark基本问题及结构[月薪2w的人都在看]-Toy模板网

这篇具有很好参考价值的文章主要介绍了关于Spark基本问题及结构[月薪2w的人都在看]。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.Spark是什么？

2.Spark与Hadoop Spark与MapReduce对比

Spark与Hadoop 优点

3. 什么是结构化数据? 什么是非结构化数据?

什么是结构化数据?

什么是非结构化数据?

4.Spark 架构作业执行原理

了解Spark架构

客户端

Driver

SparkContext

Cluster Manager

SparkWorker

Executor

Task

Standalone模式运行流程

yarn-cluster运行流程

了解Spark核心数据集RDD

分区的集合；

1.Spark是什么？

Spark的特点：Simple（易用性）、Fast（速度快）、Unified（通用性）、Scalable（兼容性）

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎

2.Spark与Hadoop Spark与MapReduce对比

Spark与Hadoop 优点

（1）.减少应用程序上传成本（2）. 增强任务并行度（3）.避免重新计算（4）.减少磁盘I/O

Spark与MapReduce对比

实用性方面:MapReduce不容易编程、不实用,而Spark有良好的API接口,方便对接编程,很实用;

特点方面:MapReduce初始实现分布式计算,而Spark实现分布式内存计算;

迭代运算方面:MapReduce几乎不能实现迭代运算,每次MR都要进行数据的重新读入和加载,而Spark可以将迭代数据集直接加载到内存处理,实现内存环境下的直接迭代运算;

容错性方面:MapReduce由HDFS分布式存储框架实现,而Spark内存数据集直接实现;

执行模型方面:MapReduce只能进行批处理,而Spark批处理、迭代处理、流处理均可;

支持的编程语言类型方面:MapReduce主要是Java,而Spark Java、Scala、Python、R等。

3. 什么是结构化数据? 什么是非结构化数据?

什么是结构化数据?

结构化数据是指按照预定义的模型结构化或以预定义的方式组织的数据。根据谷歌表示，“结构化数据是一种标准化的格式，用于提供关于页面的信息并对页面内容进行分类。”结构化查询语言(SQL)用于管理关系数据库中的结构化数据。这种语言最初被称为SEQUEL，是由IBM的Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期开发的。

用户只需对主题有基本的了解，就可以轻松地访问和解释结构化数据。例如，结构化数据的特定架构简化了机器学习(ML)算法的操作和查询。例如，在搜索引擎优化(SEO)中，结构化数据是帮助搜索引擎理解如何解释和显示内容的标记。

结构化数据通常存储在关系数据库管理系统(RDBMS)中。具有结构化数据的关系数据库的常见应用程序包括ATM活动、航空公司预订系统和销售事务。此外，保护结构化数据的方法很容易获得和理解。数据库提供了访问控制工具和技术来提高结构化数据的安全性。

什么是非结构化数据?

非结构化数据指的是既没有按照预定义的数据模型进行结构化，也没有按照预定义的方式组织的数据。这种类型的数据可以是人生成的，也可以是机器生成的，并且具有内部结构。非结构化数据可能包括文档、书籍、元数据、健康记录、图像、音频、视频、文件、电子邮件消息、网页等。

有几种方法可以存放非结构化数据，比如数据湖、NOSQL数据库和数据仓库。

21世纪后期，大数据的出现使得人们对非结构化数据在根本原因分析和预测分析等领域的应用产生了浓厚的兴趣。《计算机世界》(Computerworld) 2011年的一份有先见之明的报告显示，到2021年，组织中90%以上的数据可能是非结构化的。事实上，IDC和希捷预测，到2025年，全球数据空间将增长到175.8 zettabytes，而2015年的增长率约为26%，这些数据中的大部分是非结构化数据。

根据2013年IEEE的一份报告，有几种方法可以存放非结构化数据，比如数据湖、NoSQL数据库(非关系型)和数据仓库。随着这一领域的增长，已经开发了许多工具和平台，特别是用于非结构化数据的使用、管理、存储和保护，例如Amazon DynamoDB、MonkeyLearn和MongoDB Atlas。