1、Spark SQL 概述

9月前作者：Wzideng 分类：Toy博客阅读(41) 违法举报

这篇具有很好参考价值的文章主要介绍了1、Spark SQL 概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1、Spark SQL 概述

Spark SQL概念

Spark SQL is Apache Spark’s module for working with structured data.
- 它是spark中用于处理结构化数据的一个模块

Spark SQL历史

Hive是目前大数据领域，事实上的数据仓库标准。

1、Spark SQL 概述,# spark,# hive,spark,sql,大数据

Shark：shark底层使用spark的基于内存的计算模型，从而让性能比Hive提升了数倍到上百倍。
底层很多东西还是依赖于Hive，修改了内存管理、物理计划、执行三个模块
2014年6月1日的时候，Spark宣布了不再开发Shark，全面转向Spark SQL的开发

Spark SQL优势

Write Less Code

1、Spark SQL 概述,# spark,# hive,spark,sql,大数据

Performance

1、Spark SQL 概述,# spark,# hive,spark,sql,大数据

python操作RDD，转换为可执行代码，运行在java虚拟机，涉及两个不同语言引擎之间的切换，进行进程间通信很耗费性能。

DataFrame

是RDD为基础的分布式数据集，类似于传统关系型数据库的二维表，dataframe记录了对应列的名称和类型
dataFrame引入schema和off-heap(使用操作系统层面上的内存)
- 1、解决了RDD的缺点
- 序列化和反序列化开销大
- 频繁的创建和销毁对象造成大量的GC
- 2、丢失了RDD的优点
- RDD编译时进行类型检查
- RDD具有面向对象编程的特性

用scala编写的RDD比Spark SQL编写转换的RDD慢，涉及到执行计划

CatalystOptimizer：Catalyst优化器
ProjectTungsten：钨丝计划，为了提高RDD的效率而制定的计划
Code gen：代码生成器

1、Spark SQL 概述,# spark,# hive,spark,sql,大数据

直接编写RDD也可以自实现优化代码，但是远不及SparkSQL前面的优化操作后转换的RDD效率高，快1倍左右

优化引擎：类似mysql等关系型数据库基于成本的优化器

首先执行逻辑执行计划，然后转换为物理执行计划(选择成本最小的)，通过Code Generation最终生成为RDD

Language-independent API

用任何语言编写生成的RDD都一样，而使用spark-core编写的RDD，不同的语言生成不同的RDD

Schema

结构化数据，可以直接看出数据的详情

在RDD中无法看出，解释性不强，无法告诉引擎信息，没法详细优化。

**为什么要学习sparksql **

sparksql特性文章来源地址https://www.toymoban.com/news/detail-638853.html

1、易整合
2、统一的数据源访问
3、兼容hive
4、提供了标准的数据库连接（jdbc/odbc）

到了这里，关于1、Spark SQL 概述的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

hive sql 和 spark sql的区别

Hive SQL 和 Spark SQL 都是用于在大数据环境中处理结构化数据的工具，但它们有一些关键的区别：底层计算引擎： Hive SQL：Hive 是建立在 Hadoop 生态系统之上的，使用 MapReduce 作为底层计算引擎。因此，它的执行速度可能相对较慢，尤其是对于复杂的查询。 Spark SQL：Spark SQL 则建

2024年01月20日
浏览(40)
Spark on Hive及 Spark SQL的运行机制

代码中集成Hive： Spark SQL底层依然运行的是Spark RDD的程序，所以说Spark RDD程序的运行的流程，在Spark SQL中依然是存在的，只不过在这个流程的基础上增加了从SQL翻译为RDD的过程 Spark SQL的运行机制，其实就是在描述如何将Spark SQL翻译为RDD程序 Catalyst内部具体的执行流程：专业术

2024年01月23日
浏览(50)
Spark SQL实战(08)-整合Hive

Apache Spark 是一个快速、可扩展的分布式计算引擎，而 Hive 则是一个数据仓库工具，它提供了数据存储和查询功能。在 Spark 中使用 Hive 可以提高数据处理和查询的效率。场景历史原因积累下来的，很多数据原先是采用Hive来进行处理的，现想改用Spark操作数据，须要求Spark能够

2023年04月15日
浏览(92)
在 spark-sql / spark-shell / hive / beeline 中粘贴 sql、程序脚本时的常见错误

《大数据平台架构与原型实现：数据中台建设实战》一书由博主历时三年精心创作，现已通过知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描

2024年02月14日
浏览(36)
Spark-SQL连接Hive的五种方法

若使用Spark内嵌的Hive，直接使用即可，什么都不需要做（在实际生产活动中，很少会使用这一模式）步骤：将Hive中conf/下的hive-site.xml拷贝到Spark的conf/目录下；把Mysql的驱动copy到jars/目录下；如果访问不到hdfs，则将core-site.xml和hdfs-site.xml拷贝到conf/目录下；重启spark-shell；

2024年02月16日
浏览(44)
Spark On Hive配置测试及分布式SQL ThriftServer配置

Spark本身是一个执行引擎，而没有管理metadate的能力，当我们在执行SQL的时候只能将SQL转化为RDD提交。而对于一些数据中的元数据Spark并不知道，而Spark能写SQL主要是通过DataFrame进行注册的。这时候我们就可以借助Hive中的MetaStore进行元数据管理。也就是说把Hive中的metastore服务

2024年01月21日
浏览(46)
superset连接Apache Spark SQL（hive）过程中的各种报错解决

我的博客原文：superset连接Apache Spark SQL（hive）过程中的各种报错解决我们用的是Apache Spark SQL，所以首先需要安装下pyhive Apache Spark SQL连接的格式安装包下载完成，可以测试是否可以连接hive了。因为驱动不匹配导致的，返回重新下载依赖包连接数据库的时候一直报无法连

2024年04月14日
浏览(36)
【SparkSQL】SparkSQL的运行流程 & Spark On Hive & 分布式SQL执行引擎

【大家好，我是爱干饭的猿，本文重点介绍、SparkSQL的运行流程、 SparkSQL的自动优化、Catalyst优化器、SparkSQL的执行流程、Spark On Hive原理配置、分布式SQL执行引擎概念、代码JDBC连接。后续会继续分享其他重要知识点总结，如果喜欢这篇文章，点个赞👍，关注一下吧】上一篇

2024年02月04日
浏览(48)
spark SQL 怎么将一个时间戳字符串转换成hive支持的时间日期类型？

在 Spark SQL 中，可以使用 to_timestamp 函数将一个时间戳字符串转换成 Hive 支持的时间日期类型。这个函数的语法如下：其中，timestampStr 表示要转换的时间戳字符串，format 表示时间戳字符串的格式，格式必须与时间戳字符串的实际格式相匹配。如果不指定格式，Spark 会使用默认

2024年02月11日
浏览(49)
Spark【Spark SQL（二）RDD转换DataFrame、Spark SQL读写数据库】

Saprk 提供了两种方法来实现从 RDD 转换得到 DataFrame：利用反射机制推断 RDD 模式使用编程方式定义 RDD 模式下面使用到的数据 people.txt ：在利用反射机制推断 RDD 模式的过程时，需要先定义一个 case 类，因为只有 case 类才能被 Spark 隐式地转换为DataFrame对象。注意

2024年02月09日
浏览(54)