了解hive on spark和spark on hive

1年前作者：玩数据的小彬分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了了解hive on spark和spark on hive。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大数据刚出来的时候，并不是很完善。发展的不是很快，尤其是在计算服务上，当时使用的是第一代mr计算引擎，相对来说计算并不是那么快。让大数据快速发展的是2009年伯克利大学诞生的spark，并在2013年成为Aparch的顶级开源项目。使大数据发展比较迅速、但是随着spark的快速发展，对于不太会用spark的或者一直用hiveSql的程序员，但是又想使用spark。提出hive添加spark作为第三个后端

spark on hive,hive,spark,大数据,hadoop

在这个概念上就衍生了两种模式，一种是hive on spark，另外一种是spark on hive。我们来谈谈这两种模式是怎样实现的。

hive on spark

hive on spark 在执行过程中，与hive直接执行的时候除了计算引擎由原先mr引擎更换为spark引擎外，其余的与hive是一致的，存储、sql解析等都是由hive负责的。

spark on hive

spark on hive 在执行中，也是使用spark引擎，但是与hive on spark不同的是，spark on hive是除了利用hive做存储，其他都是在spark上完成的，例如：解析sql是利用spark进行解析的，然后放在spark上执行，其底层本质是rdd的形式。

结论

综上所述，其实不管是hive on spark还是spark on hive 都是使用的spark引擎执行。只是在解析优化时使用的不同的方式。

参考文档：https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark

https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started文章来源地址https://www.toymoban.com/news/detail-628615.html

到了这里，关于了解hive on spark和spark on hive的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

利用Hadoop处理离线数据：Hive和Spark离线数据处理实现
作者：禅与计算机程序设计艺术引言随着大数据时代的到来，越来越多的数据产生于各种业务系统。这些数据往往需要在离线环境中进行处理，以降低数据处理的时间和成本。Hadoop作为目前最为流行的分布式计算框架，提供了强大的离线数据处理能力。Hive和Spark作为Hadoop生
2024年02月11日
浏览(20)
hive on spark hql 插入数据报错 Failed to create Spark client for Spark session Error code 30041
离线数仓 hive on spark 模式，hive 客户端 sql 插入数据报错 Failed to execute spark task, with exception \\\'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 50cec71c-2636-4d99-8de2-a580ae3f1c58)\\\' FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed t
2024年02月14日
浏览(10)
大数据毕业设计选题推荐-收视点播数据分析-Hadoop-Spark-Hive
✨ 作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐 ⬇⬇⬇ Java项目 Python项目安卓项目微信小程序项目
2024年02月05日
浏览(11)
大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别
Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。它提供了一个可扩展的分布式文件系统（HDFS）和一个分布式计算框架（MapReduce），可以在大量廉价硬件上进行并行计算。 HDFS（Hadoop Distributed File System）是Hadoop的分布式文件系统。它被设计用于在集群中存储
2024年02月16日
浏览(53)
构建大数据环境：Hadoop、MySQL、Hive、Scala和Spark的安装与配置
在当今的数据驱动时代，构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark，以搭建一个完整的大数据环境。安装Hadoop 首先，从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版，下
2024年02月11日
浏览(13)
大数据毕业设计选题推荐-热门旅游景点数据分析-Hadoop-Spark-Hive
✨ 作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐 ⬇⬇⬇ Java项目 Python项目安卓项目微信小程序项目
2024年02月05日
浏览(10)
大数据毕业设计选题推荐-旅游景点游客数据分析-Hadoop-Spark-Hive
✨ 作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐 ⬇⬇⬇ Java项目 Python项目安卓项目微信小程序
2024年02月05日
浏览(7)
大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）
一.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的核心是yarn、HDFS和Mapreduce。yarn是资源管理系统，实现资源调度，yarn是Hadoop2.0中的资源管理系统，总体上是master/slave结构。对于yarn可以粗浅将其理解
2024年02月20日
浏览(12)
大数据毕业设计选题推荐-自媒体舆情分析平台-Hadoop-Spark-Hive
✨ 作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐 ⬇⬇⬇ Java项目 Python项目安卓项目微信小程序
2024年02月05日
浏览(11)
大数据平台安装实验: ZooKeeper、Kafka、Hadoop、Hbase、Hive、Scala、Spark、Storm
在大数据时代，存在很多开源的分布式数据采集、计算、存储技术，本实验将在熟练掌握几种常见Linux命令的基础上搭建几种常用的大数据采集、处理分析技术环境。相关安装包下载：链接：https://pan.baidu.com/s/1Wa2U3qstc54IAUCypcApSQ 提取码：lcd8 Hadoop大数据平台所需工具、软件
2023年04月09日
浏览(16)