spark on hive

1年前作者：！@123分类：Toy博客阅读(9)违法举报

这篇具有很好参考价值的文章主要介绍了spark on hive。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

注意：需要提前搭建好hive，并对hive进行配置。并将spark配置成为spark on yarn模式。

1、将hive的配置文件添加到spark的目录下

cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf

2、开启hive的hivemetastore服务

提前创建好启动日志存放路径

mkdir $HIVE_HOME/logStart

nohup /usr/local/lib/apache-hive-3.1.3-bin/bin/hive --service metastore  > logStart/hivemetastore.log 2>&1 &

3、开启spark的thriftserver服务，运行端口为1000

cd $SPARK_HOME/sbin
start-thriftserver.sh

注意：其实还是hive的thirftserver服务，同时还需要启动spark集群

4、远程连接thirftserver服务

连接thirftserver服务后，就可以使用hive的元数据（hive在hdfs中的数据库和表），并且将spark作为分析引擎，来执行hivesql了。
那我自己集群的数据做例子：

show databases ;
use clickhouse;

spark on hive,大数据,spark,hive,大数据文章来源地址https://www.toymoban.com/news/detail-727685.html

到了这里，关于spark on hive的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

SparkSQL与Hive整合(Spark On Hive）
hive metastore元数据服务用来存储元数据，所谓元数据，即hive中库、表、字段、字段所属表、表所属库、表的数据所在目录及数据分区信息。元数据默认存储在hive自带的Derby数据库。在内嵌模式和本地模式下，metastore嵌入在主hive server进程中。但在远程模式下，metastore 和 hive
2024年02月12日
浏览(12)
hive on spark内存模型
hive on spark的调优,那必然涉及到这一系列框架的内存模型。本章就是来讲一下这些框架的内存模型。 hive on spark的任务，从开始到结束。总共涉及了3个框架。分别是：yarn、hive、spark 其中，hive只是一个客户端的角色。就不涉及任务运行时的内存。所以这里主要讲的yarn和spark的
2024年04月16日
浏览(7)
Hive on Spark环境搭建
Hive 引擎包括：默认 MR、tez、spark 最底层的引擎就是MR （Mapreduce）无需配置，Hive运行自带 Hive on Spark：Hive 既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用 RDD 执行。 Spark on Hive : Hive 只作为存储元数据，Spark 负责 SQL 解析优化，语
2024年02月13日
浏览(8)
Spark On Hive原理和配置
目录一、Spark On Hive原理（1）为什么要让Spark On Hive？二、MySQL安装配置（root用户）（1）安装MySQL （2）启动MySQL设置开机启动（3）修改MySQL密码三、Hive安装配置（1）修改Hadoop的core-site.xml （2）创建hive-site.xml
2024年02月08日
浏览(9)
Spark on Hive及 Spark SQL的运行机制
代码中集成Hive： Spark SQL底层依然运行的是Spark RDD的程序，所以说Spark RDD程序的运行的流程，在Spark SQL中依然是存在的，只不过在这个流程的基础上增加了从SQL翻译为RDD的过程 Spark SQL的运行机制，其实就是在描述如何将Spark SQL翻译为RDD程序 Catalyst内部具体的执行流程：专业术
2024年01月23日
浏览(7)
hive on spark亲自编译，详细教程
hive 2.3.6 spark 2.0.0版本 hadoop-2.7.6版本操作流程： hadoop-2.7.6 1、安装hadoop不说了。简单。 spark-2.0.0 2、下载spark-2.0.0的源码. https://archive.apache.org/dist/spark/spark-2.1.0/ 这个下载spark各个版本。 3、编译spark源码执行编译操作: 当前目录下面会多一个tgz的安装包。需要把这个文件拷贝的
2024年02月16日
浏览(18)
hive修改spark版本重新编译，hive3.1.3 on spark3.3.0
我的是hive3.1.3 spark3.3.0（请先将自己的 hive on mr 搭建完场，有简单了解在搞这个） 1.下载hive源码 2. maven编译：mvn clean -DskipTests package -Pdist （idea 编译不行，能行的评论告诉我）右键 - Git Bash idea打开项目，右键pom 添加成maven项目修改pom中自己所需依赖的版本
2023年04月21日
浏览(10)
Hive3 on Spark3配置
大数据组件版本 Hive 3.1.2 Spark spark-3.0.0-bin-hadoop3.2 OS 版本 MacOS Monterey 12.1 Linux - CentOS 7.6 1）Hive on Spark说明 Hive引擎包括：默认 mr 、 spark 、 Tez 。 Hive on Spark ：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。 Spark on Hive :
2024年02月04日
浏览(7)
hive on spark小文件问题【hive.merge.sparkfiles参数不生效】
我也是查看了我们目前集群的版本是spark是3.2.3版本 hive是3.1.3版本，都是比较新的版本，正常是支持这个参数的在测试环境中，如果在sql中不使用group by函数其实可以可以生效的找原因，找问题最后定位到生产上缺少这个包：hive-exec-3.1.3.jar hadoop fs -put /usr/lib/hive/lib/hive-exe
2024年02月13日
浏览(15)
Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决
前言：本篇文章在已经安装 Hadoop 3.3.4 与 Hive 3.1.3 版本的基础上进行，与笔者版本不一致也没有关系，按照步骤来就行了。如果你不想使用低版本的 Spark(例如： Spark 2.x 系列)，请直接跳转到本文目录【重编译源码】。详情查看我的这篇博客：Hadoop 完全分布式搭建（超详细）
2024年02月07日
浏览(10)