Hive3第六章:更换引擎

这篇具有很好参考价值的文章主要介绍了Hive3第六章:更换引擎。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

系列文章目录

Hive3第一章:环境安装
Hive3第二章:简单交互
Hive3第三章:DML数据操作
Hive3第三章:DML数据操作(二)
Hive3第四章:分区表和分桶表
Hive3第五章:函数
Hive3第六章:更换引擎



前言

这个博客主要是作为数仓项目的一次补充,主要是更换hive引擎,传统的MR引擎在hive2之后就不推荐了,我们这次更换spark引擎,使用hive on yarn。


一、更换hive

Hive3第六章:更换引擎,线上问诊,hive,hive
通过官方的版本依赖,现在的hive是不支持spark3的,所以我们需要重新编译,可以使用idea打开源码,然后修改pom.xml中的spark和scala版本,考虑到各种问题,这里就不专门演示了。博主能力有限,没成功。具体文件可以去尚硅谷的线上问诊的离线数仓的项目里下载一个。

二、安装hive

先正常安装hive
hive安装

三、更换引擎

1.部署Spark纯净版

下载地址spark-3.3.1-bin-without-hadoop.tgz
上传并解压
Hive3第六章:更换引擎,线上问诊,hive,hive

2.修改配置文件

mv spark-env.sh.template spark-env.sh
vim /opt/module/spark/conf/spark-env.sh
Hive3第六章:更换引擎,线上问诊,hive,hive
最底下加一行。

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

sudo vim /etc/profile.d/my_env.sh

# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin

source 一下

source /etc/profile.d/my_env.sh

vim /opt/module/hive/conf/spark-defaults.conf

spark.master                               yarn
spark.eventLog.enabled                   true
spark.eventLog.dir                        hdfs://hadoop102:8020/spark-history
spark.executor.memory                    1g
spark.driver.memory					     1g

vim /opt/module/hive/conf/hive-site.xml

<!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
<property>
    <name>spark.yarn.jars</name>
    <value>hdfs://hadoop102:8020/spark-jars/*</value>
</property>
  
<!--Hive执行引擎-->
<property>
    <name>hive.execution.engine</name>
    <value>spark</value>
</property>

3.HDFS创建目录

hadoop fs -mkdir /spark-jars
hadoop fs -mkdir /spark-history

4.上传jar包

hadoop fs -put /opt/module/spark/jars/* /spark-jars

5.hive测试

create table student(id int, name string);
insert into table student values(1,'abc');

由于第一次调用会调用spark的jar包,所以第一次时间会长一点。
Hive3第六章:更换引擎,线上问诊,hive,hive
再插入一条
insert into table student values(2,‘abcd’);
Hive3第六章:更换引擎,线上问诊,hive,hive
到此引擎更换完成。


总结

hive更换引擎是数仓学习中很通用的,所以这里单拎出来简单说一下。文章来源地址https://www.toymoban.com/news/detail-682356.html

到了这里,关于Hive3第六章:更换引擎的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hive3.1.3安装及部署

    目录 1 下载地址 2 安装部署 2.1 安装Hive 2.2 启动并使用Hive 2.3 MySQL安装 2.3.1 安装MySQL 2.3.2 配置MySQL 2.3.3 卸载MySQL说明 2.4 配置Hive元数据存储到MySQL 2.4.1 配置元数据到MySQL 2.4.2 验证元数据是否配置成功 2.4.3 查看MySQL中的元数据 2.5 Hive服务部署 2.5.1 hiveserver2服务  2.5.2 metastore服务

    2024年02月09日
    浏览(40)
  • Hive3 on Spark3配置

    大数据组件 版本 Hive 3.1.2 Spark spark-3.0.0-bin-hadoop3.2 OS 版本 MacOS Monterey 12.1 Linux - CentOS 7.6 1)Hive on Spark说明 Hive引擎包括:默认 mr 、 spark 、 Tez 。 Hive on Spark :Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。 Spark on Hive :

    2024年02月04日
    浏览(39)
  • hive修改spark版本重新编译,hive3.1.3 on spark3.3.0

    我的是hive3.1.3 spark3.3.0(请先将自己的 hive on mr 搭建完场,有简单了解在搞这个) 1.下载hive源码 2. maven编译:mvn clean -DskipTests package -Pdist (idea 编译不行,能行的评论告诉我) 右键 - Git Bash idea打开项目,右键pom 添加成maven项目 修改pom中自己所需依赖的版本

    2023年04月21日
    浏览(52)
  • centos7上hive3.1.3安装及配置

    hive是基于hadoop的数据仓库软件,部署运行在linux系统之上,安装之前必须保证hadoop环境运行正常,hive本身不是分布式软件,它的分布式主要是借助hadoop实现,存储是hdfs,计算是mapreduce。 需要同时安装apache-hive-3.1.3-bin.tar.gz和mysql-5.7.42-1.el7.x86_64.rpm-bundle.tar两个软件,因为hive的

    2024年02月09日
    浏览(43)
  • hadoop3.2.1+hive3.1.2-docker安装

    建立hadoop用的内部网络(此步出错,若与其它网段冲突,可省略) #指定固定ip号段 建立Master容器,映射端口 10000端口为hiveserver2端口,后面本地客户端要通过beeline连接hive使用,有其他组件要安装的话可以提前把端口都映射出来 若创建了网段则可指定网段运行 创建slave1 172.17.

    2024年02月08日
    浏览(40)
  • 关于hive3多表leftjoin导致数据丢失问题及解决方案

    最近业务场景需要将一张大表通过name名字关联多个小表去获取他们的id,大表数据9000w,小表数据最大180w,最小30w,我以主表leftjoin的时候发现了数据丢失问题 代码如下  结果显示数据我t7的数据由180w剩下9w,发生了严重的数据丢失,在别的表也有不同程度的丢失问题. 最后发现这个问

    2024年02月15日
    浏览(53)
  • Java(115)Java通过jdbc接口连接hive3.1.2

    hive版本:3.1.2 jdbc:hive-jdbc-uber-2.6.5.0-292.jar 下载驱动地址:https://github.com/timveil/hive-jdbc-uber-jar/releases/tag/v1.9-2.6.5 CREATE TABLE regre_one.hive2_varchar( ID int, aes varchar(1000), sm4 varchar(1000), sm4_a varchar(1000), email varchar(1000), phone varchar(1000), ssn varchar(1000), military varchar(1000), passport varchar(1000)

    2024年02月05日
    浏览(53)
  • Ubuntu下安装Hive3.1.2教程(附MySQL安装方法及安装包)

    Hive 的安装需要建立在 Hadoop 的之上(类似于Hbase) ,关于 Hadoop 的单机安装以及伪分布式安装可以参考作者的另两篇博客: Ubuntu下单机安装Hadoop详细教程(附所需安装包下载) Ubuntu下伪分布式安装Hadoop详细教程 本文安装的 Hadoop 及 Java 环境基于林子雨老师的《大数据技术原

    2024年02月04日
    浏览(51)
  • [sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7

    Hadoop3.2.4+Hive3.1.2+sqoop1.4.7安装部署_hadoop sqoop安装_alicely07的博客-CSDN博客 sqoop-env.sh 末尾添加 环境变量 先创建目录,解决警告:accumulo does not exist! (1)添加jdbc驱动包:将MySQL数据库的JDBC驱动包mysql-connector-java-5.1.37.jar添加到Sqoop安装目录的lib目录中。 (2)删除Sqoop安装目录的

    2024年02月07日
    浏览(60)
  • 一百零一、Kettle——Kettle8.2.0本地连接Hive3.1.2(踩坑,亲测有效)

    这是目前遇到的最简单但最头疼的安装,因为是在公司之前用过的服务器上进行安装测试,加上又使用比较新的版本,结果踩了不少坑。Kettle连接Hive这个坑,从2023年4月11日下午开始,一致到2023年4月12日中午才弄好,不得不写篇博客记录一下这段难忘的经历。 真是郁闷了半天

    2024年02月07日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包