Hive的安装及集成Tez为执行引擎

这篇具有很好参考价值的文章主要介绍了Hive的安装及集成Tez为执行引擎。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

HIVE3 配置文档

注意:

① 要求Hadoop必须是可用的 (非HA)

② 要求Mysql能够链接

  • 1.上传文件并解压重命名

    tar -zxvf apache-hive-3.1.2-bin.tar.gz

    mv apache-hive-3.1.2-bin hive-3.1.2

  • 2.配置环境变量

    vim /etc/profile
    
    export HIVE_HOME=/usr/local/soft/hive-3.1.2
    export PATH=$HIVE_HOME/bin:$PATH
    
    # source一下让环境变量生效
    source /etc/profile
    
  • 3.配置HIVE相关配置文件

    cd /usr/local/soft/hive-3.1.2/conf
    vim hive-site.xml
    

    添加如下内容:

    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
        <!-- jdbc连接的URL -->
        <property>
            <name>javax.jdo.option.ConnectionURL</name>
            <value>jdbc:mysql://master:3306/hive?useSSL=false</value>
    </property>
    
        <!-- jdbc连接的Driver-->
        <property>
            <name>javax.jdo.option.ConnectionDriverName</name>
            <value>com.mysql.jdbc.Driver</value>
    </property>
    
    	<!-- jdbc连接的username-->
        <property>
            <name>javax.jdo.option.ConnectionUserName</name>
            <value>root</value>
        </property>
    
        <!-- jdbc连接的password -->
        <property>
            <name>javax.jdo.option.ConnectionPassword</name>
            <value>123456</value>
    </property>
    
        <!-- Hive默认在HDFS的工作目录 -->
        <property>
            <name>hive.metastore.warehouse.dir</name>
            <value>/user/hive/warehouse</value>
        </property>
        
       <!-- Hive元数据存储的验证 -->
        <property>
            <name>hive.metastore.schema.verification</name>
            <value>false</value>
        </property>
       
        <!-- 元数据存储授权  -->
        <property>
            <name>hive.metastore.event.db.notification.api.auth</name>
            <value>false</value>
        </property>
    </configuration>
    
  • 上传Mysql驱动到HIVE的lib目录下

  • 在Mysql中创建hive数据库并设置其字符集为utf8排序规则为utf8_general_ci

  • 错误及解决方式

    Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)
    V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1357)
    at org.apache.hadoop.conf.Configuration.set(Configuration.java:1338)
    at org.apache.hadoop.mapred.JobConf.setJar(JobConf.java:518)
    at org.apache.hadoop.mapred.JobConf.setJarByClass(JobConf.java:536)
    at org.apache.hadoop.mapred.JobConf.(JobConf.java:430)
    at org.apache.hadoop.hive.conf.HiveConf.initialize(HiveConf.java:5141)
    at org.apache.hadoop.hive.conf.HiveConf.(HiveConf.java:5104)
    at org.apache.hive.beeline.HiveSchemaTool.(HiveSchemaTool.java:96)
    at org.apache.hive.beeline.HiveSchemaTool.main(HiveSchemaTool.java:1473)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:318)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:232)

    如果遇到如上错误,那么需要执行如下命令:

    cp /usr/local/soft/hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar $HIVE_HOME/lib/
    
    rm -rf $HIVE_HOME/lib/guava-19.0.jar
    
  • 初始化hive元数据库

    schematool -initSchema -dbType mysql -verbose
    
  • 启动hive

    hive

  • 测试HIVE

    create database test;
    use test;
    create table tbl(id int,name String);
    insert into table tbl values(1,'zhangsan'),(2,'lisi');
    select * from tbl;
    

HIVE配置元数据及JDBC模式

  • 在hive-site.xml中添加如下:

    <!-- 指定存储元数据要连接的地址 -->
        <property>
            <name>hive.metastore.uris</name>
            <value>thrift://master:9083</value>
        </property>    
    
    <!-- 指定hiveserver2连接的host -->
        <property>
            <name>hive.server2.thrift.bind.host</name>
            <value>master</value>
        </property>
    
        <!-- 指定hiveserver2连接的端口号 -->
        <property>
            <name>hive.server2.thrift.port</name>
            <value>10000</value>
        </property>
    
  • 在Hadoop中的core-site.xml中添加如下:

        <property>
            <name>hadoop.proxyuser.root.hosts</name>
            <value>*</value>
        </property>
        <property>
            <name>hadoop.proxyuser.root.groups</name>
            <value>*</value>
        </property>
    
  • 将文件进行分发到从节点

    scp core-site.xml node1:`pwd`
    scp core-site.xml node2:`pwd`
    
  • 重启hadoop

  • 启动元数据服务

    nohup hive --service metastore > $HIVE_HOME/metadata.log  2>1  &
    

    如果遇到如下问题说明元数据服务没有启动

    Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
    
    
  • 启动HIVE Server2服务 (JDBC)

    nohup hive --service hiveserver2 > server2.log  2>1  &
    

    等待出现4个ID后 或者通过命令查看10000端口是否出现

  • 连接HIVE

    beeline -u jdbc:hive2://master:10000 -n root
    


集成Tez(可选)

Tez介绍:https://www.infoq.cn/article/apache-tez-saha-murthy

MR在hive2中已经被弃用了,推荐使用Tez或Spark作为执行引擎

1、编译

下载Tez源码并根据Hadoop版本进行

由于Tez官方所提供的安装包对某些Hadoop版本不支持,可采取手动编译方式

需准备好maven环境,手动编译难度较大

可参考https://tez.apache.org/install.html官方文档进行编译

若Hadoop为3.1.1版本,可直接使用所已经编译好的tez安装包:tez-0.10.2.tar.gz

2、上传并解压
# 将Tez安装包上传至任意位置,例如:放在/usr/local/soft/packages中
# 切换目录
cd /usr/local/soft/packages
# 创建解压后Tez存放的目录
mkdir /usr/local/soft/tez
# 将Tez解压到创建好的目录中
tar -zxvf tez-0.10.2.tar.gz -C /usr/local/soft/tez
3、将tez安装包上传至HDFS
# 在HDFS上创建目录
hdfs dfs -mkdir -p /user/tez/
# 上传安装包并重命名,这里不需要解压,直接上传即可
hdfs dfs -put tez-0.10.2.tar.gz /user/tez/tez.tar.gz
4、修改环境变量
vim /etc/profile

# 在最后加入一下内容
HADOOP_CLASSPATH=`hadoop classpath`
TEZ_HOME=/usr/local/soft/tez
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=$TEZ_HOME/*.jar:$TEZ_HOME/lib/*.jar
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH
5、增加tez-site.xml配置文件
# 切换到Hadoop的配置文件所在目录,一般将tez的配置文件也放在此位置
cd /usr/local/soft/hadoop-3.1.3/etc/hadoop
# 创建并编辑文件
vim tez-site.xml

# 加入以下内容
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
  <!-- 指定在hdfs上的tez包文件 -->
  <property>
    <name>tez.lib.uris</name>
    <value>hdfs://master:9000/user/tez/tez.tar.gz</value>
  </property>
</configuration>
6、修改Hadoop相关配置文件

Hadoop是分布式模式运行,配置修改完成之后记得分发并重启集群

  • yarn-site.xml 之前配置过无需配置

    这里贴出完整配置文件,按需修改

    主要是yarn.nodemanager.vmem-check-enabled以及yarn.nodemanager.pmem-check-enabled这两项配置

    由于机器资源有限,故关闭对内存的检查,否则任务运行容易出现资源不够的问题

    <?xml version="1.0"?>
    <configuration>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>master</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.log-aggregation-enable</name>
            <value>true</value>
        </property>
        <property>
            <name>yarn.log-aggregation.retain-seconds</name>
            <value>604800</value>
        </property>
        <property>
            <name>yarn.nodemanager.vmem-check-enabled</name>
            <value>false</value>
        </property>
        <property>
            <name>yarn.nodemanager.pmem-check-enabled</name>
            <value>false</value>
        </property>
    </configuration>
    
  • mapred-site.xml

    主要是修改mapreduce.framework.name配置的值

    原本应该是yarn,现在改为yarn-tez,其他保持不变

        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn-tez</value>
        </property>
    
  • capacity-scheduler.xml

    主要调整一下容量调度中AM的资源占比,保证yarn中能同时运行多个任务

    yarn.scheduler.capacity.maximum-am-resource-percent:AM能够使用的最大资源占比

    原本为0.1,这里直接改为1,也可根据情况自行调整

    不调整的话会导致Tez启动等待资源时间过长,进而影响整个HQL的查询时间

      <property>
        <name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
        <value>1</value>
        <description>
          Maximum percent of resources in the cluster which can be used to run
          application masters i.e. controls number of concurrent running
          applications.
        </description>
      </property>
    
  • 分发配置文件

    scp ./* node1:`pwd`
    scp ./* node2:`pwd`
    
  • 重启yarn

    由于并未涉及到HDFS配置文件,故只需重启Yarn服务即可

    stop-yarn.sh
    start-yarn.sh
    
7、修改Hive配置文件

1、主要修改Hive执行引擎为Tez

2、由于资源有限,故还需设置Tez默认执行容器内存大小,否则Tez任务运行容易出现资源问题

3、hive.cli.tez.session.async:是否异步启动Tez会话,默认为true

​ 建议禁止,否则在Tez会话启动前就进入了Hive命令行,容易导致任务首次执行不成功

​ 如若开启,则需进入hive命令行速度会快一些,但成功执行HQL得等待Tez会话创建成功

# 切换目录
cd /usr/local/soft/hive-3.1.2/conf/
# 编辑hive-site.xml
vim hive-site.xml

# 增加下列配置,其他保持不变
  <property>
    <name>hive.execution.engine</name>
    <value>tez</value>
    <description>
      Expects one of [mr, tez, spark].
      Chooses execution engine. Options are: mr (Map reduce, default), tez, spark. While MR
      remains the default engine for historical reasons, it is itself a historical engine
      and is deprecated in Hive 2 line. It may be removed without further warning.
    </description>
  </property>

  <property>
    <name>hive.tez.container.size</name>
    <value>1024</value>
    <description>By default Tez will spawn containers of the size of a mapper. This can be used to overwrite.</description>
  </property>

  <property>
    <name>hive.cli.tez.session.async</name>
    <value>false</value>
    <description>
      Whether to start Tez
      session in background when running CLI with Tez, allowing CLI to be available earlier.
    </description>
  </property>
8、解决log4j冲突问题

由于hadoop、hive、tez包中都包含了log4j的依赖,一起搭配使用会造成冲突

故只保留hadoop自带的即可,将hive、tez对应的jar包重命名即可

# 切换tez下的lib目录
cd /usr/local/soft/tez/lib
# 将log4j对应jar包进行重命名
mv slf4j-log4j12-1.7.25.jar slf4j-log4j12-1.7.25.jar.bak
mv slf4j-reload4j-1.7.36.jar slf4j-reload4j-1.7.36.jar.bak
9、启动Hive

切换Tez执行引擎后,hive启动以及HQL执行的日志较多,可参考前面第11步,将日志打印级别设为WARN或者ERROR

hive
10、验证Tez引擎

使用安装步骤第10步中test库下的students表进行查询验证

对比基于MR和Tez两种计算引擎的执行速度

11、控制打印日志级别文章来源地址https://www.toymoban.com/news/detail-758785.html

# 切换目录
cd /usr/local/soft/hive-3.1.2/conf
# 创建log4j默认配置文件并编辑
vim log4j.properties

# 加入一下内容,通过log4j.rootLogger可控制日志打印级别
log4j.rootLogger=WARN, CA
log4j.appender.CA=org.apache.log4j.ConsoleAppender
log4j.appender.CA.layout=org.apache.log4j.PatternLayout
log4j.appender.CA.layout.ConversionPattern=%-4r [%t] %-5p %c %x - %m%n

到了这里,关于Hive的安装及集成Tez为执行引擎的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 安装hive数据仓库

    需要安装部署完成的Hadoop的环境如果不会搭建的可以参考: 卸载Centos7自带的mariadb mariadb-libs-5.5.64-1.el7.x86_64是使用 rpm -qa|grep mariadb 查询出来的名称 安装mysql 安装mysql时可能会出现的问题 1、依赖检测失败 问题很明显了就是依赖的问题,下载他说的依赖就好了 安装hive 上传并且

    2024年02月14日
    浏览(52)
  • 数据仓库hive的安装说明

    1.按照下面语句顺序依次输入,安装mysql         $sudo apt-get install mysql-server         $sudo apt-get install mysql-client         $sudo apt-get install libmysqlclient-dev 2.连接MySQL数据库 (1)进入mysql         $sudo mysql -u root –p (2)使用mysql         use mysql; (3)修改mysql用户密

    2024年03月10日
    浏览(44)
  • 云计算技术 实验八 数据仓库Hive的安装和使用

    参考资料为:   教材代码-林子雨编著《大数据基础编程、实验和案例教程(第2版)》教材所有章节代码_厦大数据库实验室博客 1 . 实验学时 4学时 2 . 实验目的 熟悉Hive的安装 熟悉Hive的基本用法 3. 实验内容 (一)完成Hive的安装和配置Mysql接口。 先进行hive安装包的安装。

    2024年02月06日
    浏览(63)
  • ClickHouse(19)ClickHouse集成Hive表引擎详细解析

    目录 Hive集成表引擎 创建表 使用示例 如何使用HDFS文件系统的本地缓存 查询 ORC 输入格式的Hive 表 在 Hive 中建表 在 ClickHouse 中建表 查询 Parquest 输入格式的Hive 表 在 Hive 中建表 在 ClickHouse 中建表 查询文本输入格式的Hive表 在Hive 中建表 在 ClickHouse 中建表 资料分享 系列文章

    2024年02月04日
    浏览(47)
  • CDH6.3.2搭建HIVE ON TEZ

    参考 https://blog.csdn.net/ly8951677/article/details/124152987 ----配置hive运行引擎 在/etc/hive/conf/hive-site.xml中修改如下: hive.execution.engine mr–tez 或者运行代码的时候: 如果内存不够:可以修改如下参数设置 在配置文件设置后,如果集群重启会把配置的恢复,需要再CDH界面配置:

    2024年02月13日
    浏览(41)
  • 【SparkSQL】SparkSQL的运行流程 & Spark On Hive & 分布式SQL执行引擎

    【大家好,我是爱干饭的猿,本文重点介绍、SparkSQL的运行流程、 SparkSQL的自动优化、Catalyst优化器、SparkSQL的执行流程、Spark On Hive原理配置、分布式SQL执行引擎概念、代码JDBC连接。 后续会继续分享其他重要知识点总结,如果喜欢这篇文章,点个赞👍,关注一下吧】 上一篇

    2024年02月04日
    浏览(48)
  • zeppelin在使用hive的时候报错: Cannot modify tez.application.tags at runtime

    Could not open client transport with JDBC Uri: jdbc:hive2://ucd-prod-vdp-usdp-103.viatris.cc:10000/default;principal=hadoop/ucd-prod-vdp-usdp-103.viatris.cc@UCDIPA.VIATRIS.CC;hive.server2.proxy.user=zhangliang;?tez.application.tags=paragraph_1692003609572_1614159237;mapreduce.job.tags=paragraph_1692003609572_1614159237;: Failed to open new session: java.lang

    2024年02月12日
    浏览(40)
  • Hive数据仓库简介

    Hive起源于Facebook,Facebook公司有着大量的日志数据,而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架,可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发,但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日

    2024年02月15日
    浏览(57)
  • hive数据仓库课后答案

    一、 填空题 1.数据仓库的目的是构建面向     分析         的集成化数据环境。 2.Hive是基于     Hadoop         的一个数据仓库工具。 3.数据仓库分为3层,即      源数据层        、     数据应用层        和数据仓库层。 4.数据仓库层可以细分为      明细层

    2023年04月08日
    浏览(47)
  • 数据仓库 & Apache Hive

    目录 一、数据分析 1、数据仓库 1.1、数仓专注分析 1.2、数仓主要特征 1.3、数据仓库主流开发语言--SQL 2、Apache Hive 2.1、为什么使用Hive? 2.2、Hive和Hadoop关系 2.3、Hive架构图、各组件功能 2.4、Hive安装部署 2.4.1、Hive概念介绍 2.4.2、安装前准备     数据仓库 (英语:Data Warehous

    2024年01月22日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包