大数据课程F2——HIve的安装操作

这篇具有很好参考价值的文章主要介绍了大数据课程F2——HIve的安装操作。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 了解HIve的安装概念;

⚪ 掌握HIve安装步骤和Linux常用命令;

⚪ 掌握HIve安装的连接池jar包冲突和日志打印jar包冲突;

⚪ 掌握HIve安装的Hadoop安装配置;

⚪ 掌握HIve安装的JDK安装配置;

⚪ 掌握HIve安装的MySQL安装配置;

⚪ 掌握HIve安装的Hive的元数据库初始化和启动;

⚪ 掌握HIve安装的指定Hive运行日志生成路径;

⚪ 掌握HIve安装的Hive参数配置原则;

一、安装

1. 概述

1. Hive是基于Hadoop来使用的(基于HDFS来存储,基于Hadoop YARN来执行),所以Hive的版本要受Hadoop版本的影响。

2. 到目前为止,Hadoop2.X支持Hive1.X和Hive2.X版本,Hadoop3.X支持Hive3.X。

3. Hive在安装过程中还需要改变元数据库。

a. 在Hive中,同样需要建库建表,这个时候产生的库名、表名、字段名、分区名、分桶信息、函数、数据类型等信息都属于元数据,这些数据是用于描述Hive中数据的特点,统称为元数据。

b. Hive的元数据是维系在关系型数据库中的(Hive管理的数据存储在HDFS上,Hive的元数据存储在数据库中)。

c. 到目前为止,Hive1.X和Hive2.X的元数据库只支持两种:Derby和MySQL。Hive3.X的元数据库还支持Oracle等数据库。如果不指定,无论是Hive的哪一个版本,都默认使用Derby(微型,单连接)来作为元数据库,就意味着Hive每次都只能允许一个用户连接,因此需要更换Hive的元数据库。

2. 安装步骤

1. 要求云主机或者虚拟机上必须先安装好Hadoop3.1.3+JDK1.8;要求硬件环境内存不少于3G。

2. 进入/home/software,下载或者上传Hive的安装包。

cd /home/software/

#云主机下载地址

 wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/apache-hive-3.1.2-bin.tar.gz

3. 解压安装包。

tar -xvf apache-hive-3.1.2-bin.tar.gz

4. 重命名。

mv apache-hive-3.1.2-bin hive-3.1.2

5. 配置环境变量。

vim /etc/profile

#在文件尾部添加

export HIVE_HOME=/home/software/hive-3.1.2

export PATH=$PATH:$HIVE_HOME/bin

#保存退出,重新生效

source /etc/profile

#测试是否配置正确

hive --version

6. 解决连接池的jar包冲突。

cd /home/software/hive-3.1.2/lib

rm -rf guava-19.0.jar

cp /home/software/hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar ./

7. 解决日志打印的jar包冲突。

mv log4j-slf4j-impl-2.10.0.jar log4j-slf4j-impl-2.10.0.bak

8. Centos7中自带了残缺的MySQL发行版mariadb,需要先卸载残缺的mariadb。

rpm -qa | grep -i mariadb | xargs rpm -ev --nodeps

9. 卸载其他的MySQL。

rpm -qa | grep -i mysql | xargs rpm -ev --nodeps

10. 删除MySQL卸载遗留的文件。

find / -name mysql | xargs rm -rf

find / -name my.cnf | xargs rm -rf

cd /var/lib

rm -rf mysql

11. 下载或者上传MySQL的安装包。

cd /home/software/

#云主机的下载地址。

 wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/mysql-5.7.33-1.el7.x86_64.rpm-bundle.tar

12. 解压MySQL的安装包。

tar -xvf mysql-5.7.33-1.el7.x86_64.rpm-bundle.tar

13. 安装MySQL,注意安装顺序,不能调换。

rpm -ivh mysql-community-common-5.7.33-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-5.7.33-1.el7.x86_64.rpm

rpm -ivh mysql-community-devel-5.7.33-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-compat-5.7.33-1.el7.x86_64.rpm

rpm -ivh mysql-community-client-5.7.33-1.el7.x86_64.rpm

rpm -ivh mysql-community-server-5.7.33-1.el7.x86_64.rpm

14. 启动MySQL。

systemctl start mysqld

15. 第一次安装MySQL的时候,会产生初始的密码,如果需要登录MySQL,那么首先需要去查看这个初始密码。

grep 'temporary password' /var/log/mysqld.log

16. 登录MySQL。

mysql -u root -p

#将初始密码输入

#注意:在MySQL5.7中,密码策略相对比较复杂,要求密码中至少包含12个字符,必须包含至少1个小写字母,1个大写字母,1个数字以及1个特殊符号

#更改MySQL的密码策略

set global validate_password_length=4;

set global validate_password_policy=0;

#修改MySQL的密码

set password for 'root'@'localhost' = 'root';

17. 配置MySQL的远程登录。

grant all privileges on *.* to 'root'@'%' identified by 'root' with grant option;

flush privileges;

quit;

18. 重启MySQL。

systemctl restart mysqld

19. 进入Hive的配置目录。

cd /home/software/hive-3.1.2/conf

20. 编辑文件。

vim hive-site.xml

#添加内容:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<!--指定Hive的元数据库,默认值是derby-->

<property>

    <name>hive.metastore.db.type</name>

    <value>mysql</value>

</property>

<!--MySQL的连接地址-->

<property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://hadoop01:3306/hive?useSSL=false</value>

</property>

<!--指定MySQL的驱动-->

<property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<!--指定MySQL的用户名-->

<property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>root</value>

</property>

<!--指定MySQL的连接密码-->

<property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>root</value>

</property>

<!--指定元数据的存储目录-->

<property>

<name>hive.metastore.warehouse.dir</name>

<value>/user/hive/warehouse</value>

</property>

<!--对元数据进行校验验证-->

<property>

<name>hive.metastore.schema.verification</name>

<value>false</value>

</property>

<!--Hive采用的序列化框架是Thrift-->

<!--配置Thrift的连接地址-->

<property>

<name>hive.metastore.uris</name>

<value>thrift://hadoop01:9083</value>

</property>

<!--配置Thrift服务器的连接端口号-->

<property>

<name>hive.server2.thrift.port</name>

<value>10000</value>

</property>

<!--配置Thrift要绑定的服务器-->

<property>

<name>hive.server2.thrift.bind.host</name>

<value>hadoop01</value>

</property>

<!--自动认证-->

<property>

<name>hive.metastore.event.db.notification.api.auth</name>

<value>false</value>

</property>

<!--如果没有对应的元数据表,那么是否自动建立-->

<property>

<name>datanucleus.schema.autoCreateAll</name>

<value>true</value>

</property>

</configuration>

21. 下载MySQL的驱动jar包。

cd ../lib

 wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/mysql-connector-java-5.1.27.jar

22.  修改Hadoop的配置。

cd /home/software/hadoop-3.1.3/etc/hadoop/

vim mapred-site.xml

#在文件中添加如下内容:

<property>

        <name>yarn.app.mapreduce.am.env</name>

        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

<property>

        <name>mapreduce.map.env</name>

        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

<property>

        <name>mapreduce.reduce.env</name>

        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

23.  查看是否有初始化Hive元数据库的脚本。

cd /home/software/hive-3.1.2/scripts/metastore/upgrade/

#查看是否有mysql/目录,如果没有

 wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/hive-mysql-tar.gz

tar -xvf hive-mysql-tar.gz

24. 进入MySQL。

mysql -u root -p

#建立Hive的元数据库

create database hive;

#退出数据库

quit;

25. 初始化Hive的元数据库。

schematool -initSchema -dbType mysql --verbose

26. 启动Hadoop。

start-dfs.sh

start-yarn.sh

27. 启动Hive的元数据服务。

hive --service metastore &

28. 启动hiveserver2服务。

hive --service hiveserver2 &

29. 进入Hive的客户端。

hive

二、其他

1. Hive运行日志

1. Hive在运行过程中会产生运行日志,如果不指定,那么默认情况下,Hive的运行日志是放在/tmp/hive.log文件中。

2. 修改存放位置:

#进入Hive的配置文件目录

cd /home/software/hive-3.1.2/conf

#复制文件

cp hive-log4j2.properties.template hive-log4j2.properties

#编辑文件

vim hive-log4j2.properties

#修改属性property.hive.log.dir

property.hive.log.dir = /home/software/hive-3.1.2/logs

#启动Hive

hive --service metastore &

hive --service hiveserver2 &

hive

2. Hive的参数配置

1. 可以在hive-site.xml文件中来配置Hive的运行参数,这种配置方式是永久有效的,并且对所有的会话都生效。

2. 可以通过hive -hiveconf来配置Hive的运行参数,例如hive -hiveconf mapred.reduce.tasks=3;这种配置方式只在当前会话中生效,对其他会话不产生影响。

3. 在Hive的命令窗口中,可以通过set方式来配置,例如set mapred.reduce.tasks=3;同样这种方式也是只在当前会话中生效,对其他会话不产生影响。文章来源地址https://www.toymoban.com/news/detail-630526.html

到了这里,关于大数据课程F2——HIve的安装操作的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • (最新版本)hive4.0.0 + hadoop3.3.4 集群安装(无坑版)-大数据学习系列(一)

    网上的找的文档大多残缺不靠谱,所以我整理了一份安装最新版本的hive4..0.0+hadoop3.3.4的学习环境,可以提供大家安装一个完整的hive+hadoop的环境供学习。 由于在公司担任大数据的培训工作后续还会更新一些基础的文章,希望能帮助到大家。 机器信息 Hostname k8s-master k8s-node1 k8

    2024年02月06日
    浏览(51)
  • Hadoop、Hive安装

    Linux系统:Centos,版本7.0及以上 JDK:jdk1.8 Hadoop:3.1.3 Hive:3.1.2 虚拟机:VMware mysql:5.7.11 工具下载地址: https://pan.baidu.com/s/10J_1w1DW9GQC7NOYw5fwvg?pwd=0kdr 提取码: 0kdr 提示:以下是本篇文章正文内容,下面案例可供参考 下载jdk-8u181-linux-x64.tar.gz包,将此包上传至/opt 目录下。 使用

    2024年02月08日
    浏览(33)
  • hadoop集群搭建+hive安装

    VMware-workstation:VMware-workstation-full-16.2.3 ubuntu:ubuntu-21.10 hadoop:hadoop2.7.2 mysql:mysql-connector-java-8.0.19 jdk:jdk-8u91-linux-x64.tar(注意要是linux版本的,因为是在linux系统中创建虚拟机) hive:hive1.2.1 小技巧: 右键单击可以paste 1.选择典型即可 2.将ubuntu镜像文件导入: 3.用户名要记住

    2024年02月05日
    浏览(103)
  • 大数据开发之Hive(基本概念、安装、数据类型、DDL数据定义、DML数据操作)

    1.1.1 Hive产生背景 HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑,开发人员要编写MR对数据进行统计分析难度极大,所以就产生了Hive这个数仓工具。Hive可以帮助开发人员将SQL语句转化

    2024年01月17日
    浏览(46)
  • 大数据课程F1——HIve的概述

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解HIve的概念; ⚪ 了解HIve与数据库的区别; ⚪ 了解HIve的特点; 1. Hive原本是由Facebook公司开发后来贡献给了Apache的一套用于进行数据仓库管理的机制。 2. Hive提供了类SQL(HQL,Hive QL)语句来管理HDFS上的大量

    2024年02月14日
    浏览(55)
  • 数据仓库Hive(林子雨课程慕课)

    9.数据仓库Hive 9.1 数据仓库的概念 数据仓库的概念 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用户支持管理决策 根本目的:基于数据仓库的分析结果-以支持企业内部的商业分析和决策-作出相关的经营决策 数据仓库的体系结构: 数据仓库

    2024年02月07日
    浏览(41)
  • Hadoop之Hive的安装配置(详细步骤)

    配置前准备 下载apache-hive-2.1.1-bin.tar.gz安装包并上传到XShell 在XShell上解压安装包 输入解压命令: 配置  1、配置环境变量 在文件末尾增加如下内容: 使环境变量生效 进入 cd /home/ZQ/apache-hive-2.1.1-bin/conf/ 2、配置hive-env.sh  如果有hive-env.sh.template文件则输入下面的命令将 hive-

    2024年02月04日
    浏览(40)
  • 大数据之Hadoop数据仓库Hive

    Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 特点: 简单、容易上手 (提供了类似 sql 的查询语言 hql),使得精通 sql 但是不了解 Java 编程的人也

    2024年02月01日
    浏览(54)
  • 自动化脚本一键安装 jdk,hadoop,hive

    网盘资源如下 链接: https://pan.baidu.com/s/1wKHRjcqJHRTcvmHOxsn0Bw?pwd=qh8h 提取码: qh8h 使用该脚本有几个地方需要修改成自己设备相应属性,还有一些注意事项 (1)脚本开头 分别对应 jdk、hadoop、hive 安装 false 是不安装 true 是安装 (2)安装 hive 这条语句里的 ip 换成你自己的 这条语句

    2024年02月09日
    浏览(49)
  • 【hadoop——Hive的安装和配置】保姆式教学

      目录 一.Hive的安装和配置 1.Hive并不是hadoop自带的组件,因此我们需要去下载hive,此次课我们使用hive 1.2.1版本,下载地址为: 2.下载完成之后,安装包默认保存在下载文件夹中,解压安装包apache-hive-1.2.1-bin.tar.gz至路径 /usr/local,命令如下: 3.然后切换至目录 /usr/local,将文

    2023年04月22日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包