大数据平台搭建之hive本地模式安装

这篇具有很好参考价值的文章主要介绍了大数据平台搭建之hive本地模式安装。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、什么是hive?

        Hive 是一个开源的数据仓库基础设施,用于查询和分析大规模数据集。它建立在 Hadoop 上,并提供了类似于传统数据库的查询和分析功能。

        Hive 使用 HiveQL(类似于 SQL)作为查询语言,允许用户通过类 SQL 的语法编写查询语句,这些查询语句会被转换为 MapReduce 任务在 Hadoop 集群上执行。

        Hive 的主要优势之一是它的可扩展性和容错性。它能够处理各种类型和格式的数据,并且能够在成百上千台机器上并行处理数据。此外,Hive 还提供了数据分区、分桶、索引等功能,以提高查询性能。

        Hive 在大数据领域得到广泛应用,特别是在数据仓库、数据分析和业务智能方面。它可以帮助用户快速查询和分析大量的结构化和半结构化数据,从而提取有价值的信息和洞察力。

2、hive有什么优缺点?

优点:

  1. 易于使用:Hive 的查询语言 HiveQL 类似于传统的 SQL,使得用户能够使用熟悉的语法编写和执行查询语句,降低了学习成本。
  2. 可扩展性:Hive 能够处理大规模的数据集,并且可以在分布式环境下进行并行计算,从而实现水平扩展。
  3. 容错性:Hive 建立在 Hadoop 上,具备高可靠性和容错性,能够应对节点故障和数据丢失等问题。
  4. 多格式支持:Hive 能够处理各种类型和格式的数据,包括结构化数据和半结构化数据,以及不同的文件格式。

缺点:

  1. 延迟较高:由于 Hive 使用 MapReduce 进行计算,而 MapReduce 是批处理模型,所以对于实时需求和低延迟应用来说,Hive 的查询响应时间相对较长。
  2. 存储冗余:Hive 在执行查询时会生成中间结果,并将这些结果存储在磁盘上,这可能导致存储冗余和额外的 I/O 开销。
  3. 复杂的数据模型:Hive 采用类似于传统数据库的数据模型,但它并不是一个完整的数据库系统,因此对于复杂的数据模型和事务处理等场景可能无法满足需求。
  4. 不适合小规模数据:由于 Hive 的设计初衷是处理大规模数据集,所以在处理小规模数据时,Hive 的开销相对较高,不如传统数据库效率高。

3、hive的架构

大数据平台搭建之hive本地模式安装,hive,大数据,hive,hadoop,linux,服务器,数据仓库

  1. 用户接口(User Interface):Hive 提供了多种用户接口,包括命令行界面(CLI)、Web UI、ODBC/JDBC 接口等,使用户能够与 Hive 进行交互。

  2. 驱动器(Driver):驱动器负责解析和编译用户提交的 HiveQL 查询,并将其转换为适当的执行计划。驱动器还负责与底层执行引擎(如 MapReduce 或 Tez)进行交互,执行查询并返回结果。

  3. 元数据(Metadata):元数据存储了与 Hive 相关的结构信息,包括数据库、表、分区、列等定义。Hive 的元数据通常存储在关系型数据库中,比如 MySQL 或 Derby。

  4. 编译器(Compiler):编译器接收驱动器生成的执行计划,并将其转换为适当的 MapReduce 任务或 Tez DAG(有向无环图)。编译器还负责生成操作符树,以便在计划执行过程中进行优化。

  5. 执行引擎(Execution Engine):执行引擎负责实际执行编译后的任务或 DAG,并将结果返回给用户。Hive 可以使用多种底层执行引擎,最常用的是基于 Hadoop MapReduce 的执行引擎,也可以使用 Tez、Spark、Flink 等。

  6. 存储(Storage):Hive 支持多种数据存储格式,包括文本文件、序列文件、ORC(Optimized Row Columnar)文件和 Parquet 文件等。这些文件通常存储在分布式文件系统(如 HDFS)上。

  7. 扩展库(Extensions):Hive 提供了一些扩展库,使用户能够自定义和扩展 Hive 的功能,如添加自定义函数、自定义存储处理器等。

4、hive和mysql数据库的区别?

  1. 应用场景:Hive 适合于数据仓库和大规模数据处理领域,而 MySQL 更适合作为传统关系型数据库进行事务处理。

  2. 数据规模:Hive 处理大规模数据,可以处理 PB 级别的数据,而 MySQL 主要用于中小规模数据存储和处理。

  3. 查询语言:Hive 使用 HiveQL,类似 SQL,支持更多复杂的数据分析和处理操作,而 MySQL 使用原生 SQL,语法相对简单。

  4. 存储格式:Hive 支持多种数据存储格式,如文本文件、ORC 和 Parquet,而 MySQL 通常使用关系型数据库存储机制。

  5. 扩展性:Hive 支持水平扩展,可以通过添加节点来实现更高性能和更大存储容量,而 MySQL 更多是通过垂直扩展来提升性能

5、hive本地模式的安装嵌入式的模式(元数据在Derby数据库中,通常用于开发测试时使用)

1) 解压

tar -xf apache-hive-3.1.2-bin.tar.gz -C /opt

2) 改名字

mv /opt/apache-hive-3.1.2-bin /opt/hive

3)环境变量 /etc/profile

          
export HIVE_HOME=/opt/hive
export PATH=$PATH:$HIVE_HOME/bin

4) 刷新一下

source /etc/profile
hive --version

5) 配置各种配置文件

hive-env.sh 系统是没有这个文件的, 使用hive-env.sh.template进行拷贝

cp hive-env.sh.template hive-env.sh
chmod 777 hive-env.sh

修改这个文件内容:

export HIVE_CONF_DIR=/opt/hive/conf
export JAVA_HOME=/opt/jdk
export HADOOP_HOME=/opt/hadoop
export HIVE_AUX_JARS_PATH=/opt/hive/lib

配置hive-site.xml

 cp hive-default.xml.template hive-site.xml

1、从hive-default.xml.template 拷贝一份过来
删除3215行的特殊字符  

6) 检查 hdfs以及yarn是否启动,如果没有启动,手动启一下。

7)修改dir

在这个文件hive-site.xml中替换两个重要的东西

把hive-site.xml 中所有包含 ${system:Java.io.tmpdir}替换成/opt/hive/iotmp

如果系统默认没有指定系统用户名,那么要把配置${system:user.name}替换成当前用户名root

创建这个配置文件中没有的路径,并且赋权限。

hdfs dfs -mkdir -p /user/hive/warehouse
hdfs dfs -mkdir -p /tmp/hive
hdfs dfs -chmod 777 /user/hive/warehouse
hdfs dfs -chmod 777 /tmp/hive

8) 创建本地的临时目录 io.tmpdir

在hive 安装路径下  hive_home 下,创建文件夹
mkdir /opt/hive/iotmp
chmod 777 iotmp

9)初始化hive

在hive 的家路径下,执行该命令

schematool -initSchema -dbType derby

10) 简单的操作

show databases;
show talbes; 
create table stu(id int,name string);
insert into stu values(1,"zhangsan");
select * from stu;
退出使用quit;

以上就是我们的Derby模式,Derby 作为一种轻量级的嵌入式数据库具有一些优点,但它也存在一些性能、扩展性、高可用性和生态系统支持方面的缺点.文章来源地址https://www.toymoban.com/news/detail-729184.html

到了这里,关于大数据平台搭建之hive本地模式安装的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • linux下hive远程数据库模式安装

    Apache Hive是一个分布式、容错的数据仓库系统,能够支持大规模的分析。Hive元数据仓库(HMS)提供了一个中央的元数据存储库,可轻松分析数据以做出明智的数据驱动决策,因此它是许多数据湖架构的关键组件。Hive建立在Apache Hadoop之上,支持在S3、adls、gs等存储上通过HDFS访问。

    2023年04月13日
    浏览(40)
  • hadoop集群搭建+hive安装

    VMware-workstation:VMware-workstation-full-16.2.3 ubuntu:ubuntu-21.10 hadoop:hadoop2.7.2 mysql:mysql-connector-java-8.0.19 jdk:jdk-8u91-linux-x64.tar(注意要是linux版本的,因为是在linux系统中创建虚拟机) hive:hive1.2.1 小技巧: 右键单击可以paste 1.选择典型即可 2.将ubuntu镜像文件导入: 3.用户名要记住

    2024年02月05日
    浏览(101)
  • 【云计算平台】Hadoop单机模式环境搭建

    接上一篇博客 点我跳转到虚拟机搭建,配置好虚拟机环境后进行hadoop单机模式的部署,我的云计算课程中只要求了简单的单机模式部署,如果有精力的话,应该会把伪分布式部署也简单地记录一下 Apache Hadoop 项目为可靠,可扩展的分布式计算开发开源软件;Hadoop软件库是一个

    2024年02月02日
    浏览(48)
  • 【云计算平台】Hadoop全分布式模式环境搭建

    此前搭建了hadoop的单机模式与伪分布式模式: 单机模式部署 伪分布式模式部署 中间拖得有点久了,今天索性做个了结,把hadoop的全分布式模式部署的操作也简单地记录一下,算是一个系统性的学习吧。 伪分布式模式是学习阶段最常用的模式,它可以将进程都运行在同一台机

    2023年04月08日
    浏览(54)
  • Hadoop 3.0.0的集群搭建和Hive 3.1.3的安装

    Hi,朋友们,我们又见面了,这一次我给大家带来的是Hadoop集群搭建及Hive的安装。 说明一下,网上有很多的教程,为什么我还要水? 第一,大多数的安装都是很顺利的,没有疑难解答。 第二,版本问题,网上的搭建在3以前的比较多。 第三,我想给出一个更简洁的安装教程,

    2024年02月03日
    浏览(38)
  • 大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

    Hadoop:3.1.0 CentOS:7.6 JDK:1.8 这里网上教程很多,就不贴图了 【内存可以尽量大一些,不然Hive运行时内存不够】 创建tools目录,用于存放文件安装包 将Hadoop和JDK的安装包上传上去 创建server目录,存放解压后的文件 解压jdk 配置环境变量 配置免密登录 配置映射,配置ip地址和

    2024年02月09日
    浏览(40)
  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(46)
  • 大数据毕业设计选题推荐-自媒体舆情分析平台-Hadoop-Spark-Hive

    ✨ 作者主页 :IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐 ⬇⬇⬇ Java项目 Python项目 安卓项目 微信小程序

    2024年02月05日
    浏览(48)
  • Linux安装Zookeeper、Hadoop、Hive、Hbase全家桶系列

    目录 Linux安装配置Zookeeper Linux安装配置Hadoop Linux安装Hbase 新建文件夹 下载到指定文件夹 官网 Apache ZooKeeper 解压到指定文件 查看 进入目录 创建日志/数据文件夹 复制配置文件 使用vim进入zoo.cfg 修改为如下:  记录一下zookeeper的路径然后 刷新资源 运行 查看状态 创建文件夹加

    2024年02月14日
    浏览(46)
  • Hadoop大数据平台搭建(超详细步骤)

    相关软件下载链接: Xshell:家庭/学校免费 - NetSarang Website Xftp:家庭/学校免费 - NetSarang Website Xshell与Xftp官网:XSHELL - NetSarang Website Jdk:百度网盘 请输入提取码  提取码:jdhp Hadoop:百度网盘 请输入提取码   提取码:jdhp 需要配置好的虚拟机与相关环境的,可以点击我的这篇

    2023年04月12日
    浏览(77)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包