hive 基础知识

这篇具有很好参考价值的文章主要介绍了hive 基础知识。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一 hive 是什么

hive 基础知识,hive,hadoop,数据仓库hive 基础知识,hive,hadoop,数据仓库

在本节前我们需要明确 hive 是什么

上面两个代码块,左边的是 mapreduce 的代码块,右边的是hive 的代码块

很容易看出来,右边的 hive 写起来要更容易更快些,而执行效率,右边的 hive 只比左边多一个翻译的过程,就是将写的 HQL语句 翻译成 mapreduce 去执行

简单来说 hive 就是一个中间件,可以让我们写的 HQL 语句可以被翻译成 mapreduce去执行,让我们不必再去写 mapreduce 的代码,提升我们的开发效率

二 Hive的优势和特点

  • 提供了一个简单的优化模型
  • HQL类SQL语法,简化MR开发
  • 支持在不同的计算框架上运行
  • 支持在HDFS和HBase上临时查询数据
  • 支持用户自定义函数、格式
  • 常用于ETL操作和BI 稳定可靠(真实生产环境)的批处理
  • 有庞大活跃的社区

三 Hive的发展里程碑和主流版本

Hive发展历史及版本

  • 07年8月 – 始于Facebook
  • 13年5月 – 0.11 Stinger Phase 1 ORC HiveServer2
  • 13年10月 – 0.12.0 Stinger Phase 2 - ORC improvement
  • 14年4月 – Hive 0.13.0 as Stinger Phase 3
  • 14年11月 – Hive 0.14.0
  • 15年2月 – Hive 1.0.0
  • 15年5月 – Hive 1.2.0 (1.2.1 本系列课实验重点版本 )
  • 16年2月 – Hive 2.0.0 (添加 HPLSQL, LLAP)
  • 16年6月 – Hive 2.1.0

四  Hive元数据管理

  • 记录数据仓库中模型的定义、各层级间的映射关系
  • 存储在关系数据库中
    • 默认Derby, 轻量级内嵌SQL数据库
      • Derby非常适合测试和演示
      • 存储在.metastore_db目录中
    • 实际生产一般存储在MySQL中
      • 修改配置文件hive-site.xml
  • HCatalog
    • 将Hive元数据共享给其他应用程序

五 Hive环境搭建

  • 环境准备
    • 安装jdk、hadoop、mysql(元数据管理使用)
  • 主要步骤
    • 下载并解压
    • 配置环境变量
    • 修改配置文件
    • 配置hive元数据管理
    • 启动验证

安装 hive 查看

在 linux 虚拟机上安装配置 hive_超爱慢的博客-CSDN博客

六 hive 架构

hive 基础知识,hive,hadoop,数据仓库

七 Hive操作-命令行模式 

  • 有两种客户端工具:Beeline和Hive命令行(CLI)
  • 有两种模式:命令行模式和交互模式
  • 命令行模式

hive 基础知识,hive,hadoop,数据仓库

八 Hive操作-窗口交互模式 

hive 基础知识,hive,hadoop,数据仓库文章来源地址https://www.toymoban.com/news/detail-696181.html

九 Hive操作-客户端交互模式 

  • 检查Hive服务是否已经正常启动
  • 使用Hive交互方式(输入hive即可)
  • 使用beeline
    • 需启动hiveserver2服务
      • nohup hive --service metastore &(非必须)
      • nohup hive --service hiveserver2 &
    • 输入beeline进入beeline交互模式
      • !connect jdbc:hive2://hadoop101:10000

到了这里,关于hive 基础知识的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • mysql数据库面试题基础知识,Hadoop之MapReduce04,腾讯java面试流程

    该方法的执行过程比较复杂,我们慢慢来分析,首先来看下简化的时序图 3.1waitForCompletion public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException, ClassNotFoundException { // 判断任务的状态,如果是DEFINE就提交 if (state == JobState.DEFINE) { submit(); } if (verbose) { // 监听并且

    2024年04月14日
    浏览(62)
  • hive 基础知识

    在本节前我们需要明确 hive 是什么 上面两个代码块,左边的是 mapreduce 的代码块,右边的是hive 的代码块 很容易看出来,右边的 hive 写起来要更容易更快些,而执行效率,右边的 hive 只比左边多一个翻译的过程,就是将写的 HQL语句 翻译成 mapreduce 去执行 简单来说 hive 就是一

    2024年02月09日
    浏览(36)
  • Hive基础知识

      Hive是由Facebook开源用于解决海量 结构化 日志的数据统计工具。Hive是基于Hadoop的一个 数据仓库工具 ,可以将结 构化的数据文件映射为一张表 ,并提供 类SQL 查询功能。 Hive的本质是将HQL转化成MapReduce程序。 Hive处理的数据存储在HDFS。 Hive分析数据底层的实现是MapReduce。

    2024年02月11日
    浏览(41)
  • 高项(2)信息化和信息系统基础知识1-软件测试-软件需求-软件架构-中间件-数据仓库-七层协议

    1.国家信息化体系6要素 法律法规,是 保障 信息资源,信息资源的开发和利用是 核心任务 ,是国家信息化取得实效的 关键 信息网络,是 基础 信息技术应用,是6要素中的 龙头 信息技术和产业,是 物质保障 信息化人才,是 成功之本 2.信息系统生命周期 2.1 简化为 系统规划

    2024年04月09日
    浏览(55)
  • Day1 - Hive基础知识

    概述 Hive是由Facobook开发的后来贡献给了Apache的一套用于进行 数据仓库 管理的工具,使用类SQL语言来对分布式文件系统中的PB级别的数据来进行读写、管理以及分析 Hive基于Hadoop来使用的,底层的默认计算引擎使用的是MapReduce。Hive利用类SQL(HQL,Hive Query Language)语言来操作数据

    2024年04月29日
    浏览(35)
  • Hive基础知识(十五):Hive中SQL排序方式全解

    Order By:全局排序,只有一个 Reducer 1)使用 ORDER BY 子句排序 ASC(ascend): 升序(默认) DESC(descend): 降序 2)ORDER BY 子句在 SELECT 语句的结尾 3)案例实操 (1)查询员工信息按工资升序排列 (2)查询员工信息按工资降序排列 按照员工薪水的2 倍排序 按照部门和工资升序排

    2024年01月19日
    浏览(55)
  • HBase基础知识(六):HBase 对接 Hive

    1.Hive (1) 数据仓库 Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以 方便使用 HQL 去管理查询。 (2) 用于数据分析、清洗 Hive 适用于离线的数据分析和清洗,延迟较高。 (3) 基于 HDFS、MapReduce Hive 存储的数据依旧在 DataNode 上,编写的 HQL 语句终

    2024年02月04日
    浏览(44)
  • Hive基础知识(十六):Hive-SQL分区表使用与优化

    分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。 Hive 中的分区就是分目录 ,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的 查询效率会提高很多

    2024年01月18日
    浏览(40)
  • 大数据之Hadoop数据仓库Hive

    Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 特点: 简单、容易上手 (提供了类似 sql 的查询语言 hql),使得精通 sql 但是不了解 Java 编程的人也

    2024年02月01日
    浏览(54)
  • 大数据技术之Hadoop学习(七)——Hive数据仓库

    目录 素材 一、数据仓库简介 1、数据仓库的认识 (1)数据仓库是面向主题的。 (2)数据仓库是随时间变化的。 (3)数据仓库相对稳定 (4)OLTP和OLAP 2、数据仓库的结构 (1)数据源 (2)数据存储及管理 (3)OLAP 服务器 (4)前端工具 3、数据仓库的数据模型 (1)星状模

    2024年02月17日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包