大数据课程F1——HIve的概述

这篇具有很好参考价值的文章主要介绍了大数据课程F1——HIve的概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 了解HIve的概念;

⚪ 了解HIve与数据库的区别;

⚪ 了解HIve的特点;

一、概述

1. Hive原本是由Facebook公司开发后来贡献给了Apache的一套用于进行数据仓库管理的机制。

2. Hive提供了类SQL(HQL,Hive QL)语句来管理HDFS上的大量数据,底层会将SQL转化为MapReduce来交给Hadoop YARN来执行,因此,Hive的执行效率相对比较低,所以Hive适合于离线批处理场景。

二、Hive和数据库的比较

1. 查询语言:数据库提供了标准的SQL语言,符合三范式的设计;Hive提供了类SQL语言,不完全符合SQL的规则。

2. 数据存储位置:数据库往往是将数据落地到本地磁盘上,以文件形式来存储;Hive是将数据落地到HDFS上。

3. 数据可靠:数据库如果不配置,那么往往是不可靠,即意味着单台服务器宕机,那么数据就会暂时丢失;Hive的数据基于HDFS来存储,HDFS支持多副本机制,那么也就意味着即使某一台服务器宕机也不会产生数据的丢失。

4. 数据更新:数据库往往是实时捕获数据(例如注册、订单数据等都是实时产生的),因此数据库中的数据会进行大量频繁的读写;Hive中存储的数据往往是历史数据,因此数据本身一般不会产生读写。

5. 索引:数据库中一般会自动针对主键来建立主键索引,在使用过程中也可以针对其他字段来手动建立索引;由于Hive管理的数据量相对比较大,所以在建表的时候并不会扫描数据,因此不会自动建立索引。

6. 执行引擎:数据库往往会提供自己的执行引擎;Hive是将SQL转化为MapReduce来执行,因此Hive是基于Hadoop YARN来执行的。

7. 可扩展性:数据库要严格遵循ACID的定义,所以数据库的扩展能力较差(到目前为止,最大的数据库集群Oracle支持最多不超过100台服务器);Hive是基于HDFS来存储,HDFS的集群规模就决定了Hive集群的扩展规模。

8. 数据规模:数据库因为集群规模的限制,所以能存储GB级别的数据;Hive基于HDFS,因此能够轻松的存储上TB级别的数据甚至于PB级别。

三、特点

1. 优点

a. 提供了类SQL来进行操作,也就意味着Hive相对易于学习,易于推广。

b. 避免程序员去学习MapReduce的规则,在Hive底层会自动将SQL转化为MapReduce,降低了程序员的学习成本。

c. Hive能够批量的处理数据,因此在大数据场景中更具有优势。

d. 支持用户自定义函数,允许用户根据需求定义当前场景可以使用的函数。

2. 缺点

a. Hive采用了类SQL语言,使得它本身的表达能力比较有限:当需求比较复杂的时候,此时SQL的写法可能比较复杂,甚至于SQL无法表达。

b. Hive的效率相对比较低:本身MapReduce的执行效率就不高,Hive还要将SQL转化为MapReduce,然后才能执行,所以就导致Hive的执行效率更低。

c. Hive不擅长做数据挖掘。文章来源地址https://www.toymoban.com/news/detail-629436.html

到了这里,关于大数据课程F1——HIve的概述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数仓工具Hive 概述

    Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 通过Hive可以将mapreduce程序的复杂编写过程抽象为简单的sql语句,它提供一种sql语句到mapreduce程序的映射,提高了开发效率。 另外: (1)Hive中每张表的数据存

    2024年02月11日
    浏览(46)
  • Hive概述

    1 Hive简介 ####1.1 什么是 Hive Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。 Hive 本质: 将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用

    2024年02月16日
    浏览(38)
  • Hive 概述及其实现原理

    作者:禅与计算机程序设计艺术 Apache Hive 是开源的分布式数据仓库基础构件之一,其提供简单的查询语言 SQL 来访问存储在 Hadoop 分布式文件系统 (HDFS) 中的数据。Hive 通过将 MapReduce 操作转换成基于 Tez 的运行框架并结合 HDFS 的存储机制,以提高查询性能。因此,Hive 可以为用

    2024年02月08日
    浏览(38)
  • 关于黑马hive课程案例FineBI中文乱码的解决

    情况1:FineBI导入表名中文乱码,字段内容正常 情况2:FineBI导入表字段中文乱码,表名内容正常 使用navcat等工具连接node1 mysql数据库,执行下列代码,修改相关字符集格式 执行的时机 准备数据表阶段和清洗数据阶段都可,需在完成需求生成结果表之前 如果出现字段中文乱码

    2024年02月09日
    浏览(41)
  • Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

    前言: 本篇文章在已经安装 Hadoop 3.3.4 与 Hive 3.1.3 版本的基础上进行,与笔者版本不一致也没有关系,按照步骤来就行了。 如果你不想使用低版本的 Spark(例如: Spark 2.x 系列),请直接跳转到本文目录【重编译源码】。 详情查看我的这篇博客:Hadoop 完全分布式搭建(超详细)

    2024年02月07日
    浏览(39)
  • Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式

    本篇主要讲解一下Hive的文件格式,官方文档见《 https://cwiki.apache.org/confluence/display/Hive/FileFormats》、《 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-StorageFormatsStorageFormatsRowFormat,StorageFormat,andSerDe》 HIve的文件存储格式常见的有四种:textfile 、sequencefile、or

    2024年01月22日
    浏览(41)
  • 【大数据Hive】hive 表数据优化使用详解

    目录 一、前言 二、hive 常用数据存储格式 2.1 文件格式-TextFile 2.1.1 操作演示

    2024年02月08日
    浏览(43)
  • Hive--清除/删除Hive表数据

    1、概述 hive 表删除部分数据不支持使用 Delete From table_name where …语句 hive表删除数据要分为不同的粒度:table、partition、partition内 2、有 Partition 分区表 有分区字段的数据表,删除数据时要注意分两种情况: 1、根据分区删除数据,可以删除满足条件的分区,具体代码格式如下

    2024年02月15日
    浏览(32)
  • 【大数据Hive】hive 加载数据常用方案使用详解

    目录 一、前言 二、load 命令使用 2.1 load 概述 2.1.1 load 语法规则

    2024年02月10日
    浏览(42)
  • 【hive 运维】hive注释/数据支持中文

    hive支持中文需要关注两个方面: 设置hive 元数据库中的一些表 设置hive-site.xml.   由于Hive元数据(表的属性、字段定义等)都是存储在Mysql中,所以在mysql连接中设置支持中文 characterEncoding=UTF-8 具体的在hive-site.xml中:   重启hive-server   建表   插入数据   注:含有中文列的表

    2024年02月14日
    浏览(68)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包