Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式

这篇具有很好参考价值的文章主要介绍了Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


本篇主要讲解一下Hive的文件格式,官方文档见《 https://cwiki.apache.org/confluence/display/Hive/FileFormats》、《 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-StorageFormatsStorageFormatsRowFormat,StorageFormat,andSerDe》

一、Hive文件存储格式

HIve的文件存储格式常见的有四种:textfile 、sequencefile、orc、parquet ,前面两种是行式存储,后面两种是列式存储。

hive的存储格式指表的数据是如何在HDFS上组织排列的。

文件格式 类型 存储 备注 使用情况
TextFile 文本 行存储 存储为纯文本文件。TEXTFILE是默认的文件格式,除非配置参数hive.default.fileframe具有不同的设置。 一般
SequenceFile 二进制 行存储 存储为压缩序列文件。 生产中基本不会用,k-v格式,比源文本格式占用磁盘更多
RCFile 二进制 列存储 存储为记录列文件格式。 生产中用的少,行列混合存储,ORC是他得升级版
ORC 二进制 列存储 存储为ORC文件格式。ORC支持ACID事务和基于成本的优化器(CBO)。存储列级元数据。 生产中最常用,列式存储
Parquet 二进制 列存储 生产中最常用,列式存储
Avro 二进制 行存储 生产中几乎不用
JSONFILE 二进制 列存储 Hive 4.0.0 及以上版本才支持
STORED BY 非hive的表,例如Hbase、Druid or Accumulo的表
INPUTFORMAT and OUTPUTFORMAT 自定义的文件格式

注:RCFile 和 ORCFile 并不是纯粹的列式存储,它是先基于行对数据表进行分组(行组),然后对行组进行列式存储

行存储 VS 列存储 行存储和列存储方式是指数据在磁盘中按照行或者列的方式进行组织和物理存储

行存储 –适合增加、插入、删除、修改的事务处理处理 –对列的统计分析却需要耗费大量的I/O。对指定列进行统计分析时,需要把整张表读取到内存,然后再逐行对列进行读取分析操作

列存储 –对增加、插入、删除、修改的事务处理I/O高、效率低 –非常适合做统计查询类操作,统计分析一般是针对指定列进行,只需要把指定列读取到内存进行操作

1.1、行存储与列存储

行式存储下一张表的数据都是放在一起的,但列式存储下数据被分开保存了。

行式存储:

  • 优点:数据被保存在一起,insert和update更加容易
  • 缺点:选择(selection)时即使只涉及某几列,所有数据也都会被读取

列式存储:

  • 优点:查询时只有涉及到的列会被读取,效率高
  • 缺点:选中的列要重新组装,insert/update比较麻烦

如下图,箭头的方向代表了数据是如何进行(写入)组织排列的。
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式

Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
【结论:由上图可知】

  • 行式存储一定会把同一行数据存到同一个块中,在select查询的时候,是对所有字段的查询,不可以单独查询某一列。
  • 列式存储同一列数据一定是存储到同一个块中,换句话说就是不同的列可以放到不同块中,在进行select查询的时候可以单独查询某一列。

我们看下这几种存储结构的优缺点:
以下表格为例:
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
1> 水平的行存储结构:

采用行式存储时,数据在磁盘上的组织结构为:
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
行存储模式就是把一整行存在一起,包含所有的列,这是最常见的模式。这种结构能很好的适应动态的查询。

比如:

select a from tableA 和 select a, b, c, d, e, f, g from tableA

这样两个查询其实查询的开销差不多,都需要把所有的行读进来过一遍,拿出需要的列。
而且这种情况下,属于同一行的数据都在同一个 HDFS 块上,重建一行数据的成本比较低。

但是这样做有两个主要的弱点

  • 当一行中有很多列,而我们只需要其中很少的几列时,我们也不得不把一行中所有的列读进来,然后从中取出一些列。这样大大降低了查询执行的效率。
  • 基于多个列做压缩时,由于不同的列数据类型和取值范围不同,压缩比不会太高。

2> 垂直的列存储结构:

采用列式存储时,数据在磁盘上的组织结构为:
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
列存储是将每列单独存储或者将某几个列作为列组存在一起。

好处:

  • 列存储在执行查询时可以避免读取不必要的列。
  • 而且一般同列的数据类型一致,取值范围相对多列混合更小,在这种情况下压缩数据能达到比较高的压缩比。

弱点:

  • 这种结构在重建行时比较费劲,尤其当一行的多个列不在一个 HDFS 块上的时候。比如我们从第一个 DataNode 上拿到 column A,从第二个 DataNode 上拿到了 column B,又从第三个 DataNode 上拿到了 column C,当要把 A,B,C 拼成一行时,就需要把这三个列放到一起重建出行,需要比较大的网络开销和运算开销。

3> 混合的 PAX 存储结构:
​ PAX 结构是将行存储和列存储混合使用的一种结构,主要是传统数据库中提高 CPU 缓存利用率的一种方法,并不能直接用到 HDFS 中。但是 RCFile 和 ORC 是继承自它的思想,先按行存再按列存。

二、Hive存储格式

2.1、TextFile

TextFile 为 Hive 默认格式,建表时无需指定,一般默认这种格式,以这种格式存储的文件,可以直接在 HDFS 上 cat 查看数据。

可以用任意分隔符对列分割,建表时需要指定分隔符。

不会对文件进行压缩,因此加载数据的时候会比较快,因为不需要解压缩;但也因此更占用存储空间。

默认文件存储格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合 Gzip、Bzip2 使用,进行数据的压缩,但是使用Gzip的时候,数据不能进行切分。

stored as textfile;  -- 可不指定(默认格式)

TextFile 优缺点:

  • TextFile 格式因为不对导入的数据文件做处理,所以可以直接使用 load 方式加载数据,其他存储格式则不能使用 load 直接导入数据文件。所以 TextFile 的加载速度是最高的。
  • TextFile 格式虽然可以使用 Gzip 压缩算法,但压缩后的文件不支持 split切分。在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比 SequenceFile 高几十倍。

2.2、SequenceFile

SequenceFile是Hadoop API提供的一种二进制文件格式, 文件内容是以序列化的kv对象来组织的,其具有使用方便、可分割、可压缩的特点。 SequenceFile支持三种压缩选择:none,record,block。Record压缩率低,一般建议使用BLOCK压缩。

无压缩(NONE):如果没有启用压缩(默认设置)那么每个记录就由它的记录长度(字节数)、键的长度,键和值组成。长度字段为 4 字节。

记录压缩(RECORD):记录压缩格式与无压缩格式基本相同,不同的是值字节是用定义在头部的编码器来压缩。注意:键是不压缩的。

块压缩(BLOCK):块压缩一次压缩多个记录,因此它比记录压缩更紧凑,而且一般优先选择。当记录的字节数达到最小大小,才会添加到块。该最小值由 io.seqfile.compress.blocksize 中的属性定义。默认值是 1000000 字节。格式为记录数、键长度、键、值长度、值。Record 压缩率低,一般建议使用 BLOCK 压缩。

stored as sequencefile;

设置压缩格式为块压缩:

set mapred.output.compression.type=BLOCK;

生产中基本不会用,k-v格式,比源文本格式占用磁盘更多

2.3、RCFile

RCFile 文件格式是 FaceBook 开源的一种 Hive 的文件存储格式,首先将表分为几个行组,对每个行组内的数据进行按列存储,每一列的数据都是分开存储,正是 “先水平划分,再垂直划分” 的理念。
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式

首先对表进行行划分,分成多个行组。一个行组主要包括:

  • 16 字节的 HDFS 同步块信息,主要是为了区分一个 HDFS 块上的相邻行组;
  • 元数据的头部信息主要包括该行组内的存储的行数、列的字段信息等等;
  • 数据部分我们可以看出 RCFile 将每一行,存储为一列,将一列存储为一行,因为当表很大,我们的字段很多的时候,我们往往只需要取出固定的一列就可以。

在一般的行存储中 select a from table,虽然只是取出一个字段的值,但是还是会遍历整个表,所以效果和 select * from table 一样,在 RCFile 中,像前面说的情况,只会读取该行组的一行。

stored as rcfile;

在存储空间上:

  • RCFile 是行划分,列存储,采用游程编码,相同的数据不会重复存储,很大程度上节约了存储空间,尤其是字段中包含大量重复数据的时候。
    懒加载:
  • 数据存储到表中都是压缩的数据,Hive 读取数据的时候会对其进行解压缩,但是会针对特定的查询跳过不需要的列,这样也就省去了无用的列解压缩。

如:

select c from table where a>1

针对行组来说,会对每个行组的a列进行解压缩,如果当前列中有 a>1 的值,然后才去解压缩 c。若当前行组中不存在 a>1 的列,那就不用解压缩 c,从而跳过整个行组。

生产中用的少,行列混合存储,ORC是他得升级版

2.4、ORCFile

ORCFile 是列式存储。

建表时需指定 STORED AS ORC,文件存储方式为二进制文件。

Orc表支持None、Zlib、Snappy压缩,默认支持Zlib压缩。

Zlib 压缩率比 Snappy 高,Snappy 效率比 Zlib 高。

这几种压缩方式都不支持文件分割,所以压缩后的文件在执行 Map 操作时只会被一个任务所读取。

因此若压缩文件较大,处理该文件的时间比处理其它普通文件的时间要长,造成数据倾斜。

另外,hive 建事务表需要指定为 orc 存储格式。

2.4.1-ORC相比较 RCFile 的优点

  • ORC 是在一定程度上扩展了 RCFile,是对 RCFile 的优化:
  • ORC 扩展了 RCFile 的压缩,除了 Run-length(游程编码),引入了字典编码和 Bit 编码。
  • 每个 task 只输出单个文件,这样可以减少 NameNode 的负载;
    支持各种复杂的数据类型,比如:datetime,decimal,以及一些复杂类型(struct, list, map,等);
  • 文件是可切分(Split)的。在 Hive 中使用 ORC 作为表的文件存储格式,不仅节省 HDFS 存储资源,查询任务的

2.4.2-ORC的基本结构

ORCFile 在 RCFile 基础上引申出来 Stripe 和 Footer 等。每个 ORC 文件首先会被横向切分成多个 Stripe,而每个 Stripe 内部以列存储,所有的列存储在一个文件中,而且每个 stripe 默认的大小是 250MB,相对于 RCFile 默认的行组大小是 4MB,所以比 RCFile 更高效。

下图是 ORC 的文件结构示意图:
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式

ORC 文件结构由三部分组成:

条带(stripe):ORC 文件存储数据的地方。
文件脚注(file footer):包含了文件中 stripe 的列表,每个 stripe 的行数,以及每个列的数据类型。它还包含每个列的最小值、最大值、行计数、 求和等聚合信息。
postscript:记录了Stripe的压缩类型以及FileFooter的长度信息等。

stripe 结构同样可以分为三部分:index data、rows data 和 stripe footer:

index data:一个轻量级的索引,默认每隔1W行做一个索引,记录某行的各字段在Row Data中的offset;
rows data:存储的是具体的数据,先取数据中部分行,将行按列进行存储。并对每个列进行了编码,分成多个Stream存储;
stripe footer:存储的是各个Stream的类型,长度等信息。

rows data 存储两部分的数据,即 metadata stream 和 data stream:

metadata stream:用于描述每个行组的元数据信息。
data stream:存储数据的地方。

读取文件时,先从文件尾部读取Post Script,解析到File Footer的长度,再读File Footer,解析到每个Stripe信息,获取到每个Stream的信息,随后通过Stream,以及Index进行读取数据。

生产中最常用,列式存储

2.5、Parquet

源自于googleDremel系统,Parquet相当于Google Dremel中的数据存储引擎 Apache Parquet 最初的设计动机是存储嵌套式数据,比如Protocolbuffer,thrift,json等,将这类数据存储成列式格式,以方便对其高效压缩和编码,使用更少的IO操作取出需要的数据,这也是Parquet相比于ORC的优势,它能够透明地将Protobuf和thrift类型的数据进行列式存储 存储metadata,支持schema变更

Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。

STORED AS PARQUET

可以使用的压缩方式有 UNCOMPRESSED、 SNAPPY、GZP和LZO。默认值为 UNCOMPRESSED,表示页的压缩方式
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
上图展示了一个Parquet文件的内容,一个文件中可以存储多个行组,

  • 文件的首位是该文件的Magic Code,用于校验它是否是一个Parquet文件
  • Footer length记录了文件元数据的大小,通过该值和文件长度可以计算出元数据的偏移量
  • 元数据:包括行组的元数据信息和该文件存储数据的Schema信息。除了文件中每一个行组的元数据,每一页的开始都会存储该页的元数据。
  • 在Parquet中,有三种类型的页:数据页、字典页和索引页。
    • 数据页存储行组中该列的值;
    • 字典页存储该列值的编码字典,每一个列块中最多包含一个字典页
    • 索引页用来存储当前行组下该列的索引,目前Parquet中还不支持索引页。

生产中最常用,列式存储

2.6、Avro

Avro是一种用于支持数据密集型的二迚制文件格式。它的文件格式更为紧凑,若要读取大量数据时,Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的,所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop子项目都支持Avro 数据格式,如Pig 、Hive、Flume、Sqoop和Hcatalog

生产中几乎不用

2.7、自定义文件格式

除了默认的几种文件格式,用户还可以自定义文件格式 通过继承InputFormat和OutputFormat来自定义文件格式 创建表时指定InputFormat和OutputFormat,来读取Hive中的数据

CREATE TABLE base64example(line string) STORED AS inputformat'org.apache.hadoop.hive.contrib.fileformat.base64.Base64TextInputFormat' outputformat'org.apache.hadoop.hive.contrib.fileformat.base64.Base64TextOutputFormat';

三、Parquet 和 ORC对比

3.1、ORC和Parquet有什么区别

ORC和Parquet是两种不同的列式存储文件格式,他们的区别如下:

1.压缩比率: ORC通常比Parquet具有更高的压缩比率,因为他使用了更先进的压缩算法,如Snappy、LZO、Zlib等。 但这也导致ORC在写入时需要更高的CPU消耗。

2.读取速度: Parquet通常比ORC读取地更快,因为Parquet采用更简单和更快速的压缩算法。 但在查询和过滤性方面,ORC可能更好一点,因为它支持更复杂的谓词下推和向量化处理。

3.使用场景: ORC通常在需要高度压缩和低延迟的场景下使用,如交互式分析和实时报告。 而Parquet适用于需要高吞吐量和可伸缩性的场景,如数据仓库和批量ETL作业。

4.支持的数据类型: ORC支持较多种类的数据类型,包括Map和Array等复杂的数据类型,而Parquet支持的数据类型较少,适用于简单的数据类型。

5.支持的生态系统: Parquet被广泛地支持和采用,如sprak、hadoop、hive;ORC相对较少得到支持,只有一些特定的工具和平台使用它,如hive。

综上所述,选择ORC还是Parquet取决于具体的应用场景和需求,需要权衡数据大小、读写速度以及压缩率等因素。

3.2、Parquet 和 ORC 压缩格式对比

Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式

  • ORC 表支持 None、Zlib、Snappy 压缩,默认为 ZLIB 压缩。但这 3 种压缩格式不支持切分,所以适合单个文件不是特别大的场景。使用 Zlib 压缩率高,但效率差一些;使用 Snappy 效率高,但压缩率低。
  • Parquet 表支持 Uncompress、Snappy、Gzip、Lzo 压缩,默认不压缩(Uncompressed)。其中 Lzo 压缩是支持切分的,所以在表的单个文件较大的场景会选择 Lzo 格式。Gzip 方式压缩率高,效率低;而 Snappy、Lzo 效率高,压缩率低。

四、实际生产中Hive一般用什么文件格式和压缩方式?

文件格式:TextFile格式(文本文件)、ORC格式(ORC文件)、Parquet格式

压缩方式:Snappy压缩(速度快、但无法切分)、Gzip压缩

根据性能测试总结:

  • 从存储文件的压缩比来看,ORC和Parquet文件格式占用的空间相对而言要小得多。
  • 从存储文件的查询速度看,当表数据量较大时Parquet文件格式查询耗时相对而言要小得多。

实际情况:
根据目前主流的做法来看,Hive中选用ORC和Parquet文件格式似乎更好一点,但是为什么Hive默认的文件存储格式是TextFile?
这是因为大多数情况下源数据文件都是以text文件格式保存(便于查看验数和防止乱码),这样TextFile文件格式的Hive表能直接load data数据。

如果说我们想使用ORC文件或者Parquet文件格式的表数据,可以先通过TextFile表加载后再insert到指定文件存储格式的表中。而这些不同文件格式的表我们可以通过数据分层保存,便于后期进行数据统计。

五、存储空间与执行效率的对比

这里我们根据不同的文件格式,新建测试表。

--textfile文件格式
CREATE TABLE `test_textfile`(`id` STRING,…,`desc` STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS textfile;
--parquet文件格式
CREATE TABLE `test_parquet`(`id` STRING,…,`desc` STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS parquet;
--orc文件格式
CREATE TABLE `test_orc`(`id` STRING,…,`desc` STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS orc;
--sequence文件格式
CREATE TABLE `test_sequence`(`id` STRING,…,`desc` STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS sequence;
--rc文件格式
CREATE TABLE `test_rc`(`id` STRING,…,`desc` STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS rc;
--avro文件格式
CREATE TABLE `test_avro`(`id` STRING,…,`desc` STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS avro;

区别比较
我们从同一个源表新增数据到这六张测试表,为了体现存储数据的差异性,我们选取了一张数据量比较大的源表(源表数据量为30000000条)。
下面从存储空间和SQL查询两个方面进行比较。
其中SQL查询为包含group by的计量统计和不含group by的计量统计。

sql01:select count(*) from test_table;
sql02:select id,count(*) from test_table group by id;

相关的查询结果如下(为了防止出现偶然性,我们每条SQL至少执行三次,取平均值)

文件存储格式 HDFS存储空间 不含group by 含group by
TextFile 7.3 G 105s 370s
Parquet 769.0 M 28s 195s
ORC 246.0 M 34s 310s
Sequence 7.8 G 135s 385s
RC 6.9 G 92s 330s
AVRO 8.0G 240s 530s

结论
从上面的测试结果可以看出

  • 从占用存储空间来看,ORC和Parquet文件格式占用的空间相对而言要小得多。
  • 从执行SQL效率来看,Parquet文件格式查询耗时要相对而言要小得多。

六. Hive压缩格式

在实际工作当中,hive当中处理的数据,一般都需要经过压缩,使用压缩来节省我们的MR处理的网络带宽。

6.1、mr支持的压缩格式:

Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
hadoop支持的解压缩的类:
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
压缩性能的比较:
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
hadoop需要配置的压缩参数:
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式

6.2、hive配置压缩的方式:

6.2.1、开启map端的压缩方式:

1.1)开启hive中间传输数据压缩功能
 hive (default)>set hive.exec.compress.intermediate=true;
1.2)开启mapreduce中map输出压缩功能
 hive (default)>set mapreduce.map.output.compress=true;
1.3)设置mapreduce中map输出数据的压缩方式
 hive (default)>set mapreduce.map.output.compress.codec
                  = org.apache.hadoop.io.compress.SnappyCodec;
1.4)执行查询语句
 select count(1) from score;

6.2.2、开启reduce端的压缩方式:

1)开启hive最终输出数据压缩功能
 hive (default)>set hive.exec.compress.output=true;
2)开启mapreduce最终输出数据压缩
 hive (default)>set mapreduce.output.fileoutputformat.compress=true;
3)设置mapreduce最终数据输出压缩方式
 hive (default)> set mapreduce.output.fileoutputformat.compress.codec 
                       = org.apache.hadoop.io.compress.SnappyCodec;
4)设置mapreduce最终数据输出压缩为块压缩
 hive (default)>set mapreduce.output.fileoutputformat.compress.type
                       =BLOCK;
5)测试一下输出结果是否是压缩文件
insert overwrite local directory '/export/servers/snappy' 
select * from score distribute by s_id sort by s_id desc;

七、hive中存储格式和压缩相结合

以ORC举例,相关配置参数:
Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式,大数据,hive文件格式,hive存储格式,hive压缩格式
创建一个非压缩的ORC存储方式:

1)建表语句
    create table log_orc_none(
    track_time string,
    url string,
    session_id string
    )ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
    STORED AS orc tblproperties ("orc.compress"="NONE");
2)插入数据
 insert into table log_orc_none select * from log_text ;
3)查看插入后数据
 dfs -du -h /user/hive/warehouse/myhive.db/log_orc_none;
 结果显示:
 7.7 M  /user/hive/warehouse/log_orc_none/123456_0

创建一个SNAPPY压缩的ORC存储方式:

1)建表语句
    create table log_orc_snappy(
    track_time string,
    url string,
    session_id string
    )ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
    STORED AS orc tblproperties ("orc.compress"="SNAPPY");
2)插入数据
 insert into table log_orc_snappy select * from log_text ;
3)查看插入后数据
 dfs -du -h /user/hive/warehouse/myhive.db/log_orc_snappy ;
 结果显示: 
 3.8 M  /user/hive/warehouse/log_orc_snappy/123456_0
 
4)实际上:默认orc存储文件默认采用ZLIB压缩。比snappy压缩率还高。

存储方式和压缩总结:

在实际的项目开发当中,hive表的数据存储格式一般选择:orc或parquet。 压缩方式一般选择snappy。

八、hive主流存储格式性能对比

从存储文件的压缩比和查询速度两个角度对比

8.1、压缩比比较

(1)创建表,存储数据格式为TEXTFILE、ORC、Parquet
    create table log_text (
    track_time string,
    url string,
    session_id string,
    )ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
    STORED AS TEXTFILE  ;

(2)向表中加载数据
 load data local inpath '/export/servers/hivedatas/log.data' into table log_text ;

(3)查看表中数据大小,大小为18.1M
 dfs -du -h /user/hive/warehouse/myhive.db/log_text;

...
textfile:结果显示: 
 18.1 M  /user/hive/warehouse/log_text/log.data


ORC 结果显示:
 2.8 M  /user/hive/warehouse/log_orc/123456_0

Parquet结果显示:
13.1 M  /user/hive/warehouse/log_parquet/123456_0

数据压缩比结论: ORC > Parquet > textFile

8.2、存储文件的查询效率测试

1)textfile
hive (default)> select count(*) from log_text;
_c0
100000
Time taken: 21.54 seconds, Fetched: 1 row(s)  

2)orc
hive (default)> select count(*) from log_orc;
_c0
100000
Time taken: 20.867 seconds, Fetched: 1 row(s) 


3)parquet
hive (default)> select count(*) from log_parquet; 
_c0
100000
Time taken: 22.922 seconds, Fetched: 1 row(s)

存储文件的查询效率比较: ORC > TextFile > Parquet文章来源地址https://www.toymoban.com/news/detail-815934.html



参考文章: https://cloud.tencent.com/developer/article/1880494

到了这里,关于Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hive ---- 文件格式和压缩

    为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示: Hadoop查看支持压缩的方式hadoop checknative。 Hadoop在driver端设置压缩。 压缩性能的比较: 为Hive表中的数据选择一个合适的文件格式,对提高查询性能的提高是十分有益的。Hive表数据的存储格式,可以选择

    2024年02月16日
    浏览(32)
  • hive之文件格式与压缩

      为Hive表中的数据选择一个合适的文件格式,对提高查询性能的提高是十分有益的。Hive表数据的存储格式,可以选择text file、orc、parquet、sequence file等。 文本文件就是txt文件,我们默认的文件类型就是txt文件 ORC介绍:   ORC(Optimized Row Columnar)file format是Hive 0.11版里引入的

    2024年02月16日
    浏览(36)
  • 进阶数据库系列(十一):PostgreSQL 存储过程

    前面介绍了 PostgreSQL 数据类型和运算符、常用函数、锁操作、执行计划、视图与触发器相关的知识点,今天我将详细的为大家介绍 PostgreSQL 存储过程相关知识,希望大家能够从中收获多多!如有帮助,请点在看、转发支持一波!!! 工作中可能会存在业务比较复杂,重复性

    2024年02月03日
    浏览(37)
  • tim实践系列——分布式数据存储与动态数据库扩容

    前言: tim是去中心化分布式即时通讯引擎。不依赖于任何中心服务器,采用去中心化分布式架构,解决传统中心化通讯方式的问题,去中心化分布式架构的通讯引擎的各个节点之间相互连接,形成一个庞大的分布式网络。可以轻松地扩展服务规模,支持更多的用户和业务需求

    2024年02月02日
    浏览(40)
  • HIVE基础-文件存储格式

    Hive的文件存储格式 文件主要存储格式有四种:textfile、sequencefile、orc、parquet 在Hive建表的时候可以指定文件存储格式,具体可见:HIVE操作语句–DDL篇 file_format代表文件格式; 常用的文件格式:textfile(文本)、sequencefile(二进制序列文件)、rcfile(列式存储) 前提:行式存储以及列

    2024年02月11日
    浏览(35)
  • ArcGIS Server 数据存储之注册文件夹及数据库

    使用 ArcGIS Server 管理器将数据目录和数据库注册到 ArcGIS Server。数据注册为服务器提供了服务源数据的来源位置列表。数据注册具有以下优点: 数据注册可帮助您验证服务是否引用服务器管理员已知和批准的数据位置。 数据注册允许 ArcGIS Server 在将地图、模型或其他资源

    2024年04月13日
    浏览(29)
  • 大数据开发之Hive(压缩和存储)

    Hive不会强制要求将数据转换成特定的格式才能使用。利用Hadoop的InputFormat API可以从不同数据源读取数据,使用OutputFormat API可以将数据写成不同的格式输出。 对数据进行压缩虽然会增加额外的CPU开销,但是会节约客观的磁盘空间,并且通过减少内存的数据量而提高I/O吞吐量会

    2024年01月17日
    浏览(34)
  • hive文件存储格式orc和parquet详解

    hive支持的文件类型:textfile、sequencefile(二进制序列化文件)、rcfile(行列式文件)、parquet、orcfile(优化的行列式文件) 带有描述式的行列式存储文件。将数据分组切分,一组包含很多行,每一行再按例进行存储。 orc文件结合了行式和列式存储结构的优点,在有大数据量扫

    2024年02月03日
    浏览(29)
  • Hive底层数据存储格式

    在大数据领域,Hive是一种常用的数据仓库工具,用于管理和处理大规模数据集。Hive底层支持多种数据存储格式,这些格式对于数据存储、查询性能和压缩效率等方面有不同的优缺点。本文将介绍Hive底层的三种主要数据存储格式:文本文件格式、Parquet格式和ORC格式。 文本文

    2024年02月12日
    浏览(49)
  • 利用python将json格式的文件导入neo4j图数据库

    笔者收到了朋友的求助,希望我写一段python代码将含对用关系的json文件导入neo4j图数据库。json的格式如下: 他说数据量有几十万条,而且对应关系不唯一:但可以保证每条都含有名称和治疗,但是可能有若干条其他的对用关系,例如上文的例子:其既包含之前的三个模块,

    2024年02月16日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包