HBase写入流程详解

这篇具有很好参考价值的文章主要介绍了HBase写入流程详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

HBase采用LSM树架构,天生适用于写多读少的应用场景。在真实生产线环境中,也正是因为HBase集群出色的写入能力,才能支持当下很多数据激增的业务。需要说明的是,HBase服务端并没有提供update、delete接口,HBase中对数据的更新、删除操作在服务器端也认为是写入操作,不同的是,更新操作会写入一个最新版本数据,删除操作会写入一条标记为deleted的KV数据。所以HBase中更新、删除操作的流程与写入流程完全一致。

一、写入流程的三个阶段

hbase数据写入流程,Hadoop,Hbase,大数据,hbase,大数据,数据库
从整体架构的视角来看,写入流程可以概括为三个阶段。
(1)客户端处理阶段:客户端将用户的写入请求进行预处理,并根据集群元数据定位写入数据所在的RegionServer,将请求发送给对应的RegionServer。
(2)Region写入阶段:RegionServer接收到写入请求之后将数据解析出来,首先写入WAL,再写入对应Region列簇的MemStore。
(3)MemStore Flush阶段:当Region中MemStore容量超过一定阈值,系统会异步执行flush操作,将内存中的数据写入文件,形成HFile。
注意:用户写入请求在完成Region MemStore的写入之后就会返回成功。MemStore Flush是一个异步执行的过程。

1,客户端处理阶段

HBase客户端处理写入请求的核心流程基本上可以概括为三步。
(1)步骤1:
用户提交put请求后,HBase客户端会将写入的数据添加到本地缓冲区中,符合一定条件就会通过AsyncProcess异步批量提交。HBase默认设置autoflush=true,表示put请求直接会提交给服务器进行处理;用户可以设置autoflush=false,这样,put请求会首先放到本地缓冲区,等到本地缓冲区大小超过一定阈值(默认为2M,可以通过配置文件配置)之后才会提交。很显然,后者使用批量提交请求,可以极大地提升写入吞吐量,但是因为没有保护机制,如果客户端崩溃,会导致部分已经提交的数据丢失。
(2)步骤2:
在提交之前,HBase会在元数据表hbase:meta中根据rowkey找到它们归属的RegionServer,这个定位的过程是通过HConnection的locateRegion方法完成的。如果是批量请求,还会把这些rowkey按照HRegionLocation分组,不同分组的请求意味着发送到不同的RegionServer,因此每个分组对应一次RPC请求。
(3)步骤3:
HBase会为每个HRegionLocation构造一个远程RPC请求MultiServerCallable,并通过rpcCallerFactory.newCaller()执行调用。将请求经过Protobuf序列化后发送给对应的RegionServer。

2,Region写入阶段

hbase数据写入流程,Hadoop,Hbase,大数据,hbase,大数据,数据库
服务器端RegionServer接收到客户端的写入请求后,首先会反序列化为put对象,然后执行各种检查操作,比如检查Region是否是只读、MemStore大小是否超过blockingMemstoreSize等。检查完成之后,执行一系列核心操作,如上图所示。
(1)Acquire locks:HBase中使用行锁保证对同一行数据的更新都是互斥操作,用以保证更新的原子性,要么更新成功,要么更新失败。
(2)Update LATEST_TIMESTAMP timestamps:更新所有待写入(更新)KeyValue的时间戳为当前系统时间。
(3)Build WAL edit:HBase使用WAL机制保证数据可靠性,即首先写日志再写缓存,即使发生宕机,也可以通过恢复HLog还原出原始数据。该步骤就是在内存中构建WALEdit对象,为了保证Region级别事务的写入原子性,一次写入操作中所有KeyValue会构建成一条WALEdit记录。
(4)Append WALEdit To WAL:将步骤3中构造在内存中的WALEdit记录顺序写入HLog中,此时不需要执行sync操作。当前版本的HBase使用了disruptor实现了高效的生产者消费者队列,来实现WAL的追加写入操作。
(5)Write back to MemStore:写入WAL之后再将数据写入MemStore。
(6)Release row locks:释放行锁。
(7)Sync wal:HLog真正sync到HDFS,在释放行锁之后执行sync操作是为了尽量减少持锁时间,提升写性能。如果sync失败,执行回滚操作将MemStore中已经写入的数据移除。
(8)结束写事务:此时该线程的更新操作才会对其他读请求可见,更新才实际生效。
注意:branch-1的写入流程设计为:先在第6步释放行锁,再在第7步Sync WAL,最后在第8步打开mvcc让其他事务可以看到最新结果。正是这样的设计,导致了第4章4.2节中提到的“CAS接口是Region级别串行的,吞吐受限”问题。这个问题已经在branch-2中解决。

3. MemStore Flush阶段

随着数据的不断写入,MemStore中存储的数据会越来越多,系统为了将使用的内存保持在一个合理的水平,会将MemStore中的数据写入文件形成HFile。flush阶段是HBase的非常核心的阶段,理论上需要重点关注三个问题:
(1)MemStore Flush的触发时机。即在哪些情况下HBase会触发flush操作。
(2)MemStore Flush的整体流程。
(3)HFile的构建流程。HFile构建是MemStore Flush整体流程中最重要的一个部分,这部分内容会涉及HFile文件格式的构建、布隆过滤器的构建、HFile索引的构建以及相关元数据的构建等。

二、Region写入流程

数据写入Region的流程可以抽象为两步:追加写入HLog,随机写入MemStore。

1,追加写入HLog

HBase中HLog的文件格式、生命周期已经在第5章做了介绍。HLog保证成功写入MemStore中的数据不会因为进程异常退出或者机器宕机而丢失,但实际上并不完全如此,HBase定义了多个HLog持久化等级,使得用户在数据高可靠和写入性能之间进行权衡。

(1)HLog持久化等级

HBase可以通过设置HLog的持久化等级决定是否开启HLog机制以及HLog的落盘方式。

HLog的持久化等级的五个等级:
(1)SKIP_WAL:只写缓存,不写HLog日志。因为只写内存,因此这种方式可以极大地提升写入性能,但是数据有丢失的风险。在实际应用过程中并不建议设置此等级,除非确认不要求数据的可靠性。
(2)ASYNC_WAL:异步将数据写入HLog日志中。
(3)SYNC_WAL:同步将数据写入日志文件中,需要注意的是,数据只是被写入文件系统中,并没有真正落盘。HDFS Flush策略详见HADOOP-6313。
(4)FSYNC_WAL:同步将数据写入日志文件并强制落盘。这是最严格的日志写入等级,可以保证数据不会丢失,但是性能相对比较差。
(5)USER_DEFAULT:如果用户没有指定持久化等级,默认HBase使用SYNC_WAL等级持久化数据

(2)HLog写入模型

在HBase的演进过程中,HLog的写入模型几经改进,写入吞吐量得到极大提升。之前的版本中,HLog写入都需要经过三个阶段:首先将数据写入本地缓存,然后将本地缓存写入文件系统,最后执行sync操作同步到磁盘。
三个阶段是可以流水线工作的,基于这样的设想,写入模型自然就想到“生产者-消费者”队列实现。然而之前版本中,生产者之间、消费者之间以及生产者与消费者之间的线程同步都是由HBase系统实现,使用了大量的锁,在写入并发量非常大的情况下会频繁出现恶性抢占锁的问题,写入性能较差。

2,随机写入MemStore

KeyValue写入Region分为两步:首先追加写入HLog,再写入MemStore。MemStore使用数据结构ConcurrentSkipListMap来实际存储KeyValue,优点是能够非常友好地支持大规模并发写入,同时跳跃表本身是有序存储的,这有利于数据有序落盘,并且有利于提升MemStore中的KeyValue查找性能。
KeyValue写入MemStore并不会每次都随机在堆上创建一个内存对象,然后再放到ConcurrentSkipListMap中,这会带来非常严重的内存碎片,进而可能频繁触发Full GC。HBase使用MemStore-Local Allocation Buffer(MSLAB)机制预先申请一个大的(2M)的Chunk内存,写入的KeyValue会进行一次封装,顺序拷贝这个Chunk中,这样,MemStore中的数据从内存flush到硬盘的时候,JVM内存留下来的就不再是小的无法使用的内存碎片,而是大的可用的内存片段。

MemStore的写入流程可以表述为以下3步。
(1)检查当前可用的Chunk是否写满,如果写满,重新申请一个2M的Chunk。
(2)将当前KeyValue在内存中重新构建,在可用Chunk的指定offset处申请内存创建一个新的KeyValue对象。
(3)将新创建的KeyValue对象写入ConcurrentSkipListMap中。

三、MemStore Flush

1,触发条件

HBase触发flush操作的情况:
(1)MemStore级别限制:当Region中任意一个MemStore的大小达到了上限(hbase.hregion.memstore.flush.size,默认128MB),会触发MemStore刷新。
(2)Region级别限制:当Region中所有MemStore的大小总和达到了上限(hbase.hregion.memstore.block.multiplierhbase.hregion.memstore.flush.size),会触发MemStore刷新。
(3)RegionServer级别限制:当RegionServer中MemStore的大小总和超过低水位阈值hbase.regionserver.global.memstore.size.lower.limit
hbase.regionserver.global.memstore.
(4)size,RegionServer开始强制执行flush,先flush MemStore最大的Region,再flush次大的,依次执行。如果此时写入吞吐量依然很高,导致总MemStore大小超过高水位阈值hbase.regionserver.global.memstore.size,RegionServer会阻塞更新并强制执行flush,直至总MemStore大小下降到低水位阈值。
(5)当一个RegionServer中HLog数量达到上限(可通过参数hbase.regionserver.maxlogs配置)时,系统会选取最早的HLog对应的一个或多个Region进行flush。
(6)HBase定期刷新MemStore:默认周期为1小时,确保MemStore不会长时间没有持久化。为避免所有的MemStore在同一时间都进行flush而导致的问题,定期的flush操作有一定时间的随机延时。
(7)手动执行flush:用户可以通过shell命令flush’tablename’或者flush’regionname’分别对一个表或者一个Region进行flush。

2,执行流程

为了减少flush过程对读写的影响,HBase采用了类似于两阶段提交的方式,将整个flush过程分为三个阶段。
(1)prepare阶段:遍历当前Region中的所有MemStore,将MemStore中当前数据集CellSkipListSet(内部实现采用ConcurrentSkipListMap)做一个快照snapshot,然后再新建一个CellSkipListSet接收新的数据写入。prepare阶段需要添加updateLock对写请求阻塞,结束之后会释放该锁。因为此阶段没有任何费时操作,因此持锁时间很短。
(2)flush阶段:遍历所有MemStore,将prepare阶段生成的snapshot持久化为临时文件,临时文件会统一放到目录.tmp下。这个过程因为涉及磁盘IO操作,因此相对比较耗时。
(3)commit阶段:遍历所有的MemStore,将flush阶段生成的临时文件移到指定的ColumnFamily目录下,针对HFile生成对应的storefile和Reader,把storefile添加到Store的storefiles列表中,最后再清空prepare阶段生成的snapshot。

3, 生成HFile

HBase执行flush操作之后将内存中的数据按照特定格式写成HFile文件。

(1)HFile结构

HFile依次由Scanned Block、Non-scanned Block、Load-on-open以及Trailer四个部分组成。
1)Scanned Block:这部分主要存储真实的KV数据,包括Data Block、Leaf Index Block和Bloom Block。
2)Non-scanned Block:这部分主要存储Meta Block,这种Block大多数情况下可以不用关心。
3)Load-on-open:主要存储HFile元数据信息,包括索引根节点、布隆过滤器元数据等,在RegionServer打开HFile就会加载到内存,作为查询的入口。
4)Trailer:存储Load-on-open和Scanned Block在HFile文件中的偏移量、文件大小(未压缩)、压缩算法、存储KV个数以及HFile版本等基本信息。Trailer部分的大小是固定的。

注意:
1)MemStore中KV在flush成HFile时首先构建Scanned Block部分,即KV写进来之后先构建Data Block并依次写入文件,在形成Data Block的过程中也会依次构建形成Leaf index Block、BloomBlock并依次写入文件。一旦MemStore中所有KV都写入完成,Scanned Block部分就构建完成。
2)Non-scanned Block、Load-on-open以及Trailer这三部分是在所有KV数据完成写入后再追加写入的。

(2)构建"Scanned Block"部分

1)MemStore执行flush,首先新建一个Scanner,这个Scanner从存储KV数据的CellSkipListSet中依次从小到大读出每个cell(KeyValue)。这里必须注意读取的顺序性,读取的顺序性保证了HFile文件中数据存储的顺序性,同时读取的顺序性是保证HFile索引构建以及布隆过滤器Meta Block构建的前提。
2)appendGeneralBloomFilter:在内存中使用布隆过滤器算法构建Bloom Block,下文也称为Bloom Chunk。
3)appendDeleteFamilyBloomFilter:针对标记为"DeleteFamily"或者"DeleteFamilyVersion"的cell,在内存中使用布隆过滤器算法构建Bloom Block,基本流程和appendGeneralBloomFilter相同。
4)(HFile.Writer)writer.append:将cell写入Data Block中,这是HFile文件构建的核心。
hbase数据写入流程,Hadoop,Hbase,大数据,hbase,大数据,数据库

(3)构建Bloom Block

实际实现中使用chunk表示Block概念,布隆过滤器内存中维护了多个称为chunk的数据结构,一个chunk主要由两个元素组成:
1)一块连续的内存区域,主要存储一个特定长度的数组。默认数组中所有位都为0,对于row类型的布隆过滤器,cell进来之后会对其rowkey执行hash映射,将其映射到位数组的某一位,该位的值修改为1。
2)firstkey,第一个写入该chunk的cell的rowkey,用来构建Bloom Index Block。

hbase数据写入流程,Hadoop,Hbase,大数据,hbase,大数据,数据库
cell写进来之后,首先判断当前chunk是否已经写满,写满的标准是这个chunk容纳的cell个数是否超过阈值。如果超过阈值,就会重新申请一个新的chunk,并将当前chunk放入ready chunks集合中。如果没有写满,则根据布隆过滤器算法使用多个hash函数分别对cell的rowkey进行映射,并将相应的位数组位置为1。

(4)构建Data Block

一个cell在内存中生成对应的布隆过滤器信息之后就会写入Data Block,写入过程分为两步。
1)Encoding KeyValue:使用特定的编码对cell进行编码处理,HBase中主要的编码器有DiffKeyDeltaEncoder、FastDiffDeltaEncoder以及PrefixKeyDeltaEncoder等。编码的基本思路是,根据上一个KeyValue和当前KeyValue比较之后取delta,展开讲就是rowkey、column family以及column分别进行比较然后取delta。假如前后两个KeyValue的rowkey相同,当前rowkey就可以使用特定的一个flag标记,不需要再完整地存储整个rowkey。这样,在某些场景下可以极大地减少存储空间。
2)将编码后的KeyValue写入DataOutputStream。
随着cell的不断写入,当前Data Block会因为大小超过阈值(默认64KB)而写满。写满后Data Block会将DataOutputStream的数据flush到文件,该Data Block此时完成落盘。

(5)构建Leaf Index Block

Data Block完成落盘之后会立刻在内存中构建一个Leaf Index Entry对象,并将该对象加入到当前Leaf Index Block。

Leaf Index Entry对象有三个重要的字段。
(1)firstKey:落盘Data Block的第一个key。用来作为索引节点的实际内容,在索引树执行索引查找的时候使用。
(2)blockOffset:落盘Data Block在HFile文件中的偏移量。用于索引目标确定后快速定位目标Data Block。
(3)blockDataSize:落盘Data Block的大小。用于定位到Data Block之后的数据加载。
hbase数据写入流程,Hadoop,Hbase,大数据,hbase,大数据,数据库
注意:
1)Leaf Index Block会随着Leaf Index Entry的不断写入慢慢变大,一旦大小超过阈值(默认64KB),就需要flush到文件执行落盘。需要注意的是,Leaf Index Block落盘是追加写入文件的,所以就会形成HFile中Data Block、Leaf Index Block交叉出现的情况。
2)和Data Block落盘流程一样,Leaf Index Block落盘之后还需要再往上构建Root Index Entry并写入Root Index Block,形成索引树的根节点。但是根节点并没有追加写入"Scanned block"部分,而是在最后写入"Load-on-open"部分。
3)HFile文件中索引树的构建是由低向上发展的,先生成Data Block,再生成Leaf Index Block,最后生成Root Index Block。而检索rowkey时刚好相反,先在Root Index Block中查询定位到某个Leaf Index Block,再在Leaf Index Block中二分查找定位到某个Data Block,最后将Data Block加载到内存进行遍历查找。

(6)构建Bloom Block Index

完成Data Block落盘还有一件非常重要的事情:检查是否有已经写满的Bloom Block。如果有,将该Bloom Block追加写入文件,在内存中构建一个Bloom Index Entry并写入Bloom IndexBlock。
整个流程与Data Block落盘后构建Leaf Index Entry并写入Leaf Index Block的流程完全一样。

基本流程总结:
flush阶段生成HFile和Compaction阶段生成HFile的流程完全相同,不同的是,flush读取的是MemStore中的KeyValue写成HFile,而Compaction读取的是多个HFile中的KeyValue写成一个大的HFile,KeyValue来源不同。KeyValue数据生成HFile,首先会构建Bloom Block以及Data Block,一旦写满一个Data Block就会将其落盘同时构造一个Leaf Index Entry,写入Leaf Index Block,直至Leaf Index Block写满落盘。实际上,每写入一个KeyValue就会动态地去构建"Scanned Block"部分,等所有的KeyValue都写入完成之后再静态地构建"Non-scannedBlock"部分、"Load on open"部分以及"Trailer"部分。

4,MemStore Flush对业务的影响

在实践过程中,flush操作的不同触发方式对用户请求影响的程度不尽相同。正常情况下,大部分MemStore Flush操作都不会对业务读写产生太大影响。比如系统定期刷新MemStore、手动执行flush操作、触发MemStore级别限制、触发HLog数量限制以及触发Region级别限制等,这几种场景只会阻塞对应Region上的写请求,且阻塞时间较短。
然而,一旦触发RegionServer级别限制导致flush,就会对用户请求产生较大的影响。在这种情况下,系统会阻塞所有落在该RegionServer上的写入操作,直至MemStore中数据量降低到配置阈值内。

文章来源:《HBase原理与实践》 作者:胡争;范欣欣

文章内容仅供学习交流,如有侵犯,联系删除哦!文章来源地址https://www.toymoban.com/news/detail-620799.html

到了这里,关于HBase写入流程详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 14_基于Flink将pulsar数据写入到HBase

    3.7.1.编写Flink完成数据写入到Hbase操作, 完成数据备份, 便于后续进行即席查询和离线分析 3.7.1.1.HBase基本介绍 hbase是基于Google发布bigTable论文产生一款软件, 是一款noSQL型数据, 不支持SQL. 不支持join的操作, 没有表关系, 不支持事务(多行事务),hbase是基于 HDFS的采用java 语言编写 查

    2024年02月13日
    浏览(35)
  • HBase Shell操作&Flink写入HBase

    1)进入HBase客户端命令行 2)查看帮助命令 3)查看当前数据库中有哪些表 1)创建表 2)插入数据到表 3)扫描查看表数据 4)查看表结构 5)更新指定字段的数据 6)查看“指定行”或“指定列族:列”的数据 7)统计表数据行数 8)删除数据 9)清空表数据 10)删除表 11)变更

    2024年02月04日
    浏览(57)
  • Hadoop环境下HBase的安装部署与操作指南(图文详解)

    本文详细介绍了在Hadoop集群环境下HBase的安装部署步骤及相关操作,包括准备环节、版本兼容性检查、IP及IP映射修改、上传并解压安装包、配置HBASE_HOME等关键步骤,图文结合,为初学者和开发者提供一站式解决方案。

    2024年04月27日
    浏览(52)
  • Hbase数据库完全分布式搭建以及java中操作Hbase

    基础的环境准备不在赘述,包括jdk安装,防火墙关闭,网络配置,环境变量的配置,各个节点之间进行免密等操作等。使用的版本2.0.5. 参考官方文档 分布式的部署,都是在单节点服务的基础配置好配置,直接分发到其他节点即可。 jdk路径的配置,以及不适用内部自带的zk. 配

    2024年02月03日
    浏览(49)
  • 大数据之Hadoop分布式数据仓库HBase

    HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。 要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,

    2024年02月02日
    浏览(56)
  • 大数据面试题:HBase读写数据流程

    面试题来源: 《大数据面试题 V4.0》 大数据面试题V3.0,523道题,679页,46w字 参考答案: 1、写数据流程 1)Client先访问zookeeper,获取hbase:meta表位于哪个Region Server。 2)访问对应的Region Server,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个Region Ser

    2024年02月15日
    浏览(43)
  • 大数据Hadoop集群之超级详细的HBase搭建

    Hbase是基于Hadoop集群之上来搭建的 Hadoop有一些局限性: 做一些批量的数据处理,吞吐量比较高,但是它对随机查询、实时操作性能是不行的 HBase是NoSQL数据库的一种,它跟传统的RDBMS有很大的差别 不支持JOIN的,摒弃了关系型模型,而且在HBase中只有一种数据类型:byte[] HBase可

    2023年04月13日
    浏览(86)
  • Python读取hbase数据库

    1. hbase连接 首先用hbase shell 命令来进入到hbase数据库,然后用list命令来查看hbase下所有表,以其中表“DB_level0”为例,可以看到库名“baotouyiqi”是拼接的,python代码访问时先连接: 备注:完整代码在最后,想运行的直接滑倒最后复制即可 2. 按条件读取hbase数据 然后按照条件

    2024年04月09日
    浏览(52)
  • 分布式数据库HBase

    HBase是一个高可靠、高性能、 面向列 、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和把结构化的松散数据。 HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用 廉价计算机集群 处理由超过10亿行数据和数百万列元素组成的数据表。

    2024年02月09日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包