Hbase文档--架构体系

10月前作者：一单成分类：Toy博客阅读(28) 违法举报

这篇具有很好参考价值的文章主要介绍了Hbase文档--架构体系。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

阿丹：

基础概念了解之后了解目标知识的架构体系，就能事半功倍。

架构体系

Hbase文档--架构体系,Hbase,hbase,架构,数据库

关键组件介绍：

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

与FUJITSU Cliq等商用大数据产品不同，HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

描述Hadoop EcoSystem中的各层系统。其中,HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。

此外，Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便

HBase是一个分布式的、面向列的NoSQL数据库，它构建在Hadoop之上。HBase的架构体系主要包括以下几个组件：

HMaster: HMaster是HBase集群中的主节点，负责管理整个集群和协调各个RegionServer。它负责分配和管理Region（表的分区）以及处理客户端的请求。
RegionServer: RegionServer是HBase的工作节点，它负责实际存储和处理数据。每个RegionServer负责多个Region的管理和服务，并处理客户端的读写请求。
ZooKeeper: ZooKeeper是HBase的协调服务，用于管理和协调HBase集群中的各个组件和任务。它负责监控节点的状态、维护集群配置信息和协调分布式锁等。
HDFS（Hadoop分布式文件系统）: HBase使用HDFS作为其底层存储文件系统，用于持久化数据和存储表的Region。数据以块（Block）的形式分布在HDFS集群中。
表和Region: HBase中的数据组织在表中，每个表可以由一个或多个Region组成，每个Region负责表中一部分数据的存储和处理。Region通过分区键进行划分，不同的行数据根据分区键进行垂直分布。
客户端: HBase提供了Java API供客户端使用，客户端可以通过API与HBase集群进行交互，进行数据的读写操作。

这些组件共同构成了HBase的架构体系，实现了可扩展的、分布式存储和处理大规模数据的能力。

Hbase文档--架构体系,Hbase,hbase,架构,数据库

图片中的组件说明：

reginserver:本地服务器

hdfs:是hbase:运行的底层文件系统。

regionserver:理解为数据节点，存储数据

master regionserver要实时向master报告信息。master知道全局的regionserver运行情况，可以控制regionserver的故障转移和region的切分。

结构细化图：

Hbase文档--架构体系,Hbase,hbase,架构,数据库

存储设计：

在Hbase中，表被分割成多个更小的块然后分散的存储在不同的服务器上，这些小块叫做Regions，存放Regions的地方叫做RegionServer。Master进程负责处理不同的RegionServer之间的Region的分发。在Hbase实现中HRegionServer和HRegion类代表RegionServer和Region。HRegionServer除了包含一些HRegions之外，还处理两种类型的文件用于数据存储

HLog，预写日志文件，也叫做WAL(write-ahead log)
HFile 真实的数据存储文件

HLog

MasterProcWAL：HMaster记录管理操作，比如解决冲突的服务器，表创建和其它DDLs等操作到它的WAL文件中，这个WALs存储在MasterProcWALs目录下，它不像RegionServer的WALs，HMaster的WAL也支持弹性操作，就是如果Master服务器挂了，其它的Master接管的时候继续操作这个文件。
WAL记录所有的Hbase数据改变，如果一个RegionServer在MemStore进行FLush的时候挂掉了，WAL可以保证数据的改变被应用到。如果写WAL失败了，那么修改数据的完整操作就是失败的。
- 通常情况，每个RegionServer只有一个WAL实例。在2.0之前，WAL的实现叫做HLog
- WAL位于/hbase/WALs/目录下
- MultiWAL: 如果每个RegionServer只有一个WAL，由于HDFS必须是连续的，导致必须写WAL连续的，然后出现性能问题。MultiWAL可以让RegionServer同时写多个WAL并行的，通过HDFS底层的多管道，最终提升总的吞吐量，但是不会提升单个Region的吞吐量。

HFile

HFile是Hbase在HDFS中存储数据的格式，它包含多层的索引，这样在Hbase检索数据的时候就不用完全的加载整个文件。索引的大小(keys的大小，数据量的大小)影响block的大小，在大数据集的情况下，block的大小设置为每个RegionServer 1GB也是常见的。

探讨数据库的数据存储方式，其实就是探讨数据如何在磁盘上进行有效的组织。因为我们通常以如何高效读取和消费数据为目的，而不是数据存储本身。

Hfile生成方式

起初，HFile中并没有任何Block，数据还存在于MemStore中。

Flush发生时，创建HFile Writer，第一个空的Data Block出现，初始化后的Data Block中为Header部分预留了空间，Header部分用来存放一个Data Block的元数据信息。

而后，位于MemStore中的KeyValues被一个个append到位于内存中的第一个Data Block中：

注：如果配置了Data Block Encoding，则会在Append KeyValue的时候进行同步编码，编码后的数据不再是单纯的KeyValue模式。Data Block Encoding是HBase为了降低KeyValue结构性膨胀而提供的内部编码机制。

Hbase文档--架构体系,Hbase,hbase,架构,数据库

读写简单流程

Hbase文档--架构体系,Hbase,hbase,架构,数据库

文章来源地址https://www.toymoban.com/news/detail-673006.html

到了这里，关于Hbase文档--架构体系的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【大数据】分布式数据库HBase

目录 1.概述 1.1.前言 1.2.数据模型 1.3.列式存储的优势 2.实现原理 2.1.region 2.2.LSM树 2.3.完整读写过程 2.4.master的作用本文式作者大数据系列专栏中的一篇文章，按照专栏来阅读，循序渐进能更好的理解，专栏地址： https://blog.csdn.net/joker_zjn/category_12631789.html?spm=1001.2014.3001.5482 当

2024年04月27日
浏览(48)
使用IDEA连接hbase数据库

Hbase是安装在另一台LINUX服务器上的，需要本地通过JAVA连接HBase数据库进行操作。由于是第一次接触HBase,过程当中百度了很多资料，也遇到了很多的问题。耗费了不少时间才成功连接上。特记录下过程当中遇到的问题。 JAVA连接HBase代码如下：首先通过POM将需要的JAR包导入。

2024年02月03日
浏览(93)
HBase的数据库与HadoopEcosyste

HBase是一个分布式、可扩展、高性能、高可用性的列式存储系统，基于Google的Bigtable设计。HBase是Hadoop生态系统的一个重要组成部分，与Hadoop HDFS、MapReduce、ZooKeeper等产品密切相关。本文将从以下几个方面进行深入探讨：背景介绍核心概念与联系核心算法原理和具体操作步骤

2024年02月20日
浏览(45)
大数据NoSQL数据库HBase集群部署

目录 1. 简介 2. 安装 1. HBase依赖Zookeeper、JDK、Hadoop（HDFS），请确保已经完成前面 2. 【node1执行】下载HBase安装包 3. 【node1执行】，修改配置文件，修改conf/hbase-env.sh文件 4. 【node1执行】，修改配置文件，修改conf/hbase-site.xml文件 5. 【node1执行】，修改配置文件，修改conf/regi

2024年02月08日
浏览(54)
HBase的数据库容量规划与优化

HBase的数据库容量规划与优化 HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase适用于大规模数据存储和实时数据访问场景，如日志处理、实时统计、搜索引擎等。在实际

2024年02月20日
浏览(45)
HBase的数据库备份与恢复策略

HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可用性、高可扩展性和高性能等优势，适用于大规模数据存储和实时数据处理。在实际应用中，数据备份和恢复是

2024年02月19日
浏览(61)
HBase的数据库安全与权限管理

HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可靠性、高性能和高可扩展性等特点，适用于大规模数据存储和实时数据处理。在现代企业中，数据安全和权限管

2024年02月20日
浏览(45)
大数据NoSQL数据库HBase集群部署——详细讲解~

HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。和Redis一样，HBase是一款KeyValue型存储的数据库。不过和Redis设计方向不同 Redis设计为少量数据，超快检索 HBase设计为海量数据，快速检索 HBase在大数据领域应用十分广泛，现在我们来在node1、node2、node3上部署H

2024年02月11日
浏览(48)
HBase的数据库设计模式与实践

HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase适用于大规模数据存储和实时数据访问的场景，如日志记录、实时数据分析、实时搜索等。在现实应用中，HBase的数据库设

2024年02月20日
浏览(44)
客户端读写HBase数据库的运行原理

1.HBase的特点 HBase是一个数据库，与RDMS相比，有以下特点： ① 它不支持SQL ② 不支持事务 ③ 没有表关系，不支持JOIN ④ 有列族，列族下可以有上百个列 ⑤ 单元格，即列值，可以存储多个版本的值，每个版本都有对应时间戳 ⑥ 行键按照字典序升序排列 ⑦ 元数据和数据分

2024年02月10日
浏览(57)