Hadoop(05) HBase2.5.5安装和编程实践指南

这篇具有很好参考价值的文章主要介绍了Hadoop(05) HBase2.5.5安装和编程实践指南。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

HBase是一个基于Apache Hadoop的分布式、可扩展、面向列的NoSQL数据库系统。它被设计用于处理大规模数据集,并提供快速的读写访问性能。

以下是HBase的一些关键特点和概念:

  1. 列存储结构:HBase使用列存储结构,意味着数据被组织成行和列的形式。每个表可以有灵活的列族定义,而不需要预定义的模式。这使得HBase非常适合存储稀疏的、结构多变的数据。

  2. 分布式架构:HBase是一个分布式数据库系统,可以在多个服务器上水平扩展。数据被分割成多个区域(Regions),每个区域由一个RegionServer管理。这种分布式架构提供了高可用性和容错性,并允许处理大规模数据集。

  3. 强一致性:HBase提供强一致性的读写操作。一旦数据写入成功,它就会立即对所有客户端可见。这对于需要实时访问最新数据的应用程序非常重要。

  4. 高性能:HBase具有优化的读写性能。它使用内存中的块缓存(Block Cache)来加速读取操作,并支持批量写入和异步写入操作,以提高写入吞吐量。

  5. 自动分区和负载均衡:HBase自动管理数据的分区和负载平衡。当数据量增加或节点发生故障时,HBase会自动重新平衡数据,确保数据在集群中均匀分布。

  6. 弹性扩展:HBase可以根据需求进行水平扩展。通过添加更多的RegionServer和节点,可以扩展存储容量和处理能力,以适应不断增长的数据需求。

HBase适用于需要处理大量结构灵活、实时访问和高可扩展性的数据场景,如日志分析、实时数据处理、社交媒体应用、物联网等。它的紧密集成和兼容性与Apache Hadoop生态系统的其他组件(如Hadoop Distributed File System - HDFS和Apache Spark)使得它成为大数据处理和分析的重要工具之一。

一、HBase介绍

HBase是基于HDFS分布式文件系统去构建的。换句话说,HBase的数据其实也是存储在HDFS上的。

1.1 HDFS和HBase的区别

HDFS是文件系统,而HBase是数据库,其实也没啥可比性。「可以把HBase当做是MySQL,把HDFS当做是硬盘。HBase只是一个NoSQL数据库,把数据存储在HDFS上」。

数据库是一个以某种 有组织的方式存储的数据集合

扯了这么多,那我们为啥要用HBase呢?HBase在HDFS之上提供了高并发的随机写和支持实时查询,这是HDFS不具备的。HBase可以以低成本存储海量的数据并且支持高并发随机写和实时查询。

1.2 Hbase的表结构

如果以我们现有的数据库,比如MySQL举例。存储的结构我们很容易看懂,其实就是一行一行数据。

id 姓名 年龄 职业 年薪 婚姻 身高
1 张三 24 180
2 李四 瓦工 500¥

如果将MySQL数据库转换成列式的数据库来进行存储,它的表现形式为:

id:1 姓名:张三
id:1 年龄:24
id:1 身高:180
id:2 姓名:李四
id:2 职业:瓦工
id:2 年薪:500¥

通过以上的示例可以简单的发现,无非就是把每列抽出来,然后关联上Id。 很明显以前我们一行记录多个属性(列),有部分的列是空缺的,但是我们还是需要空间去存储。现在把这些列全部拆开,有什么我们就存什么,这样空间就能被我们充分利用。这种形式的数据更像是Key-Value,那我们该怎么理解HBase所谓的列式存储和Key-Value结构呢?

1.4 Hbase的数据模型

在看HBase数据模型的时候,其实最好还是不要用「关系型数据库」的知识去理解它。

HBase里边也有表、行和列的概念。

  • 表没什么好说的,就是一张表
  • 一行数据由一个行键一个或多个相关的列以及它的值所组成

在HBase里边,定位一行数据会有一个唯一的值,这个叫做行键(RowKey)。而在HBase的列不是我们在关系型数据库所想象中的列。

HBase的列(Column)都得归属到列族(Column Family)中。在HBase中用列修饰符(Column Qualifier)来标识每个列。

在HBase里边,先有列族,后有列

什么是列族?可以简单理解为:列的属性类别

什么是列修饰符?先有列族后有列,在列族下用列修饰符来标识一列

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

可以通过在里面放入更加具体的值来观察:

 hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

数据写到HBase的时候都会被记录一个时间戳,这个时间戳被我们当做一个版本。比如说,我们修改或者删除某一条的时候,本质上是往里边新增一条数据,记录的版本加一了而已。 在读的时候按照时间戳读最新的记录。在外界「看起来」就是把这条记录改了。

1.3 Hbase的运行模式

HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇(column family)。欲了解HBase的官方资讯,请访问[HBase官方网站](http://hbase.apache.org/)。
HBase的运行有三种模式:单机模式、伪分布式模式、分布式模式。
单机模式:在一台计算机上安装和使用HBase,不涉及数据的分布式存储;

伪分布式模式:在一台计算机上模拟一个小的集群;

分布式模式:使用多台计算机实现物理意义上的分布式存储。

这里出于学习目的,我们只重点讨论单机模式和伪分布式模式。

本教程运行环境是在Debain-64位系统下(此教程为Debian11-7),HBase版本为Hbase-2.5.5,这是目前已经发行的已经编译好的稳定的版本,带有src的文件是未编译的版本,这里我们只要下载bin版本Hbase-2.5.5-bin.tar.gz就好了。

点击此处下载 Hbase2.5.5 稳定版本

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

 hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

文件区别:

  1. hbase-2.5.5-bin.tar.gz: 这是 HBase 的二进制发行版。它包含了编译好的二进制文件,可以直接使用,而无需进行编译。这个发行版适用于大多数用户,尤其是那些只需要运行 HBase 而不需要进行源代码级别的修改的用户。

  2. hbase-2.5.5-client-bin.tar.gz: 这是 HBase 的客户端二进制发行版。它包含了仅限客户端使用的二进制文件,没有包含 HBase 的服务端组件。这个发行版适用于那些只需要在客户端进行 HBase 操作的用户,而不需要在本地运行 HBase 服务。

  3. hbase-2.5.5-hadoop3-bin.tar.gz: 这是 HBase 针对 Hadoop 3.x 版本的二进制发行版。它适用于与 Hadoop 3.x 版本集成使用的用户。这个发行版包含了与 Hadoop 3.x 版本兼容的二进制文件。

  4. hbase-2.5.5-hadoop3-client-bin.tar.gz: 这是 HBase 针对 Hadoop 3.x 版本的客户端二进制发行版。它适用于只需要在客户端与 Hadoop 3.x 版本集成使用的用户,不需要在本地运行 HBase 服务。

  5. hbase-2.5.5-src.tar.gz: 这是 HBase 的源代码发行版。它包含了 HBase 的完整源代码,可以用于进行修改、编译和调试。这个发行版适用于那些需要在源代码级别进行扩展或修改 HBase 的用户。

在下载此文件之后,可以使用xftp工具将该文件上传到虚拟机系统中即可。 

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

二、安装并配置HBase2.5.5 

在安装HBase之前,请确保你的电脑已经安装了Hadoop3.3.5,由于HBase对Hadoop具有版本依赖性,所以,在安装HBase2.5.4时,一定要首先安装Hadoop3.3.6。(点击此处 查看Hadoop3.3.6的安装方法)因为根据之前的学习路线,我已经安装 Hadoop集群 ,此处是在master节点上进行安装(即前面学习中提到的 hadoop01 主机)。

在将HBase2.5.5 通过xftp上传到虚拟机的hadoop01 的/software文件夹之后。

2.1 解压安装包HBase-2.5.5-bin.tar.gz至路径 /usr/local

命令如下:

cd /software/
ls -l
sudo tar -zvxf hbase-2.5.5-bin.tar.gz -C /usr/local   # 如果此时是非特权用户的身份,需要在命令前面加上sudo

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

2.2 切换目录命令,把hbase-2.5.5目录权限赋予给hadoop用户

命令如下: 

cd /usr/local/
sudo chown -R hadoop ./hbase-2.5.5/

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

2.3 配置环境变量
将hbase-2.5.5下的bin目录添加到path中,这样,启动hbase就无需到/usr/local/hbase目录下,大大的方便了hbase的使用。教程下面的部分还是切换到了/usr/local/hbase-2.5.5目录操作,有助于初学者理解运行过程,熟练之后可以不必切换。
编辑~/.bashrc文件

cd ~
vim ~/.bashrc

如果没有引入过PATH请在~/.bashrc文件尾行添加如下内容:

export HBASE_HOME=/usr/local/hbase-2.5.5
export PATH=$PATH:$HBASE_HOME/bin

由于在之前的教程中安装过Java和Hadoop,并且配置过PATH,因此只需要在原本的export PATH的基础上添加 $HBASE_HOME/bin:,这里的“:”是分隔符。如下图:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节 添加之后的如下图所示:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

保存并退出 

2.3 执行source命令使上述配置在当前终端立即生效

命令如下:

source ~/.bashrc

2.4 查看Hbase 的版本

命令如下:

hbase version

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节此处出现一条警告信息(SLF4J: Class path contains multiple SLF4J bindings.),可以点击此处查看解决办法。

看到输出版本消息表示HBase已经安装成功,接下来将分别进行HBase单机模式和伪分布式模式的配置。

三、HBase配置

HBase作为一个分布式的开源NoSQL数据库,它有三种运行模式,分别是单机模式(Standalone Mode)、伪分布式模式(Pseudo-Distributed Mode)和完全分布式模式(Fully-Distributed Mode)。

  1. 单机模式(Standalone Mode):
    在单机模式下,HBase运行在单个节点上,所有的HBase组件(包括HMaster和HRegionServer)都在同一个JVM进程中运行。这种模式适用于在开发和测试环境中快速搭建和运行HBase,但不具备分布式的优势和可扩展性。

  2. 伪分布式模式(Pseudo-Distributed Mode):
    在伪分布式模式下,HBase模拟了分布式环境,但实际上仍然在单个节点上运行。每个HBase组件都在独立的JVM进程中运行,包括一个HMaster和一个或多个HRegionServer。这种模式适用于在本地机器上模拟和测试分布式的HBase环境,通常用于开发和学习目的。

  3. 完全分布式模式(Fully-Distributed Mode):
    在完全分布式模式下,HBase运行在一个真正的分布式环境中,通过多台物理或虚拟机器组成。HBase集群包括一个HMaster节点和多个HRegionServer节点,数据被分布存储在不同的RegionServer上。这种模式适用于生产环境,可以提供高可用性、容错性和水平扩展性,并支持大规模数据存储和处理。

选择适当的模式取决于你的使用场景和需求。在开发和测试阶段,可以使用单机模式或伪分布式模式进行快速验证和开发。在实际生产环境中,通常会使用完全分布式模式来构建可靠的、高性能的HBase集群。

作为学习,我们将重点讨论单机模式和伪分布式模式。
以下先决条件很重要,比如没有配置JAVA_HOME环境变量,就会报错。
- jdk
- Hadoop( 单机模式不需要,伪分布式模式和分布式模式需要)
- SSH

以上三者如果没有安装,请回到 Hadoop(01) Hadoop3.3.6安装教程,单机/伪分布式配置 参考如何安装。

3.1 单机模式

3.1.1 配置/usr/local/hbase-2.5.5/conf/hbase-env.sh

配置JAVA环境变量,并添加配置HBASE_MANAGES_ZK为true。如果此前配置过JAVA_HOME可以输入下列命令显示其路径。

echo $JAVA_HOME

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

配置HBASE_MANAGES_ZK为true,表示由hbase自己管理zookeeper,不需要单独的zookeeper。hbase-env.sh中本来就存在该变量的配置,只需要删除前面的#并修改配置内容即可(#代表注释),用vi命令打开并编辑hbase-env.sh,命令如下:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

保存后退出。

3.1.2 配置/usr/local/hbase-2.5.5/conf/hbase-site.xml

打开并编辑hbase-site.xml,命令如下:

vim /usr/local/hbase-2.5.5/conf/hbase-site.xml

在启动HBase前需要设置属性hbase.rootdir,用于指定HBase数据的存储位置,因为如果不设置的话,hbase.rootdir默认为/tmp/hbase-${user.name},这意味着每次重启系统都会丢失数据。此处设置为HBase安装目录下的hbase-tmp文件夹即(/usr/local/hbase-2.5.5/hbase-tmp),添加配置如下: 

<configuration>
        <property>
                <name>hbase.rootdir</name>
                <value>file:///usr/local/hbase-2.5.5/hbase-tmp</value>
        </property>
</configuration>

 修改前:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

 修改后:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

3.1.3 测试运行

首先切换目录至HBase安装目录/usr/local/hbase;再启动HBase。命令如下:

cd /usr/local/hbase-2.5.5/bin/
./start-hbase.sh  # 启动HBase
./hbase shell   # 打开shell命令行模式,用户可以通过输入shell命令操作HBase数据库

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

使用exit可以退出shell命令行模式。

停止HBase运行,命令如下:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

注意:如果在操作HBase的过程中发生错误,可以通过{HBASE_HOME}目录(/usr/local/hbase-2.5.5)下的logs子目录中的日志文件查看错误原因。 

3.2 伪分布式模式

3.2.1 配置/usr/local/hbase-2.5.5/conf/hbase-env.sh

配置JAVA_HOME,HBASE_CLASSPATH,HBASE_MANAGES_ZK。HBASE_CLASSPATH设置为本机HBase安装目录下的conf目录(即/usr/local/hbase-2.5.5/conf)命令如下:

cd /usr/local/hbase-2.5.5/conf/
vim hbase-env.sh 

在hbase-env.sh中添加下列命令:

 export HBASE_MANAGES_ZK=true
 export JAVA_HOME=/usr/local/java/jdk-11.0.20.1+1
 export HBASE_CLASSPATH=/usr/local/hbase-2.5.5/conf

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

3.2.2 配置/usr/local/hbase-2.5.5/conf/hbase-site.xml

用命令vi打开并编辑hbase-site.xml,命令如下:

/usr/local/hbase-2.5.5/conf/hbase-site.xml

修改hbase.rootdir,指定HBase数据在HDFS上的存储路径;将属性hbase.cluter.distributed设置为true。假设当前Hadoop集群运行在伪分布式模式下,在本机上运行,且NameNode运行在9000端口。

<configuration>
        <property>
                <name>hbase.rootdir</name>
                <!-- value 的 URL 地址请与hadoop配置文件core-site.xml
                 中的 fs.default.name 保持一致,然后再加上 /hbase。
                 此处建议用主机名(不建议直接填写 IP 地址,否则可能出错)-->
                <value>hdfs://hadoop01:9000/hbase</value>
        </property>
        <property>
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>
        <property>
        <name>hbase.unsafe.stream.capability.enforce</name>
        <value>false</value>
    </property>
</configuration>

修改前:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

修改后:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

hbase.rootdir指定HBase的存储目录;

hbase.cluster.distributed设置集群处于分布式模式.
另外,上面配置文件中,hbase.unsafe.stream.capability.enforce这个属性的设置,是为了避免出现启动错误。也就是说,如果没有设置hbase.unsafe.stream.capability.enforce为false,那么,在启动HBase以后,会出现无法找到HMaster进程的错误,启动后查看系统启动日志(/usr/local/hbase-2.5.5/logs/hbase-hadoop-master-ubuntu.log),会发现如下错误:

 2023-10-23 11:05:53,916 ERROR [master/localhost:16000:becomeActiveMaster] master.HMaster: Failed to become active master
java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but the underlying filesystem does not support doing so. Please check the config value of 'hbase.procedure.store.wal.use.hsync' to set the desired level of robustness and ensure the config value of 'hbase.wal.dir' points to a FileSystem mount that can provide it.

3.3.3 测试运行HBase

① 登陆ssh,由于之前设置了无密码登陆,因此这里不需要密码;再切换目录至/usr/local/hadoop-3.3.6 ;再启动hadoop,如果已经启动hadoop请跳过此步骤。命令如下:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

一般来说,输入命令jps,如果能看到NameNode,DataNode和SecondaryNameNode都已经成功启动,表示Hadoop启动成功。但是由于我们在此前的 Hadoop(01) Hadoop3.3.6安装教程,单机/伪分布式配置 教程中的 伪分布式配置的小节中 仅将hadoop01作为namenode来进行的配置,所以在hadoop01主机上运行 jps 命令并不会显示datanode,因为datanode是配置在hadoop02 主机上。如果想要查看datanode是否正常启动,可以hadoop02主机上输入 jps,如下所示:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

② 切换目录至/usr/local/hbase-2.5.5 ;再启动HBase.命令如下: 

cd /usr/local/hbase-2.5.5/bin/
./start-hbase.sh 
jps

输入jps后,看到一下界面表示启动hbase成功。 

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

以上的提示信息表示:

  1. 首先,看到一个关于主机身份验证的提示,要求确认连接。这是SSH连接到本地主机(127.0.0.1)时的一般行为。可以输入yes以继续连接。

  2. 接下来,输出显示成功连接到主机(127.0.0.1),并开始了一系列操作。

    running zookeeper 启动了ZooKeeper服务,它是HBase的依赖组件之一。ZooKeeper用于协调和管理HBase集群中的各个节点。
    running master 启动了HBase的Master节点,Master节点负责管理和协调整个HBase集群的操作。
    running regionserver 启动了HBase的RegionServer节点,RegionServer节点负责存储和处理HBase表中的数据。
  3. 启动过程中的日志输出被重定向到了相应的日志文件中,例如hbase-hadoop-zookeeper-hadoop01.outhbase-hadoop-master-hadoop01.outhbase-hadoop-regionserver-hadoop01.out。你可以查看这些日志文件以获取更多关于启动过程的详细信息。

进入hbase的shell界面,命令如下:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

3.3.4 停止HBase运行

启动关闭Hadoop和HBase的顺序一定是:
启动Hadoop—>启动HBase—>关闭HBase—>关闭Hadoop

./stop-hbase.sh 
cd /usr/local/hadoop-3.3.6/sbin/
./stop-dfs.sh 

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

注意:如果在操作HBase的过程中发生错误,可以通过{HBASE_HOME}目录(/usr/local/hbase)下的logs子目录中的日志文件查看错误原因。

四、编程实践

4.1 Hbase 的shell命令

在使用hbase shell命令之前,要先启动hadoop和hbase,启动命令如上述。

4.1.1 创建表

hbase中用create命令创建表,具体如下:

create 'student','Sname','Ssex','Sage','Sdept','course'

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

 参数说明:创建一个名为student的表,以及定义一些列族(SnameSsexSageSdeptcourse

因为HBase的表中会有一个系统默认的属性作为行键,无需自行创建,默认为put命令操作中表名后第一个数据。创建完“student”表后,可通过describe命令查看“student”表的基本信息。命令执行截图如下:

describe 'student'

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

4.1.2 hbase数据库的基本操作

本小节主要介绍HBase的增、删、改、查操作。在添加数据时,HBase会自动为添加的数据添加一个时间戳,故在需要修改数据时,只需直接添加数据,HBase即会生成一个新的版本,从而完成“改”操作,旧的版本依旧保留,系统会定时回收垃圾数据,只留下最新的几个版本,保存的版本数可以在创建表的时候指定。

① 添加数据

hbase中用put命令添加数据,注意:一次只能为一个表的一行数据的一个列,也就是一个单元格添加一个数据,所以直接用shell命令插入数据效率很低,在实际应用中,一般都是利用编程操作数据。
当运行命令:put ‘student’,’95001’,’Sname’,’LiYing’时,即为student表添加了学号为95001,名字为LiYing的一行数据,其行键为95001。

put 'student','95001','Sname','LiYing'

参数说明: 在student表的行键为95001的行中,插入一个名为Sname的列,并设置其值为LiYing。此处的行键可以代指学生的学号,也可表示为student表添加了学号为95001,名字为LiYing的一行数据,其行键为95001。

补充:在HBase中,行键是用于唯一标识表中每一行数据的标识符。行键是一个字节数组,可以是任意长度的二进制数据。在HBase表中,行键是按照字典顺序进行排序的。

put 'student','95001','course:math','80'

 参数说明:在student表的行键为95001的行中,在 course 列族下存储一个名为math的列,并设置其属性值为80

put 'student','95001','course:English','98'

参数说明:在 student 表的行键为95001的行中,在 course 列族下存储一个名为 English 的列,并将其属性值设置为 98

put 'student','95001','Ssex','Male'

 参数说明:在student表的行键为95001的行中,插入一个名为Ssex的列,并设置其值为Male

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

② 查看数据

HBase中有两个用于查看数据的命令:1. get命令,用于查看表的某一行数据;2. scan命令用于查看某个表的全部数据

get命令:

get 'student','95001'

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

 scan命令:

scan 'student'

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

③ 删除数据

在HBase中用delete以及deleteall命令进行删除数据操作,它们的区别是:1. delete用于删除一个数据,是put的反向操作;2. deleteall操作用于删除一行数据。

delete命令:

delete 'student','95001','course:English'

删除之前:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

删除之后:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

deleteall命令:

deleteall 'student','95001'

删除之前:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

删除之后:

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

④ 删除表

删除表有两步,第一步先让该表不可用,第二步删除表。

disable 'student'  
drop 'student'

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

⑤ 查询表的历史数据 

在 Hbase 中,表的历史数据通常是通过版本控制来实现的。每次对表执行写操作时,HBase 会为每个单元格(cell)维护多个版本的数据。可以通过设置适当的版本数来控制保存的历史数据量。

注意:保存的历史数据数量可能会影响存储空间的使用和查询性能。因此,应根据实际需求和系统资源进行适当的配置。 

step1

在创建表的时候,指定保存的版本数(假设指定为5)

create 'teacher',{NAME=>'username',VERSIONS=>5}

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

step2

插入数据然后更新数据,使其产生历史版本数据,注意:这里插入数据和更新数据都是用put命令

put 'teacher','91001','username','Mary'
put 'teacher','91001','username','Mary1'
put 'teacher','91001','username','Mary2'
put 'teacher','91001','username','Mary3'
put 'teacher','91001','username','Mary4'  
put 'teacher','91001','username','Mary5'
hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节 step3

查询时,指定查询的历史版本数。默认会查询出最新的数据。(有效取值为1到5) 

要查询表的历史数据,可以使用 get 命令并指定列族和列限定符,并在命令中添加 VERSIONS 关键字,后接要返回的版本数。例如:(有效取值为1到5) 

get 'teacher','91001',{COLUMN=>'username',VERSIONS=>5}

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

参数说明:返回 teacher 表中 91001 行的 username 列的最近 5 个版本的数据。 

也可以使用 scan 命令来扫描整个表或特定的行范围,并通过设置 VERSIONS 选项来获取多个版本的数据。例如:

scan 'student', {VERSIONS => 3}

参数说明: 扫描整个 student 表,并返回每个单元格的最近 3 个版本的数据。

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

⑥ 退出Hbase数据库表操作

最后退出数据库操作,输入exit命令即可退出,注意:这里退出HBase数据库是退出对数据库表的操作,而不是停止启动HBase数据库后台运行。

exit

4.2 Hbase Java API编程实践

4.2.1 在Linux中安装IDEA开发工具

本实例采用IDEA开发工具,虚拟机中如何安装IDEA 开发工具,参考教程 Linux(04) Debian11中安装IDEA教程(无GNOME)。

通过将IDEA安装到 /opt/idea-IC-23.2/bin 路径之后,可以通过以下命令启动IDEA

cd /opt/idea-IC-23.2/bin
./idea.sh

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节 启动之后,新建一个名为HBase_Example的java工程。

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

4.2.2 为项目添加需要用到的JAR包  

为了编写一个能够与HBase交互的Java应用程序,需要在这个界面中加载该Java工程所需要用到的JAR包,这些JAR包中包含了可以访问HBase的Java API。这些JAR包都位于Linux系统的HBase安装目录的lib目录下,也就是位于“/usr/local/hbase-2.5.5/lib”目录下。

在 HBase 安装目录下的 /usr/local/hbase-2.5.5/lib 文件夹通常包含 HBase 的相关库文件和依赖项。这些文件是 HBase 运行所需的核心组件和第三方库。除了上述提到的主要内容外,还有另外六个目录:

  1. client-facing-thirdparty:这个目录通常包含 HBase 与客户端交互时所需的第三方库文件。这些库文件用于支持与 HBase 进行交互的客户端应用程序,例如 Java 应用程序或其他编程语言的客户端。

  2. jdk11:这个目录可能包含适用于 JDK 11 的特定版本的 HBase 库文件。由于不同的 JDK 版本可能存在兼容性差异,HBase 可能提供特定于某个 JDK 版本的库文件。

  3. ruby:这个目录可能包含与 Ruby 编程语言相关的库文件。HBase 提供了一些用于与 Ruby 客户端进行交互的接口和工具。

  4. shaded-clients:这个目录通常包含 HBase 为不同的客户端环境提供的 shaded(阴影)客户端库文件。这些库文件将 HBase 的依赖项打包在一起,以便客户端应用程序可以更轻松地使用 HBase。

  5. trace:这个目录可能包含与 HBase 分布式跟踪功能相关的库文件。HBase 的分布式跟踪功能用于跟踪和分析请求在集群中的执行情况。

  6. zkcli:这个目录可能包含与 HBase ZooKeeper 客户端相关的库文件和工具。ZooKeeper 用于 HBase 的协调和配置管理,zkcli 目录可能包含与 ZooKeeper 客户端交互的命令行工具和库文件。

本次的编程实践中我们仅引入 核心库 和 client-facing-thirdparty ,其余几个包均不涉及,如有需要可以按照下面的方法建立依赖。

① 创建libs文件夹

在该java工程中创建libs文件,如果已经存在libs文件夹,则可以直接进行下一步。

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

② 复制JAR文件

将需要导入的jar(在 hbase的安装目录下lib文件中,包括核心库的jar包和 client-facing-thirdparty 复制粘贴到libs文件夹中。

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

复制到HBase_Example项目中的libs文件夹中

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

查看一下刚复制到libs文件夹中的状态,暂时不要点开

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

③ 建立该java工程对libs文件夹的依赖

在IDEA中右键单击项目,选择'Open Module Settings”(或者"Project Structure"”),在弹出的窗口中选择'Modules”,然后选择“Dependencies”选项卡。
点击“+"按钮,选择"JARs or directories”,然后在弹出的窗口中选择刚才放置jar包的libs文件夹,然后点击OK(我在此处直接选择的是文件夹)。

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

如果是这个状态表示依赖建立成功:  

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

这样,导入jar包的操作就完成了。现在你可以直接编写或运行代码了。如果需要进一步优化导包设置,可以根据IDEA的环境配置和插件进行相应的调整(如Maven)。 

4.2.3 新建java代码程序 

ExampleForHBase.java代码内容具体如下:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
 
import java.io.IOException;
public class ExampleForHBase {
    public static Configuration configuration;
    public static Connection connection;
    public static Admin admin;
    public static void main(String[] args)throws IOException{
        init();
        createTable("student",new String[]{"score"});
        insertData("student","zhangsan","score","English","69");
        insertData("student","zhangsan","score","Math","86");
        insertData("student","zhangsan","score","Computer","77");
        getData("student", "zhangsan", "score","English");
        close();
    }
 
    public static void init(){
        configuration  = HBaseConfiguration.create();
        configuration.set("hbase.rootdir","hdfs://localhost:9000/hbase");
        try{
            connection = ConnectionFactory.createConnection(configuration);
            admin = connection.getAdmin();
        }catch (IOException e){
            e.printStackTrace();
        }
    }
 
    public static void close(){
        try{
            if(admin != null){
                admin.close();
            }
            if(null != connection){
                connection.close();
            }
        }catch (IOException e){
            e.printStackTrace();
        }
    }
 
    public static void createTable(String myTableName,String[] colFamily) throws IOException {
        TableName tableName = TableName.valueOf(myTableName);
        if(admin.tableExists(tableName)){
            System.out.println("talbe is exists!");
        }else {
            TableDescriptorBuilder tableDescriptor = TableDescriptorBuilder.newBuilder(tableName);
            for(String str:colFamily){
                ColumnFamilyDescriptor family = 
ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes(str)).build();
                tableDescriptor.setColumnFamily(family);
            }
            admin.createTable(tableDescriptor.build());
        } 
    }
 
    public static void insertData(String tableName,String rowKey,String colFamily,String col,String val) throws IOException { 
        Table table = connection.getTable(TableName.valueOf(tableName));
        Put put = new Put(rowKey.getBytes());
        put.addColumn(colFamily.getBytes(),col.getBytes(), val.getBytes());
        table.put(put);
        table.close(); 
    }
 
    public static void getData(String tableName,String rowKey,String colFamily, String col)throws  IOException{ 
        Table table = connection.getTable(TableName.valueOf(tableName));
        Get get = new Get(rowKey.getBytes());
        get.addColumn(colFamily.getBytes(),col.getBytes());
        Result result = table.get(get);
        System.out.println(new String(result.getValue(colFamily.getBytes(),col==null?null:col.getBytes())));
        table.close(); 
    }
}

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

注意:在开始运行程序之前,需要启动HDFS和HBase。 

然后开始编译运行

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

程序运行成功以后,如上图所示,会在运行结果中出现“69”。

在上面的console控制台中的警告信息为:

WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.hadoop.security.authentication.util.KerberosUtil (file:/home/hadoop/workspace/HBase_Example/libs/hadoop-auth-2.10.2.jar) to method sun.security.krb5.Config.getInstance()
WARNING: Please consider reporting this to the maintainers of org.apache.hadoop.security.authentication.util.KerberosUtil
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release

这些警告信息是关于非法反射访问操作的提示。在 Java 9 及更高版本中,Java 引入了模块化系统,限制了对内部 API 的访问。当使用反射访问内部 API 时,可能会触发这些警告。 解决方案可以参考 启动hadoop报出一串警告 ,因为对程序没有太大的影响,此处并未测试该方案是否可行。

4.2.4 查看运行的结果

在HBase Shell交互式环境中,使用如下命令查看student表是否创建成功:

hbase> list

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

在HBase Shell交互式环境中,使用如下命令查看student表中的数据: 

hbase> scan ‘student’

hadoop the procedure wal relies on the ability to hsync for proper operation,Hadoop,hadoop,大数据,分布式,1024程序员节

参考资料

HBase(Hadoop3.1.2 HBase2.2.4) 伪分布式安装与配置-CSDN博客

我终于看懂了HBase,太不容易了... - 知乎 (zhihu.com)

Hbase 常用 shell 操作:增删改查(create、put、delete、scan)_hbase shell put-CSDN博客

启动hadoop报出一串警告_please consider reporting this to the maintainers -CSDN博客 文章来源地址https://www.toymoban.com/news/detail-770769.html

到了这里,关于Hadoop(05) HBase2.5.5安装和编程实践指南的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Hadoop】创建Hadoop集群(3个节点)—— 安装部署一个3个节点构成的hbase集群

    前言 此实验搭建3个虚拟节点,一个mater,一个slave1,一个slave2 集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但在物理上常在一起。 HDFS集群负责海量数据的存储,集群中的角色主要有: NameNode、DataNode、SecondaryNode YARN集群负责海量数据运算

    2024年02月08日
    浏览(53)
  • 虚拟机安装hadoop,hbase(单机伪集群模式)

    工作中遇到了大数据方面的一些技术栈,没有退路可言,只能去学习掌握它,就像当初做爬虫一样(虽然很简单),在数据爆发的现在,传统的数据库mysql,oracle显然在处理大数据量级的数据时显得力不从心,所以有些特定的业务需要引进能够处理大数据量的数据库,hadoop提

    2024年02月04日
    浏览(40)
  • 【hadoop】hbase的安装部署以及相关操作(图文详解)

    ​ HBase是一种基于列存储的分布式数据库系统,它能够快速地存储和处理大规模数据。与传统的关系型数据库不同,HBase采用了分布式的架构,能够实现数据的高可靠性、高可扩展性和高性能。在实际应用中,正确地安装和部署HBase集群是非常重要的。 在安装hbase之前,需要虚

    2024年02月04日
    浏览(44)
  • Hadoop安装Hbase启动失败报错解决方法

    先进入hbase文件目录里看日志文件看看报什么错再具体解决: vim /opt/module/hbase-1.3.3/logs/hbase-root-master-hadoop-single.log  1.报错org.apache.hadoop.security.AccessControlException: Permission denied: user异常解决方法 1、第一种 在hdfs的配置文件中,将dfs.permissions修改为False(不推荐) 2、第二种 执行

    2024年02月07日
    浏览(44)
  • 大数据技术原理与应用实验指南——HBase编程实践

    一、 实验目的 (1) 熟练使用HBase操作常用的Shell命令。 (2) 熟悉HBase操作常用的Java API。 二、 实验内容 (1) 安装HBase软件。 (2) 编程实现指定功能,并利用Hadoop提供的Shell命令完成相同的任务(实现增、删、改、查基本操作,统计表的行数,打印表的记录等操作)。

    2024年02月21日
    浏览(39)
  • HDFS编程实践(Hadoop3.1.3)

    1.目录操作 在HDFS中为hadoop用户创建一个用户目录 显示HDFS中与当前用户hadoop对应的用户目录下的内容: 创建一个input目录: 可以使用rm命令删除一个目录 上面命令中,“-r”参数表示如果删除“input”目录及其子目录下的所有内容,如果要删除的一个目录包含了子目录,则必

    2023年04月13日
    浏览(41)
  • HDFS编程实践(Hadoop3.1.3)

    Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件之一,如果已经安装了 Hadoop,其中就已经包含了 HDFS 组件,不需要另外安装。 接下来介绍Linux操作系统中关于HDFS文件操作的常用Shell命令,利用Web界面查看和管理Hadoop文件系统,以及利用Hadoop提供的Java API进

    2024年02月07日
    浏览(57)
  • Linux安装Zookeeper、Hadoop、Hive、Hbase全家桶系列

    目录 Linux安装配置Zookeeper Linux安装配置Hadoop Linux安装Hbase 新建文件夹 下载到指定文件夹 官网 Apache ZooKeeper 解压到指定文件 查看 进入目录 创建日志/数据文件夹 复制配置文件 使用vim进入zoo.cfg 修改为如下:  记录一下zookeeper的路径然后 刷新资源 运行 查看状态 创建文件夹加

    2024年02月14日
    浏览(50)
  • Hadoop3.3.6安装和配置hbase-2.5.5-hadoop3x,zookeeper-3.8.3

    vm设置 在安装过程中推荐设置root用户密码为1234方面后续操作 1.设置主机名 以hadoop3为例 2.设置固定ip hadoop1 192.168.88.201 hadoop2 192.168.88.202 hadoop3 192.168.88.203 最后执行 service network restart 刷新网卡 3.工具连接(三个机器都要设置) 4.主机映射 windows: C:WindowsSystem32driversetc 修改这个路

    2024年02月03日
    浏览(44)
  • 基于 HBase & Phoenix 构建实时数仓(1)—— Hadoop HA 安装部署

    目录 一、主机规划 二、环境准备 1. 启动 NTP 时钟同步 2. 修改 hosts 文件 3. 配置所有主机间 ssh 免密 4. 修改用户可打开文件数与进程数(可选) 三、安装 JDK 四、安装部署 Zookeeper 集群 1. 解压、配置环境变量 2. 创建配置文件 3. 创建新的空 ZooKeeper 数据目录和事务日志目录 4

    2024年03月10日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包