大数据技术原理与应用实验指南——HBase编程实践

这篇具有很好参考价值的文章主要介绍了大数据技术原理与应用实验指南——HBase编程实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大数据技术原理与应用实验指南——HBase安装与编程实践

一、 实验目的

(1) 熟练使用HBase操作常用的Shell命令。

(2) 熟悉HBase操作常用的Java API。

二、 实验内容

(1) 安装HBase软件。

(2) 编程实现指定功能,并利用Hadoop提供的Shell命令完成相同的任务(实现增、删、改、查基本操作,统计表的行数,打印表的记录等操作)。

三、 实验平台(软件版本)

VirtualBox-6.1.4

jdk-8u162-linux-x64.tar

ubuntukylin-16.04-desktop-amd64

hadoop-3.1.3

FileZilla_3.17.0.0_win64_setup 这是一个用于将windows文件与linux互相传的软件-

hbase-2.2.2-bin.tar.gz

四、 实验步骤 (全分布环境下搭建HBase ——一主三从并实现 HBase 的Java Api )


实验思维导图:

  1. 全分布环境下搭建HBase

(1)下载安装Hbase,将Hbase传送至linux系统上的根目录下。

(2)解压安装包hbase-2.2.2-bin.tar.gz至路径 /usr/local,命令如下:

$ cd ~
$ sudo tar -zxvf ~/hbase-2.2.2-bin.tar.gz -C /usr/local

(3)将解压的文件名hbase-2.2.2改为hbase,以方便使用,命令如下:

$ cd /usr/local
$ sudo mv ./hbase-2.2.2 ./hbase

(4)下面把hbase目录权限赋hadoop用户:

$ cd /usr/local
$ sudo chown -R hadoop ./hbase

(5)配置环境变量,集群上的每个节点都要配置:

$ vim ~/.bashrc

在尾部加:(之后保存退出)

export HBASE_HOME=/usr/local/hbase
export PATH=$PATH:$HBASE_HOME/bin

改变的每个节点的~/.bashrc后的结果如图所示
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

$ source ~/.bashrc #使配置生效!!千万不能忘记

(6)修改hbase的配置文件:

① hbase-env.sh文件的修改:

注意:hbase-env.sh中本来就存在如下这些变量的配置,大家只需要删除前面的#并修改配置内容即可(#代表注释)

$ cd /usr/local/hbase/conf #切换到配置文件的目录
$ vim hbase-env.sh
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
#因为是分布式的hbase安装,所以要在hbase-env.sh里设置java环境变量
#修改HBASE_CLASSPATH帮助找到hbase
export HBASE_CLASSPATH=/usr/local/hbase/conf

图中给出上下文,便于寻找

大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

export HBASE_MANAGES_ZK=true#因为使用hbase自带的zookeeper,所以将HBASE_MANAGES_ZK设为true

图中给出上下文,便于寻找
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

$ source hbase-env.sh #使得配置生效!!!不能忘记

② hbase-site.xml文件的修改:

$ vim hbase-site.xml

配置的内容如下:将原来 …中添加如下内容

<property>
    <name>hbase.rootdir</name>
    <value>hdfs://Master:9000/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/home/hadoop/zookeeper</value>
  </property>
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>Master,Slave1,Slave2,Slave3</value>
  </property>
  <property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value>
</property>

参数解释如下:

a) hbase.rootdir,用于指定HBase数据的存储位置,因为如果不设置的话,hbase.rootdir默认为/tmp/hbase-${user.name},这意味着每次重启系统都会丢失数据。

b) hbase.cluster.distributed 值为 ture设置集群处于分布式模式.

c)hbase.zookeeper.property.dataDir:用于指定HBase自带的ZooKeeper存储数据的本地路径

e)hbase.zookeeper.quorum:对于HBase的完全分布式模式(使用HBase内置的ZooKeeper),应将该参数的值设置为作为内置zookeeper的主机列表,此时在配置文件hbase-env.sh中的HBASE_MANAGES_ZK参数必须为true

修改hbase-env.sh结果如图所示
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

③配置regionservers文件

$ sudo vim regionservers #此文件在/usr/local/hbase/conf下

配置所有节点的主机名,类似于hadoop里的slave文件,也是一行一个。(如下表所示)

Master
Slave1
Slave2
Slave3

④拷贝Hadoop的两个配置文件core-site.xml和hdfs-site.xml到HBase的配置文件目录(HBase对HDFS有依赖关系)

依次执行命令

$ cp /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/hbase/conf
$ cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hbase/conf

(7) 将配置过的整个hbase文件使用scp命令传输到各个slave上:

依次执行命令

$ cd  /usr/local/hbase/conf  # 切换到配置文件所在目录
$ scp hbase-env.sh hbase-site.xml core-site.xml hdfs-site.xml regionservers  hadoop@Slave1:/usr/local/hbase/conf/
$ scp hbase-env.sh hbase-site.xml core-site.xml hdfs-site.xml regionservers  hadoop@Slave2:/usr/local/hbase/conf/
$ scp hbase-env.sh hbase-site.xml core-site.xml hdfs-site.xml regionservers  hadoop@Slave3:/usr/local/hbase/conf/

别忘了要在所有节点执行如下命令,使得HBase的配置参数生效:

$ source hbase-env.sh

(8)启动Hbase:(请在启动前确保集群(一主三从)已经启动)

$ start-hbase.sh  

启动过程如图所示
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

$ jps #使用jps进行检验是否所有进程启动

主节点启动结果如图所示
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

从节点启动结果如图所示

大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

自此HBase的配置便全部结束了


  1. 实现 HBase 的shell编程与Java Api

(1)进入shell界面

$ hbase shell

进入shell界面如图所示
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

初步测试,shell中list命令的结果如图所示

大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

(2) shell命令交互

a) 表格操作

# 列出已有表格
 > list

 # 建立表格
 > create 'student','Sname','Ssex','Sage','Sdept','course'

 # 查看表格信息
 > describe 'student'

创建表格后查看表格信息结果如图所示
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

b) 数据操作:增删改查(在student表格上测试)

改:在添加数据时,HBase会自动为添加的数据添加一个时间戳,故在需要修改数据时,只需直接添加数据,HBase即会生成一个新的版本,从而完成“改”操作

# 增加数据:一次只能为一个单元格添加一个数据,实际一般利用编程操作数据。
> put 'student','95001', 'Sname','LiYing'
> put 'student','95001', 'course:math','80'
> list
 # 查看数据
> get 'student','95001'    # 查看表的某一行数据
> scan 'student'         # 查看某个表的全部数据
> deleteall 'student','95001'      # 删除一行数据
> scan 'student' #查看删除一行数据后的结果
> get 'student','95001' #查看表结果
 # 删除数据
> delete 'student','95001','Sname' # 删除一个数据
 # 删除表格:第一步先让该表不可用,第二步才能删除表。
> disable 'student'
> drop 'student'

以上代码实现的结果如图所示
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

c) 查询表历史数据:(查询表的历史版本,需要两步。)

#创建表的时候,指定保存的版本数(假设指定为5)
$ create 'teacher',{NAME=>'username',VERSIONS=>5}
#插入数据然后更新数据,使其产生历史版本数据,注意:这里插入数据和更新数据都是用put命令
$ put 'teacher','91001','username','Mary'
$ put 'teacher','91001','username','Mary1'
$ put 'teacher','91001','username','Mary2'
$ put 'teacher','91001','username','Mary3'
$ put 'teacher','91001','username','Mary4'  
$ put 'teacher','91001','username','Mary5'
#查询时,指定查询的历史版本数。默认会查询出最新的数据。(有效取值为1到5)
$ get 'teacher','91001',{COLUMN=>'username',VERSIONS=>5}

以上查询历史的结果截图如下:
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

d) 退出shell界面的操作如下

hbase(main):002:0> exit #退出Shell命令,注意:这里退出HBase数据库是退出对数据库表的操作,而不是停止启动HBase数据库后台运行。

(3)HBase Java API编程实践

a) 启动Eclipse,启动以后,出现如下图所示界面,点击界面右下角的“Launch”按钮
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

b) 启动进入Eclipse以后的程序开发界面如下图所示。
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

c) 点击界面顶部的“File”菜单,在弹出的子菜单如下图所示中选择“New”,再选择子菜单中的“Java Project”。
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

d) 这时会弹出一个java project 创建对话框,在“Project name”文本框中输入“HBaseExample”,在“JRE”选项卡中选中第2项“Use a project specific JRE”,然后点击界面底部的“Next”按钮。在弹出的界面中,用鼠标点击“Libraries”选项卡,然后,点击界面右侧的“Add External JARs…”按钮,

导入下图文件中的包:步骤如下面两张图所示:
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据
全部导入完毕后,点击OK即可

e) 在界面左侧的“HBaseExample”工程名称上单击鼠标右键,在弹出的菜单中选择“New”,再在弹出的子菜单中选择“Class”。创建一个新的类ExampleForHBase

ExampleForHBase.java代码内容如图所示:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
 
import java.io.IOException;
public class ExampleForHBase {
    public static Configuration configuration;
    public static Connection connection;
    public static Admin admin;
    public static void main(String[] args)throws IOException{
        init();
        createTable("student",new String[]{"score"});
        insertData("student","zhangsan","score","English","69");
        insertData("student","zhangsan","score","Math","86");
        insertData("student","zhangsan","score","Computer","77");
        getData("student", "zhangsan", "score","English");
        close();
    }
    public static void init(){
        configuration  = HBaseConfiguration.create();
        configuration.set("hbase.rootdir","hdfs://192.168.43.49:9000/hbase");
        try{
            connection = ConnectionFactory.createConnection(configuration);
            admin = connection.getAdmin();
        }catch (IOException e){
            e.printStackTrace();
        }
    }
    public static void close(){
        try{
            if(admin != null){
                admin.close();
            }
            if(null != connection){
                connection.close();
            }
        }catch (IOException e){
            e.printStackTrace();
        }
    }
    public static void createTable(String myTableName,String[] colFamily) throws IOException {
        TableName tableName = TableName.valueOf(myTableName);
        if(admin.tableExists(tableName)){
            System.out.println("talbe is exists!");
        }else {
            TableDescriptorBuilder tableDescriptor = TableDescriptorBuilder.newBuilder(tableName);
            for(String str:colFamily){
                ColumnFamilyDescriptor family = 
ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes(str)).build();
                tableDescriptor.setColumnFamily(family);
            }
            admin.createTable(tableDescriptor.build());
        } 
    }
    public static void insertData(String tableName,String rowKey,String colFamily,String col,String val) throws IOException { 
        Table table = connection.getTable(TableName.valueOf(tableName));
        Put put = new Put(rowKey.getBytes());
        put.addColumn(colFamily.getBytes(),col.getBytes(), val.getBytes());
        table.put(put);
        table.close(); 
    }
    public static void getData(String tableName,String rowKey,String colFamily, String col)throws  IOException{ 
        Table table = connection.getTable(TableName.valueOf(tableName));
        Get get = new Get(rowKey.getBytes());
        get.addColumn(colFamily.getBytes(),col.getBytes());
        Result result = table.get(get);
        System.out.println(new String(result.getValue(colFamily.getBytes(),col==null?null:col.getBytes())));
        table.close(); 
    }
}

在开始运行ExampleForHBase.java程序之前,需要启动HDFS和HBase。

代码运行结果如图所示:
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

在shell中检验上述代码是否真的运行成功如图所示:
大数据技术原理与应用实验指南——HBase编程实践,hbase,数据库,大数据

**五、**完成情况与问题讨论

(1) 实际完成情况

​ a) 完成HBase全分布搭建

​ b) 完成hbase的shell部分命令

​ c) HBase的Java API操作

(2) 问题与讨论

​ 问题一:出现HBase启动一段时间后,HMaster消失的现象?

​ 解决:在hbase的conf文件中修改hbase-site.xml文件,加入如下一句话:

<property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value>
</property>

​ 问题二:对于全分布与伪分布的了解不是特别详细,使得对于在配置文件,默认加载src下的配置文件总是配置不对?

​ 解决:

//全分布
configuration  = HBaseConfiguration.create();
configuration.set("hbase.rootdir","hdfs://192.168.43.49:9000/hbase");
//192.168.43.49是全分布namenode的ip地址
/***********************/
//伪分布
configuration  = HBaseConfiguration.create();
configuration.set("hbase.rootdir","hdfs://localhost:9000/hbase");

.unsafe.stream.capability.enforce
false
文章来源地址https://www.toymoban.com/news/detail-831449.html


​		问题二:对于全分布与伪分布的了解不是特别详细,使得对于在配置文件,默认加载src下的配置文件总是配置不对?

​		解决:

```java
//全分布
configuration  = HBaseConfiguration.create();
configuration.set("hbase.rootdir","hdfs://192.168.43.49:9000/hbase");
//192.168.43.49是全分布namenode的ip地址
/***********************/
//伪分布
configuration  = HBaseConfiguration.create();
configuration.set("hbase.rootdir","hdfs://localhost:9000/hbase");

到了这里,关于大数据技术原理与应用实验指南——HBase编程实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HBase的编程实践(实验3_熟悉常用的HBase操作)

    一、Hbase中使用Shell命令: ① HBase中创建表:(create 命令:第一个变量是表名,然后是列族名) 语法:create \\\'表名称\\\',\\\'列族名称1\\\',\\\'列族名称2\\\',\\\'列族名称N\\\' 通过命令 describe \\\'student\\\'  进行查看表的结构: (desc ‘表名’,查看表的结构) ✿ 增加数据 ② put: (put 命令:第一

    2024年02月01日
    浏览(45)
  • Hadoop(05) HBase2.5.5安装和编程实践指南

    HBase是一个基于Apache Hadoop的 分布式、可扩展、面向列的NoSQL数据库系统 。它被设计用于处理大规模数据集,并提供快速的读写访问性能。 以下是HBase的一些关键特点和概念: 列存储结构:HBase使用列存储结构,意味着数据被组织成行和列的形式。每个表可以有灵活的列族定义

    2024年02月03日
    浏览(48)
  • 云计算技术 实验五 Hbase的安装和基础编程

    参考资料为: 教材代码-林子雨编著《大数据基础编程、实验和案例教程(第2版)》教材所有章节代码_厦大数据库实验室博客 1 . 实验学时 4学时 2 . 实验目的 熟悉Hbase的安装和配置。 熟悉Hbase的相关命令。 实现Hbase的Java编程调用。 3.实验内容 (一) 安装Hbase,能够查询Hba

    2024年02月11日
    浏览(47)
  • 大数据技术原理与应用 实验6 Spark数据处理系统的搭建

    熟悉常用的Spark操作。 1.熟悉Spark Shell的使用; 2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。 操作系统:Linux Spark版本: 1.6 Hadoop版本: 3.3.0 JDK版本:1.8 使用Spark shell完成如下习题: a)读取Spark安装目录下的文件README.md(/usr/local/spark/README.md); b)统计包含“Spark”的单词

    2024年02月09日
    浏览(62)
  • 大数据技术原理及应用课实验2 :熟悉常用的HDFS操作

    实验2  熟悉常用的HDFS操作 目录 实验2  熟悉常用的HDFS操作 一、实验目的 二、实验平台 三、实验步骤(每个步骤下均需有运行截图) (一)编程实现以下功能,并利用Hadoop提供的Shell命令完成相同任务: (1)向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,则

    2024年04月14日
    浏览(112)
  • 大数据技术原理与应用实验3——NoSQL和关系数据库的操作比较

    (1)理解四种数据库(MySQL、HBase、Redis和MongoDB)的概念以及不同点; (2)熟练使用四种数据库操作常用的Shell命令; (3)熟悉四种数据库操作常用的Java API。 (1)Linux操作系统(CentOS7.5) (2)VMware Workstation Pro 15.5 (3)远程终端工具Xshell7 (4)Xftp7传输工具 (5)Hadoop版本:

    2024年02月02日
    浏览(45)
  • 熟悉常用的HDFS操作(大数据技术原理与应用-第三章实验)

    首先启动Hadoop,命令如下: 在终端输入如下命令,查看 hdfs dfs 总共支持哪些操作: 上述命令执行后,会显示如下的结果: 如果显示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable ,说明环境变量 JAVA_LIBRARY_PATH 并未定义,首

    2024年02月01日
    浏览(50)
  • 大数据开源框架之HBase编程实践

    HBase的安装部署请看: (30条消息) 大数据开源框架环境搭建(五)——Hbase完全分布式集群的安装部署_木子一个Lee的博客-CSDN博客 目录 任务1:用HBase提供的HBase Shell命令实现以下指定功能: 1.列出HBase所有的表的相关信息 2.在终端打印出指定的表的所有记录数据; 3.向已经创建好

    2024年02月01日
    浏览(41)
  • Elasticsearch权威指南:深度解析搜索技术核心概念、原理及实践

    作者:禅与计算机程序设计艺术 2010年,当时仅仅30岁的Elasticsearch创始人黄文坚就率先发布了开源分布式搜索引擎Elasticsearch。从此, Elasticsearch 名扬天下,成为了当前搜索领域的翘楚。随着 Elasticsearch 的快速崛起,越来越多的人开始关注并应用 Elasticsearch 来进行搜索服务。

    2024年02月10日
    浏览(65)
  • 深入理解Async/Await:从原理到实践的JavaScript异步编程指南

    理解 async/await 的原理和使用方法是理解现代JavaScript异步编程的关键。这里我会提供一个详细的实例,涵盖原理、流程、使用方法以及一些注意事项。代码注释会尽量详尽,确保你理解每个步骤。 实例:使用async/await进行异步操作 详细解释和注释: 异步函数定义: async func

    2024年02月05日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包