虚拟机安装hadoop,hbase(单机伪集群模式)

这篇具有很好参考价值的文章主要介绍了虚拟机安装hadoop,hbase(单机伪集群模式)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

虚拟机安装Hadoop,Hbase

工作中遇到了大数据方面的一些技术栈,没有退路可言,只能去学习掌握它,就像当初做爬虫一样(虽然很简单),在数据爆发的现在,传统的数据库mysql,oracle显然在处理大数据量级的数据时显得力不从心,所以有些特定的业务需要引进能够处理大数据量的数据库,hadoop提供了分布式文件系统(HDFS)来存储数据,又提供了分布式计算框架(mapreduce)来对这些数据进行处理,另一个hadoop的核心组件是yarn,我的理解它是一个任务调度平台。所以可以使用hadoop来做大数据量的数据处理,hbase是基于hadoop的,可以说它是hadoop生态中的一个组件,hbase是一个nosql的分布式数据库,可以进行实时读取数据,速度较快。
后面还会继续学习了解hive,flink,spark这些大数据处理相关的一些技术栈。

hadoop安装

安装hadoop之前需要java环境,虚拟机上java环境的安装可以参考我的这篇java环境安装

查看一下java的版本信息:
hbase单机模式伪分布式安装结果,大数据相关,hadoop,hbase,大数据
接下来下载hadoop的安装包
Hadoop 安装包下载链接(官网,下载慢):
https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

Hadoop 安装包下载链接(清华大学开源软件镜像站,下载快):
https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
推荐使用国内镜像下载,速度快,直接使用wget就可以

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
##解压
tar -zxvf hadoop-3.3.4.tar.gz

紧接着修改相关的配置文件,hadoop相关的配置文件都在hadoop-3.3.4/etc/hadoop路径下

修改core-site.xml

vi core-site.xml

添加下面内容,在configuration标签下添加

        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://127.0.0.1:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <!-- 自定义 hadoop 的工作目录,需要自己创建 -->
                <value>/usr/local/hadoop/hadoop-3.3.4/tmp</value>
        </property>
        <property>
                <name>hadoop.native.lib</name>
                <!-- 禁用Hadoop的本地库 -->
                <value>false</value>
        </property>

修改hdfs-site.xml

vi hdfs-site.xml

添加下面内容,在configuration标签下添加

   <property>
       <name>dfs.replication</name>
       <value>1</value>
   </property>

修改yarn-site.xml文件

添加下面内容,在configuration标签下添加

vi yarn-site.xml
       <property>
               <name>yarn.resourcemanager.hostname</name>
               <value>127.0.0.1</value>
       </property>
       <property>
               <name>yarn.resourcemanager.webapp.address</name>
               <!-- yarn web 页面 -->
               <value>0.0.0.0:8088</value>
       </property>
       <property>
               <name>yarn.nodemanager.aux-services</name>
               <!-- reducer获取数据的方式 -->
               <value>mapreduce_shuffle</value>
       </property>

修改mapred-site.xml文件

添加下面内容,在configuration标签下添加

vi mapred-site.xml
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>

修改hadoop-env.sh文件

vi hadoop-env.sh

在文件末尾加上下面的内容

# 将当前用户 root 赋给下面这些变量,不加这些会导致出现后面我遇到的一个问题
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

# JDK 安装路径,参考 cat /etc/profile |grep JAVA_HOME
export JAVA_HOME=/usr/local/java/jdk1.8.0_341

# Hadop 安装路径下的 ./etc/hadoop 路径
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-3.3.4/etc/hadoop

配置hadoop环境变量

vi /etc/profile

在文件末尾添加下面的内容

export HADOOP_HOME=/usr/local/hadoop/hadoop-3.3.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

执行命令让配置文件生效

source /etc/profile

配置本机ssh登录免密

依次执行下面的命令

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

启动hadoop

首次启动hadoop格式化HDFS,执行下面的命令

hdfs namenode -format

格式化成功之后就可以启动hadoop了,hadoop启动,停止相关脚本在/root/software/hadoop-3.3.4/sbin路径下面
因为我们已经配置了环境变量,所以可以直接执行下面的命令

start-all.sh

执行成功,通过jps看一下,效果如下
hbase单机模式伪分布式安装结果,大数据相关,hadoop,hbase,大数据

可以通过hdfs的相关命令测试一下

#在hdfs上创建文件夹
hadoop fs -mkdir /test_1/
# 查看
hadoop fs -ls /
# 新建文本文件
vi test_file_1.txt
# 向文本中写入字符串 123
echo 123 >> test_file_1.txt
# 将文本上传到 HDFS
hadoop fs -put test_file_1.txt /test_1/
# 查看文件夹下面的文件
hadoop fs -ls /test_1/
# 查看文件
hadoop fs -cat /test_1/test_file_1.txt
# 将 HDFS 上的文件下载到本地
hadoop fs -get /test_1/test_file_1.txt

hdfs的命令和linux命令基本一致,注意相关的命令格式就可以了,另外hadoop还有两个可视化的web页面
Hadoop Web 页面,开放端口

# 防火墙放行 9870 tcp 端口
firewall-cmd --zone=public --add-port=9870/tcp --permanent
# 防火墙重新加载
firewall-cmd --reload

然后在浏览器上访问:虚拟机IP:9870就可以看到了
hbase单机模式伪分布式安装结果,大数据相关,hadoop,hbase,大数据

Yarn Web 页面,还是先开放端口:

# 防火墙放行 8088 tcp 端口
firewall-cmd --zone=public --add-port=8088/tcp --permanent
# 防火墙重新加载
firewall-cmd --reload

然后在浏览器上访问:虚拟机IP:8088就可以看到了,这里我就不截图了
到这里hadoop算是安装成功了!

hadoop安装遇到的问题

1.将3.3.2版本删掉之后,包括环境变量,但是还是走的3.3.2的环境变量
这个问题出现是因为我最开始用的是hadoop3.3.2版本,后来换成了hadoop3.3.4版本,但是执行命令时环境变量感觉没变,重启一下虚拟机就好了
2./root/software/hadoop-3.3.2/libexec/shellprofile.d/hadoop-aliyun.sh:行58: “_hadoop-aliyun_hadoop_classpath”: 不是有效的标识符
执行start-all.sh出现了这个报错,所以我将3.3.2版本换成了3.3.4,之后没出现这个报错
3.Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
这是执行start-all.sh时出现的又一个问题,就是在hadoop-env.sh中加入了root的预定义即可解决

Hbase安装

下载hbase

hbase和java版本,hadoop版本有着依赖关系,所以下载的时候提前确定好自己要下载的hbase版本
下面时官网给出的版本对应关系:
https://hbase.apache.org/book.html#basic.prerequisites
我本地安装的时java1.8,hadoop3.3.4,所以我最终用了hbase的2.4.17版本
还是通过wget命令直接通过国内镜像下载

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.4.17/hbase-2.4.17-bin.tar.gz
tar -zxvf hbase-2.4.17-bin.tar.gz

修改hbase.env.sh文件

hbase相关的配置文件在/hbase-2.4.17/conf路径下面

vi hbase-env.sh

添加下面的内容

#修改成你本机的java环境地址
export JAVA_HOME=/usr/local/java/jdk1.8.0_341
#这里设置为true代表使用hbase自带的zookeeper
export HBASE_DISABLE_HADOOP_CLASSPATH_LOOKUP="true"

修改hbase-site.xml文件

vi hbase-site.xml

将下面的内容加上,需要自己创建的文件夹自己创建一下

  <property>
    <!-- 伪分布式 -->
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>

  <property>
    <!-- region server 的共享 HDFS 目录,用来持久化 Hbase -->
    <name>hbase.rootdir</name>
    <value>hdfs://127.0.0.1:9000/hbase</value>
  </property>

  <property>
    <!-- hbase 的 zookeeper 集群的地址列表,用逗号分隔 -->
    <name>hbase.zookeeper.quorum</name>
    <value>127.0.0.1</value>
  </property>

  <property>
    <!-- zookeeper 快照存放地址 -->
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/usr/local/hbase/hbase-2.4.14/data/zookeeper</value>
  </property>

修改regionservers

vi regionservers
打开文件之后在里面添加127.0.0.1

修改环境变量

vi /etc/profile

将下面的内容追加到文件末尾

export HBASE_HOME=/usr/local/hbase/hbase-2.4.14
export PATH=$HBASE_HOME/bin:$PATH

执行命令让配置文件生效

source /etc/profile

启动hbase

启动habse之前先要启动hadoop,因为我的虚拟机上已经启动了
hbase相关的启动,停止命令在/hbase-2.4.17/bin路径下面,因为配置了环境变量,所以直接执行下面的命令启动即可

start-hbase.sh

启动成功之后可以通过hbase shell进入hbase命令行:
hbase单机模式伪分布式安装结果,大数据相关,hadoop,hbase,大数据
hbase-web页面,还是先开放端口:

# 防火墙放行 16010 tcp 端口
firewall-cmd --zone=public --add-port=16010/tcp --permanent
# 防火墙重新加载
firewall-cmd --reload

然后在浏览器上访问:虚拟机ip:16010 ,这里我不截图了

参考文章:
https://blog.csdn.net/qq_36462452/article/details/127399982

到这里虚拟机上hadoop和hbase的安装就算告一段落了,这里面还有很多的点需要去了解,hadoop操作hdfs的命令,hbase shell命令行的命令,我也是一个初学者,把这些记录下来一是为了加深自己对这些东西的一个印象,二是希望给同样的初学者一些参考。

# “是不是一定要有所失,才能有所悟”文章来源地址https://www.toymoban.com/news/detail-765514.html

到了这里,关于虚拟机安装hadoop,hbase(单机伪集群模式)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 四种部署模式的优缺点(单机、集群、分布式、微服务)

    单机 部署含义:所有的业务全部写在一个项目中,部署服务到一台服务器上。 单机 部署优点:方便开发、学习成本低,方便部署。 单机 部署缺点:当一个模块出现问题,整个系统全部停止更新。 集群 部署含义:集群就是单机的“复制”,同一个业务,部署在多个服务器上

    2024年02月04日
    浏览(40)
  • Hadoop分布式集群搭建(三台虚拟机)

    搭建好VMware Workstation Pro(我这里装的版本是16) 搭建hadoop集群需要三台虚拟机 1.新建虚拟机——自定义(高级)  2.不用改动,点击下一步  3.映像文件稍后再加入  4.选择Linux——CentOS 7 64位  5.可以在存放虚拟机的文件内新建一个文件夹,专门放hadoop集群需要的虚拟机(有三

    2024年02月08日
    浏览(35)
  • 真·保姆级——在VMware的Ubuntukylin上进行Hadoop单机/伪分布式安装时安装VMware Tools后虚拟机与物理机之间无法传输文件和复制粘贴的问题(附Ubuntu更改默认登录用户)

    目录 一、前言 二、版本信息 三、hadoop用户创建 1.创建hadoop用户 2.在创建hadoop用户后对系统进行重启 四、解决办法 4.1 更改默认登陆用户 4.2 安装VMware Tools 4.3 验证VMware Tools是否安装成功 4.4 KO!!! 4.4.1 卸载安装的Vmware Tools 4.4.2 安装VMware Tools所需的组件 五、可能遇见的问题

    2024年02月08日
    浏览(66)
  • 超详细Hadoop安装教程(单机版、伪分布式)

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop的框架最核心的设计就是: HDFS 和 MapReduce 。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了

    2024年02月08日
    浏览(44)
  • Hadoop(01) Hadoop3.3.6安装教程,单机/伪分布式配置

    在安装 Hadoop 3.3.6 前,需要满足以下前置条件: Java Development Kit (JDK):Hadoop 是用 Java 编写的,因此需要安装并配置适当版本的 JDK。Hadoop 3.3.6 建议使用 JDK 8 或更高版本。确保正确安装 JDK,并设置 JAVA_HOME 环境变量。 SSH:Hadoop 集群中的节点需要通过 SSH 进行通信和管理。确保在

    2024年02月06日
    浏览(36)
  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(41)
  • 超详细版Hadoop的安装与使用(单机/伪分布式)

    虚拟机安装包以及Ubuntu ISO映像下载:https://pan.baidu.com/s/19Ai5K-AA4NZHpfMcCs3D8w?pwd=9999  下载完成后,进入VMware,点击右上角【文件】——【新建虚拟机向导】 1.1选择典型 1.2选择光盘映像 映像文件选择上方刚刚下载的ubuntukylin-16.04-desktop-amd64 1.3命名 根据自己需求来,无统一规定

    2024年01月21日
    浏览(40)
  • Hadoop3.1.3安装教程单机伪分布式配置

    本教程使用 Ubuntu 18.04 64位 作为系统环境(或者Ubuntu 14.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统。装好了 Ubuntu 系统之后,在安装 Hadoop 前还需要做一些必备工作。 创建hadoop用户 如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用

    2024年02月04日
    浏览(41)
  • 【生产级实践】Docker部署配置Hadoop3.x + HBase2.x实现真正分布式集群环境

    网上找了很多资料,但能够实现Docker安装Hadoop3.X和Hbase2.X真正分布式集群的教程很零散,坑很多, 把经验做了整理, 避免趟坑。 1、机器环境 这里采用三台机器来部署分布式集群环境: 192.168.1.101 hadoop1 (docker管理节点) 192.168.1.102 hadoop2 192.168.1.103 hadoop3 2、下载Docker Hadoop的

    2024年02月02日
    浏览(35)
  • Hadoop集群部署-(完全分布式模式,hadoop-2.7.4)

    相关软件下载准备:(推荐) 虚拟机运行环境:VMware 16.1.1 映像文件:CentOS-7-x86_64-DVD-1810.iso 远程登录工具:Xshell-7.0.0090.exe Xftp传输工具:Xftp-7.0.0111p.exe 首先掌握VMware的下载与安装,有linux学习基础的同学可以略看。 参考链接:https://mp.weixin.qq.com/s/CUiauodcjCFPIXEFEx8fOw 【软件名

    2024年02月09日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包