【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程

这篇具有很好参考价值的文章主要介绍了【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

视频:黑马2023 VMWare虚拟机部署HDFS集群
注意!这些操作的前提是完成了前置准备中的服务器创建、固定IP、防火墙关闭、Hadoop用户创建、SSH免密、JDK部署等操作!!!

操作在这里 大数据集群环境准备过程记录(3台虚拟机)

部署HDFS集群

1.上传Hadoop安装包到node1节点中
rz -bey
2.解压缩安装包到/export/server/中
tar -zxvf hadoop-3.3.4.tar.gz -C /export/server
3构建软链接
cd /export/server
ln -s /export/server/hadoop-3.3.4 hadoop
4.进入hadoop安装包内
cd hadoop

ls -l查看文件夹内部结构:
各个文件夹含义如下:

bin ,存放Hadoop的各类程序 (命令 etc,存放Hadoop的配置文件
include,C语言的一些头文件lib,存放Linux系统的动态链接库 (.so文件)libexec,存放配置Hadoop系统的脚本文件
(.sh和.cmd licenses-binary,存放许可证文件 sbin,管理员程序 (super bin)
share,存放二进制源码 (Javajar包)


主要配置的是
etc中的一些文件:!!!
cd /export/server/hadoop/etc/hadoop

这里要注意,我一开始把配置全写在/export/server/hadoop 文件中,最后启动时无法启动节点,排查了好久>_<!!

1.配置workers:

vim workers
先删掉内置的localhost
输入:

node1
node2
node3

2.配置hadoop-env.sh文件

vim hadoop-env.sh
填入如下内容

export JAVA_HOME=/export/server/jdk
export HADOOP_HOME=/export/server/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LOG_DIR=$HADOOP_HOME/logs

JAVA HOME,指明JDK环境的位置在哪
HADOOP_HOME,指明Hadoop安装位置
HADOOP_CONF_DIR,指明Hadoop配置文件目录位置
HADOOP_LOG DIR,指明Hadoop运行日志目录位置
通过记录这些环境变量,来指明上述运行时的重要信息

3.配置core-site.xml文件

vim core-site.xml
在文件内部填入如下内容

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://node1:8020</value>
	</property>
	<property>
		<name>io.file.buffer.size</name>
		<value>131072</value>
	</property>
</configuration>

key: fs.defaultFS 含义:HDFS文件系统的网络通讯路径 值:hdfs://nodel:8020
协议为hdfs:// namenode为node1 namenode通讯端口为8020 key:
jo.file.buffer.size 含义: io操作文件缓冲区大小 值:131072bit

hdfs://node1:8020为整个HDFS内部的通讯地址,应用协议为hdfs:// (Hadoop内置协议)
表明DataNode将和node1的8020端口通讯,node1是NameNode所在机器
此配置固定了node1必须启动NameNode进程

4.配置hdfs-site.xml文件

在文件内部填入如下内容

<configuration>
	<property>
		<name>dfs.datanode.data.dir.perm</name>
		<value>700</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>/data/nn</value>
	</property>
	<property>
		<name>dfs.namenode.hosts</name>
		<value>node1,node2,node3</value>
	</property>

	<property>
		<name>dfs.blocksize</name>
		<value>268435456</value>
	</property>
	<property>
		<name>dfs.namenode.handler.count</name>
		<value>100</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>/data/dn</value>
	</property>
</configuration>


这里我出现了HDFS部署成功但是网页端打不开的情况,通过显示指定端口解决了
,即加入了:

dfs.namenode.http-address node1:9870

详细问题记录在这篇博客:HDFS集群部署成功但网页无法打开如何解决中。

准备数据目录

namenode数据存放node1的/data/nn
datanode数据存放node1、node2、node3的/data/dn所以应该
在node1节点:
mkdir -p /data/nn
mkdir /data/dn
在node2和node3节点
mkdir -p /data/dn

分发Hadoop文件夹

分发

在node1执行如下命令
cd /export/server (或者当前步骤cd… 就回到server目录)

scp -r hadoop-3.3.4 node2:`pwd`/
scp -r hadoop-3.3.4 node3:`pwd`/

在node2执行,为hadoop配置软链接
ln -s /export/server/hadoop-3.3.4 /export/server/hadoop
在node3执行,为hadoop配置软链接
ln -s /export/server/hadoop-3.3.4 /export/server/hadoop

配置环境变量

vim /etc/profile
在/etc/profile文件底部追加如下内容:

export HADOOP_HOME=/export/server/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

注:PATH是追加的,不会和之前的冲突

环境变量生效 source /etc/profile

授权为hadoop用户

hadoop部署的准备工作基本完成
为了确保安全,hadoop系统不以root用户启动,我们以普通用户hadoop来启动整个Hadoop服务所以,现在需要对文件权限进行授权。

以root身份,在node1、node2、node3三台服务器上均执行如下命令
su - root
cd /data/

chown -R hadoop:hadoop /data
chown -R hadoop:hadoop /export

ll 查看已经授权给hadoop了
【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程

格式化文件系统

前期准备全部完成,现在对整个文件系统执行初始化
1.格式化namenode
确保以hadoop用户执行
su - hadoop
格式化namenode
hadoop namenode -format
2.启动
一键启动hdfs集群
start-dfs.sh
一键关闭hdfs集群
stop-dfs.sh
如果遇到命令未找到的错误,表明环境变量未配置好,可以以绝对路径执行
export/server/hadoop/sbin/start-dfs.sh
export/server/hadoop/sbin/stop-dfs.sh

jps
查看正在运行的java程序·

【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程

错误排查方法!!

理解start-dfs.ah执行:
在当前机器去启动SecondaryNameNode,并根据core-site.xml的记录启动NameNode
根据workers文件的记录,启动各个机器的datanode

执行脚本不报错,但是进程不存在:
查看日志:

cd /export/server/hadoop/logs
ll--查看有哪些log可以排查
tail -100 hadoop-hadoop-namenode-node3.log--这里是你要检查的日志

清理:
rm -rf /export/server/hadoop/logs/*
rm -rf /data/nn/;rm -rf /data/dn/

出现权限问题时:
chown -R hadoop:hadoop /data
chown -R hadoop:hadoop /export

返回上一级 cd …文章来源地址https://www.toymoban.com/news/detail-426663.html

到了这里,关于【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 黑马大数据学习笔记2-HDFS环境部署

    https://www.bilibili.com/video/BV1WY4y197g7?p=22 Hadoop HDFS的角色包含: NameNode,主节点管理者 DataNode,从节点工作者 SecondaryNameNode,主节点辅助 节点 CPU 内存 服务 node1 1核心 4GB NameNode、DataNode、SecondaryNameNode node2 1核心 2GB DataNode node3 1核心 2GB DataNode node1节点执行,root身份登录 上传Hadoo

    2024年02月16日
    浏览(22)
  • (十五)大数据实战——hive的安装部署

    Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本节内容我们主要介绍一下hive的安装与部署的相关内容。 上传hive安装包到hadoop101服务器/opt/software目录 解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下 - 命令:

    2024年02月13日
    浏览(27)
  • (四十)大数据实战——Zabbix监控平台的部署搭建

    Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警,这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。Zabbix 支持轮询和被动捕获。基于

    2024年02月20日
    浏览(32)
  • (十九)大数据实战——Flume数据采集框架安装部署

    本节内容我们主要介绍一下大数据数据采集框架flume的安装部署,Flume 是一款流行的开源分布式系统,用于高效地采集、汇总和传输大规模数据。它主要用于处理大量产生的日志数据和事件流。Flume 支持从各种数据源(如日志文件、消息队列、数据库等)实时采集数据,并将

    2024年02月10日
    浏览(34)
  • (十七)大数据实战——Hive的hiveserver2服务安装部署

    HiveServer2 是 Apache Hive 的一个服务器端组件,用于支持客户端与 Hive 进行交互和执行查询。HiveServer2服务的作用是提供jdbc/odbc接口,为用户提供远程访问Hive数据的功能。HiveServer2 允许多个客户端同时连接并与 Hive 交互。这些客户端可以通过 JDBC、ODBC 或 Thrift API 连接到 HiveServe

    2024年01月17日
    浏览(35)
  • (三十六)大数据实战——ClickHouse数据库的部署安装实现

    ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库 DBMS ),使用C语言编写,主要用于在线分析处理查询( OLAP ),能够使用SQL查询实时生成分析数据报告。 列式存储 :数据按列进行存储,这使得 ClickHouse 能够高效地处理聚合查询和分析操作; 高性能 :ClickHouse 被设计用

    2024年02月19日
    浏览(32)
  • (二十六)大数据实战——kafka集群之Kraft模式安装与部署

    本节内容主要介绍kafka3.0版本以后,一种新的kafka集群搭建模式看kraft,在该模式下,kafka高可用不在依赖于zookeeper,用 controller 节点代替 zookeeper,元数据保存在 controller 中,由 controller 直接进 行 Kafka 集群管理。 ①解压kafka安装包到/opt/module/kafka-kraft目录下 - 命令: ②修改k

    2024年02月08日
    浏览(35)
  • (二十四)大数据实战——Flume数据流监控之Ganglia的安装与部署

    本节内容我们主要介绍一下Flume数据流的监控工具Ganglia。Ganglia是一个开源的分布式系统性能监控工具。它被设计用于监视大规模的计算机群集(包括集群、网格和云环境),以便收集和展示系统和应用程序的性能数据。Ganglia 可以轻松地扩展到数千台计算机节点,并支持跨多

    2024年02月08日
    浏览(36)
  • vmware虚拟机上网设置教程(vmware虚拟机设置网络)

    安装vmware后,一般都会有虚拟机能连互联网的需求(如虚拟机中Linux想访问百度),vmware为我们提供了几种连接网络的方式,它们分别是:Bridged(桥接模式)、NAT(网络地址转换模式)、Host-Only(仅主机模式)。先搞明白几个概念: VMnet0表示的是用于Bridged模式下的虚拟交换

    2024年02月05日
    浏览(33)
  • 黑马Redis视频教程实战篇(二)

    目录 一、什么是缓存? 1.1 为什么要使用缓存? 1.2 如何使用缓存? 二、添加商户缓存 2.1 缓存模型和思路 2.2 代码实现 三、缓存更新策略 2.1 数据库缓存不一致解决方案 2.2 数据库和缓存不一致采用什么方案 四、实现商铺和缓存与数据库双写一致 五、缓存穿透问题的解决思

    2024年02月07日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包