5. Hadoop集群操作

这篇具有很好参考价值的文章主要介绍了5. Hadoop集群操作。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

5. Hadoop集群操作

5.1 启动Hadoop集群

5.1.1 格式化文件系统

如果集群是第一次启动,需要在hadoop102节点格式化NameNode。
注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。

[li@hadoop102 ~]$ hdfs namenode -format
# 或者
[li@hadoop102 ~]$ hadoop namenode -format

执行上述任意一条命令均可以进行Hadoop集群格式化。执行格式化指令之后,出现: has been successfully formatted.信息,表明HDFS文件系统成功格式化,即可正式启动集群;否则,需要查看命令是否正确,或者安装配置是否正确。

5.1.2 启动Hadoop进程

Hadoop集群的启动,需要启动其内部的两个集群框架,HDFS集群和YARN集群。启动方式有单节点逐个启动和使用脚本一键启动两种。

  1. 启动HDFS
[li@hadoop102 sbin]$ start-dfs.sh
Starting namenodes on [hadoop102]
Starting datanodes
hadoop104: WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
hadoop103: WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
Starting secondary namenodes [hadoop104]
  1. 启动YARN

在配置了ResourceManager的节点(hadoop103)启动YARN

[li@hadoop103 sbin]$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers

5.2 监控Hadoop集群

Hadoop集群有相关的服务监控端口,方便用户对Hadoop集群的资源、任务运行状态等信息有更直观的了解,具体如下表:

服务 Web接口 默认端口
NameNode http://namenode_host:port/ 9870
ResourceManager http://resourcemanager_host:port/ 8088
MapReduce JobHistoryServer http://jobhistroyserver_host:port/ 19888

5.2.1 HDFS监控

Web端查看HDFS的NameNode:
(a)浏览器中输入:http://hadoop102:9870

配置hadoop格式化,Hadoop大数据技术,hadoop,hdfs,大数据

  • Overview
    • 记录了NameNode的启动时间、版本号、编译版本等一些基本信息。
  • Summary
    • 记录集群信息。
    • 提供了当前集群环境的一些有用信息,同时还标注了当前集群环境中DataNode的信息,对活动状态的DataNode也专门进行了记录。
  • NameNode Storage
    • 提供了NameNode的信息,最后的State标示此节点为活动节点,可正常提供服务。

依次选择“Utilities”→“Browse the file system”命令可以查看HDFS上的文件信息。

配置hadoop格式化,Hadoop大数据技术,hadoop,hdfs,大数据

(b)查看HDFS上存储的数据信息

配置hadoop格式化,Hadoop大数据技术,hadoop,hdfs,大数据
(c)查看Hadoop进程

[li@hadoop102 hadoop-3.1.3]$ jps
2384 NameNode
3153 Jps
2889 NodeManager
2555 DataNode

5.2.2 YARN监控

Web端查看YARN的ResourceManager:
(a)浏览器中输入:http://hadoop103:8088

配置hadoop格式化,Hadoop大数据技术,hadoop,hdfs,大数据
(b)查看YARN上运行的Job信息

[li@hadoop103 hadoop-3.1.3]$ jps
3024 Jps
2528 NodeManager
2388 ResourceManager
2184 DataNode

5.2.3 日志监控

Web端查看Hadoop的日志监控界面即JobHistroy:
(a)在浏览器中地址栏中输入http://hadoop102:19888

配置hadoop格式化,Hadoop大数据技术,hadoop,hdfs,大数据

5.3 Hadoop集群基本测试

5.3.1 上传文件到集群

  1. 创建input目录,上传小文件
[li@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /input
[li@hadoop102 hadoop-3.1.3]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
2022-08-24 15:09:10,390 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

上传完成后可以在浏览器中查看内容:
配置hadoop格式化,Hadoop大数据技术,hadoop,hdfs,大数据

  1. 上传大文件到/目录
[li@hadoop102 hadoop-3.1.3]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
2022-08-24 15:16:02,641 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
2022-08-24 15:16:03,912 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

配置hadoop格式化,Hadoop大数据技术,hadoop,hdfs,大数据

5.3.2 查看文件

  1. 查看HDFS文件存储路径
[li@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1775777091-192.168.10.132-1661323073082/current/finalized/subdir0/subdir0

配置hadoop格式化,Hadoop大数据技术,hadoop,hdfs,大数据

  1. 查看HDFS在磁盘存储文件内容
[li@hadoop102 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce
atguigu
atguigu
  1. 拼接其他两个数据包
[li@hadoop102 subdir0]$ cat blk_1073741826>>tmp.tar.gz
[li@hadoop102 subdir0]$ cat blk_1073741827>>tmp.tar.gz
[li@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz
jdk1.8.0_212/
jdk1.8.0_212/README.html
jdk1.8.0_212/LICENSE
jdk1.8.0_212/include/
jdk1.8.0_212/include/jawt.h
jdk1.8.0_212/include/linux/
jdk1.8.0_212/include/linux/jawt_md.h
jdk1.8.0_212/include/linux/jni_md.h
jdk1.8.0_212/include/classfile_constants.h
jdk1.8.0_212/include/jvmticmlr.h
jdk1.8.0_212/include/jni.h
...

发现文件就是上传的jdk。

5.3.3 下载文件

[li@hadoop102 ~]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./
2022-08-24 15:29:50,243 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

查看文件

[li@hadoop102 ~]$ ll
总用量 190480
drwxrwxr-x. 2 li li      4096 823 16:49 bin
-rw-r--r--. 1 li li 195013152 824 15:29 jdk-8u212-linux-x64.tar.gz # 下载成功
drwxr-xr-x. 2 li li      4096 822 17:08 公共
drwxr-xr-x. 2 li li      4096 822 17:08 模板
drwxr-xr-x. 2 li li      4096 822 17:08 视频
drwxr-xr-x. 2 li li      4096 822 17:08 图片
drwxr-xr-x. 2 li li      4096 822 17:08 文档
drwxr-xr-x. 2 li li      4096 822 17:08 下载
drwxr-xr-x. 2 li li      4096 822 17:08 音乐
drwxr-xr-x. 2 li li      4096 822 17:08 桌面

  1. 执行wordcount程序
[li@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

5.4 停止Hadoop集群

5.4.1 各模块分开启动/停止

在配置ssh的前提下

  1. 整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh
  1. 整体启动/停止YARN
start-yarn.sh/stop-yarn.sh

5.4.2 各服务组件逐一启动/停止

  1. 分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
  1. 启动/停止YARN
yarn --daemon start/stop  resourcemanager/nodemanager

5.5 Hadoop集群常用脚本

5.5.1 Hadoop集群启停脚本

包含HDFS,Yarn,Historyserver:myhadoop.sh

[li@hadoop102 hadoop-3.1.3]$ cd /home/li/bin
[li@hadoop102 bin]$ vim myhadoop.sh

输入如下内容:

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi
case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"

;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"

;;
*)
    echo "Input Args Error..."
;;
esac

:wq保存退出。
修改脚本执行权限:

[li@hadoop102 bin]$ chmod +x myhadoop.sh
[li@hadoop102 bin]$ myhadoop.sh stop #停止集群

5.5.2 查看进程脚本

查看三台服务器Java进程脚本:jpsall

[li@hadoop102 bin]$ vim jpsall

输入如下内容:

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

:wq保存后退出,然后赋予脚本执行权限

[li@hadoop102 bin]$ chmod +x jpsall

5.5.3 脚本分发

分发/home/li/bin目录,保证自定义脚本在三台机器上都可以使用文章来源地址https://www.toymoban.com/news/detail-762248.html

[li@hadoop102 bin]$  xsync /home/li/bin/
==================== hadoop102 ====================
sending incremental file list

sent 129 bytes  received 17 bytes  292.00 bytes/sec
total size is 2,007  speedup is 13.75
==================== hadoop103 ====================
sending incremental file list
bin/
bin/jpsall
bin/myhadoop.sh

sent 1,490 bytes  received 58 bytes  1,032.00 bytes/sec
total size is 2,007  speedup is 1.30
==================== hadoop104 ====================
sending incremental file list
bin/
bin/jpsall
bin/myhadoop.sh

sent 1,490 bytes  received 58 bytes  3,096.00 bytes/sec
total size is 2,007  speedup is 1.30

到了这里,关于5. Hadoop集群操作的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop HA 搭建过程中报错:namenode格式化

    问题描述: 在格式化namenode时,显示报错如下 2024-03-07 13:55:30,543 ERROR namenode.FSNamesystem: FSNamesystem initialization failed. java.io.IOException: Invalid configuration: a shared edits dir must not be specified if HA is not enabled.     at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.init(FSNamesystem.java:794)     at org

    2024年04月14日
    浏览(34)
  • hadoop namenode格式化错误以及启动不了解决方案

    重启虚拟机,启动Zookeeper和journalnode 启动三台机器的zookeeper 和 journalnode 第一次格式化namenode时报错,namennode可能会自动进入了安全模式,所以需要关闭安全模式 重新格式化 需要先关闭所有服务 查看配置文件是否有错误 然后删除tmp文件,并重新格式化namenode,tmp文件查看co

    2024年02月11日
    浏览(49)
  • sd卡格式化后数据恢复怎么操作

    有时候我们需要清空SD卡数据文件,有时候则是因为需要修复SD卡所以需要格式化,但是却被提示无法格式化SD卡。这种情况往往是由于平时SD卡使用时的一些不良习惯或是SD卡中病毒,病毒在运行SD卡中的软件所造成的。那么sd卡格式化后数据恢复怎么操作?下面就为大家介绍

    2024年02月12日
    浏览(40)
  • Linux磁盘操作:分区、格式化、挂载

    fdisk分区 (1)fdisk命令只支持msdos,分区的时候只支持小容量硬盘(=2T),但是如果不需要分区的话,那么整块sdb硬盘,类型为msdos,那么他的大小是可以大于2T的。 (2)fdisk命令不支持gpt,所以当使用fdisk命令给gpt类型硬盘分区是会出现告警 首先先把设备关机,添加一块新的

    2024年02月11日
    浏览(48)
  • 格式化电脑重装系统怎么操作

    ​ 电脑一但中毒的电脑必须重装系统,而且需要格式化后重装系统,才能将病毒铲除,那么如何将电脑格式化后重装系统呢?能够实现电脑格式化重装系统的方法是U盘重装和光盘重装,由于部分电脑没有光驱,建议用U盘,下面小编跟大家介绍格式化电脑重装系统怎么操作。

    2024年02月10日
    浏览(36)
  • Python字符串格式化 (%操作符)

    在许多编程语言中都包含有格式化字符串的功能,比如C和Fortran语言中的格式化输入输出。在Python中内置有对字符串进行格式化的操作符是\\\"%\\\"。 模板 格式化字符串时,Python使用一个字符串作为模板。模板中有格式符,这些格式符为真实值预留位置,并说明真实数值应该呈现的

    2024年02月14日
    浏览(47)
  • 解决方案:VSCode中配置自动格式化实现Ctrl+S自动格式化代码

    一致的代码风格不仅仅有助于提高可读性,还可以减少错误和漏洞的产生。在编码中,在VSCode中配置Prettier插件并实现使用Ctrl+S自动格式化代码,其可以: 根据事先定义的规则自动调整代码的缩进、换行、空格等格式,从而让所有开发人员的代码风格保持一致 。这有助于提高

    2024年02月06日
    浏览(73)
  • 电脑被格式化怎么恢复数据?电脑格式化后还能恢复数据吗?

    电脑的配件中,硬盘起着不可或缺的作用。它承担着储存数据的重要任务,但在日常使用过程中,电脑硬盘往往会因为各种原因格式化,有时候是误操作、有时候是分区提示格式化、有时候则是中病毒了。 而格式化之后,硬盘中的数据就会被全部清空。做好了文件备份后格式

    2024年02月09日
    浏览(64)
  • Webstorm和VsCode 统一格式化配置

    一。下载依赖包 package.json package.json //提交代码进行eslint校验 二。webstorm 1. 2. 3. 4.根目录新建.eslintrc.js 5.根目录新建.prettierrc.js 6.根目录新建lint-staged.config.js 7.重启项目 tips webstorm scss url报红 三。vscode配置 1.安装prettier、eslint 2.配置.vscode settings.json 3.重启vscode

    2024年02月02日
    浏览(69)
  • webstorm配置eslint一键格式化代码

    安装eslint插件:npm install --save-dev eslint-config-vue eslint-plugin-vue 创建eslintrc.js文件,添加相关代码规范(根据自己喜好进行调整) webstorm进行快捷键设置 这样在页面使用Alt + S,即可一键格式化代码了

    2024年02月01日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包