从零开始的Hadoop学习（三）| 集群分发脚本xsync-Toy模板网

这篇具有很好参考价值的文章主要介绍了从零开始的Hadoop学习（三）| 集群分发脚本xsync。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. Hadoop目录结构

bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本
etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
sbin目录：存放启动或停止Hadoop相关服务的脚本
share目录：存放Hadoop的依赖jar包、文档、和官方案例

2. Hadoop运行模式

本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。

2.1 本地运行模式（官方 WordCount）

1）创建在hadoop-3.1.3文件下面创建一个wcinput文件夹
```
[atguigu@hadoop102 hadoop-3.1.3]$ mkdir wcinput
```
2）在wcinput文件下创建一个word.txt文件
```
[atguigu@hadoop102 hadoop-3.1.3]$ cd wcinput
```

3）编辑 word.txt 文件

[atguigu@hadoop102 wcinput]$ vim word.txt

在文件中输入如下内容

hadoop yarn
hadoop mapreduce
atguigu
atguigu

4）回到Hadoop 目录/opt/module/hadoop-3.1.3

5）执行程序

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

6）查看结果

[atguigu@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000
看到如下结果：
atguigu 2
hadoop  2
mapreduce       1
yarn    1

3.2 完全分布式运行模式（开发重点）

分析：

1）准备3台客户机（关闭防火墙、静态IP、主机名称）
2）安装JDK
3）配置环境变量
4）安装Hadoop
5）配置环境变量
6）配置集群
7）单点启动
8）配置ssh
9）群起并测试集群

3.2.2 编写集群分发脚本 xsync

scp (secure copy) 安全拷贝

1）scp 定义

scp 可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

2）基本语法

scp  -r    $pdir/$fname    $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

3）实际操作

(a) 在hadoop102上，将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。
```
[atguigu@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212  atguigu@hadoop103:/opt/module
```
(b) 在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。
```
[atguigu@hadoop103 ~]$ scp -r atguigu@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/
```
© 在hadoop103上操作，将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。
```
[atguigu@hadoop103 opt]$ scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop104:/opt/module
```

rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync 和 scp 区别：用 rsync做文件的复制要比 scp 的速度快，rsync 只对差异文件做更新。scp 是把所有文件都复制过去。

1）基本语法

rsync -av  $pdir/$fname  $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

选项参数说明

选项	功能
-a	归档拷贝
-v	显示复制过程

2）实际操作

(a) 删除hadoop103中/opt/module/hadoop-3.1.3/wcinput

[atguigu@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/

(b) 同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103

[atguigu@hadoop102 module]$ rsync -av hadoop-3.1.3/ atguigu@hadoop103:/opt/module/hadoop-3.1.3/

xsync集群分发脚本

1）需求：循环复制文件到所有节点相同的目录下

2）需求分析

（a）rsync 命令原始拷贝：

rsync  -av  /opt/module  atguigu@hadoop103:/opt/

（b）期望脚本：xsync 要同步的文件名称

（c）期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径）

[atguigu@hadoop102 ~]$ echo $PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/atguigu/.local/bin:/home/atguigu/bin:/opt/module/jdk1.8.0_212/bin

3）脚本实现

（a）在/home/atguigu/bin 目录下创建 xsync 文件

[atguigu@hadoop102 opt]$ cd /home/atguigu
[atguigu@hadoop102 ~]$ mkdir bin
[atguigu@hadoop102 ~]$ cd bin
[atguigu@hadoop102 bin]$ vim xsync

在该文件下编写如下代码

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

（b）修改脚本 xsync 具有执行权限

[atguigu@hadoop102 bin]$ chmod +x xsync

（c）测试脚本

[atguigu@hadoop102 ~]$ xsync /home/atguigu/bin

（d）将脚本复制到 /bin 中，以便全局调用

[atguigu@hadoop102 bin]$ sudo cp xsync /bin/

（e）同步案件变量配置（root所有者）

[atguigu@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

注意：如果用了 sudo，那么xsync一定要给它的路径补全。

让环境变量生效文章来源地址https://www.toymoban.com/news/detail-677954.html

[atguigu@hadoop103 bin]$ source /etc/profile
[atguigu@hadoop104 opt]$ source /etc/profile

到了这里，关于从零开始的Hadoop学习（三）| 集群分发脚本xsync的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

从零开始的Hadoop学习（三）| 集群分发脚本xsync

1. Hadoop目录结构

2. Hadoop运行模式

2.1 本地运行模式（官方 WordCount）

3.2 完全分布式运行模式（开发重点）

3.2.2 编写集群分发脚本 xsync

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2