Hadoop 之 分布式集群配置与使用(三)

这篇具有很好参考价值的文章主要介绍了Hadoop 之 分布式集群配置与使用(三)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一.集群实例创建

以三个 Hadoop 实例创建集群,可以用虚拟机,或者Docker容器来实现。本教程直接使用虚拟机演示
集群架构可参考下图:客户端、命名节点和数据节点

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

查看 Hadoop 配置文件目录:ll $HADOOP_HOME/etc/hadoop

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

Hadoop 基本概念与含义
名称 含义
HDFS Hadoop Distributed File System,Hadoop 分布式文件系统的简称
NameNode 指挥其它节点存储的节点,用于映射文件在集群存储的位置
Secondary NameNode 副命名节点,用于备份命名节点数据,并协助命名节点进行管理工作;命名节点崩溃后可以用来恢复其数据,可以有多个
DataNode 用来储存数据块的节点,HDFS基础存储单位,受命名节点协调管理
core-site.xml Hadoop 核心配置
hdfs-site.xml HDFS 配置项
mapred-site.xml MapReduce 配置项,映射和规约,对大型任务分治处理
yarn-site.xml YARN 配置项
workers 记录所有的数据节点的主机名或 IP 地址

二.配置

1.创建三个虚拟机(Anolis)

虚拟机名称 地址 Host Name
hadoop_1 192.168.1.6 nn
hadoop_2 192.168.1.7 nd1
hadoop_3 192.168.1.8 nd2

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

1.修改 HostName

## 修改 192.168.1.6 服务器
hostnamectl set-hostname nn
echo "192.168.1.7 nd1" >> /etc/hosts
echo "192.168.1.8 nd2" >> /etc/hosts
## 修改 192.168.1.7 服务器
hostnamectl set-hostname nd1
echo "192.168.1.6 nn" >> /etc/hosts
echo "192.168.1.8 nd2" >> /etc/hosts
## 修改 192.168.1.8 服务器
hostnamectl set-hostname nd2
echo "192.168.1.6 nn" >> /etc/hosts
echo "192.168.1.7 nd1" >> /etc/hosts
以 192.168.1.6 为例

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

2.配置免密登录,配置前

ssh root@nd1

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

## 修改 192.168.1.6 服务器
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
ssh-copy-id -i ~/.ssh/id_rsa root@nd1
ssh-copy-id -i ~/.ssh/id_rsa root@nd2
## 修改 192.168.1.7 服务器
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
ssh-copy-id -i ~/.ssh/id_rsa root@nn
ssh-copy-id -i ~/.ssh/id_rsa root@nd2
## 修改 192.168.1.8 服务器
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
ssh-copy-id -i ~/.ssh/id_rsa root@nn
ssh-copy-id -i ~/.ssh/id_rsa root@nd1
## 分别配置本地登录
ssh-copy-id -i ~/.ssh/id_rsa root@localhost
以 192.168.1.6为例,免密访问 nd1

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

2.配置命名节点

1.在 nd1 / nd2 部署 hadoop

## 解压文件
mkdir -p /usr/local/java
mkdir -p /usr/local/hadoop
tar zxvf jdk-11.0.19_linux-x64_bin.tar.gz -C /usr/local/java/
tar zxvf hadoop-3.3.6.tar.gz -C /usr/local/hadoop/
## 设置环境变量
echo 'export JAVA_HOME=/usr/local/java/jdk-11.0.19' >> /etc/profile
echo 'export CLASSPATH=$JAVA_HOME/lib:$CLASSPATH' >> /etc/profile
echo 'export PATH=$JAVA_HOME/bin:$PATH' >> /etc/profile
echo 'export HADOOP_HOME=/usr/local/hadoop/hadoop-3.3.6' >> /etc/profile
echo 'export PATH=${PATH}:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin' >> /etc/profile
source /etc/profile

2.配置

## 1.进入
cd $HADOOP_HOME/etc/hadoop
## 2.修改配置 core-site.xml
vim core-site.xml
## 增加如下信息
   <property>
       <name>hadoop.http.staticuser.user</name>
       <value>root</value>
   </property>
   <property>
        <name>fs.defaultFS</name>
        <value>hdfs://nn:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:///home/hadoop/tmp</value>
    </property>
## 3.修改配置 hdfs-site.xml
vim hdfs-site.xml
## 增加如下信息
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.namenode.data.dir</name>
        <value>file:///home/hadoop/hdfs/data</value>
    </property>
## 4.修改配置 yarn-site.xml
vim yarn-site.xml
## 增加如下信息
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>nn</value>
    </property>
## 5.修改配置 mapred-site.xml
vim mapred-site.xml
## 增加如下信息
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
	  <name>yarn.app.mapreduce.am.env</name>
	  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
	</property>
	<property>
	  <name>mapreduce.map.env</name>
	  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
	</property>
	<property>
	  <name>mapreduce.reduce.env</name>
	  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
	</property>
## 6.修改配置 workers
vim workers
## 增加如下信息
nn
nd1
nd2
## 7.将以上两个文件从 nn 复制到 nd1/nd2
scp core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml hadoop-env.sh workers root@nd1:$HADOOP_HOME/etc/hadoop
scp core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml hadoop-env.sh workers root@nd2:$HADOOP_HOME/etc/hadoop

core-site.xml

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

hdfs-site.xml

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

yarn-site.xml

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

mapred-site.xml

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

workers

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

## 格式化命名节点:$HADOOP_HOME/etc/hadoop
hdfs namenode -format
## 启动服务
start-dfs.sh

格式化结果

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

启动结果

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

## 启动 Yarn
start-yarn.sh

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

3.查看集群信息

集群信息:http://192.168.1.6:9870/dfshealth.html#tab-datanode

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

在 Windows 访问 http://nd1:9864 要关虚拟机防火墙,并添加 Host 解析,此处直接通过 IP 地址打开

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

Yarn 信息:http://192.168.1.6:8088/cluster

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

三.测试

1.Shell 命令

## 上传文件
hadoop fs -put /home/test.txt /log/
## 查看文件
hadoop fs -cat /log/test.txt

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

2.Java & MapReduce

Apache Hadoop 官网

单词统计代码
package org.example.controller;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.StringTokenizer;

/**
 * @author Administrator
 * @Description
 * @create 2023-07-17 23:22
 */
public class WordCount {

    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context
        ) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer
            extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,
                           Context context
        ) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

}

测试类,测试地址:http://127.0.0.1:8080/test/wordCount
package org.example.controller;

import jakarta.annotation.PostConstruct;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

import java.io.IOException;

/**
 * @author Administrator
 * @Description
 * @create 2023-07-13 23:19
 */
@RestController
@RequestMapping("/test")
public class TestController {

    @PostConstruct
    public void init(){
        System.setProperty("HADOOP_USER_NAME","root");
    }

    @GetMapping("/wordCount")
    public void wordCount() throws IOException, InterruptedException, ClassNotFoundException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://192.168.1.6:9000");
        // 打开文件并读取输出
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setCombinerClass(WordCount.IntSumReducer.class);
        job.setReducerClass(WordCount.IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("/testData"));
        FileOutputFormat.setOutputPath(job, new Path("/output"));
        boolean result = job.waitForCompletion(true);
        // System.exit(result ? 0 : 1);
        // 打开文件并读取输出
        FileSystem fs = FileSystem.get(conf);
        Path path = new Path("/output/part-r-00000");
        FSDataInputStream ins = fs.open(path);
        StringBuilder builder = new StringBuilder();
        int ch = ins.read();
        while (ch != -1) {
            builder.append((char)ch);
            ch = ins.read();
        }
        System.out.println(builder.toString());
    }
}

测试结果

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs

Hadoop 之 分布式集群配置与使用(三),搜索引擎,数据结构,分布式,hadoop,大数据,jdk,hdfs文章来源地址https://www.toymoban.com/news/detail-571580.html

到了这里,关于Hadoop 之 分布式集群配置与使用(三)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HadoopHA模式(由于Hadoop的HA模式是在Hadoop完全分布式基础上,利用zookeeper等协调工具配置的高可用的Hadoop集群模式)

    目录 1.前期准备 1.1.hadoop-3.1.3.tar.gz,jdk-8u212-linux-x64.tar.gz,apache-zookeeper-3.5.7-bin.tar.gz三个包提取码:k5y6 2.解压安装包,配置环境变量 3. 将三个节点分别命名为master、slave1、slave2并做免密登录 免密在前面Hadoop完全分布式搭建说过,这里不再赘述 4.搭建zookeeper集群  根据配置的

    2024年02月04日
    浏览(43)
  • Hadoop分布式集群搭建

    集群以三台电脑搭建,每台电脑创建一个UbuntuKylin虚拟机,集群以三台UbuntuKylin虚拟机为基础搭建,虚拟机主机名分别为hadoop101、hadoop111和hadoop121。IP地址分别为192.168.214.101、192.168.214.111和192.168.214.121。 主机名 IP地址: hadoop101 192.168.214.101 hadoop111 192.168.214.111 hadoop121 192.168.214

    2024年02月03日
    浏览(48)
  • Hadoop分布式集群安装

            上一篇大数据文章讲解了在单机上搭建Hadoop-Yarn 伪分布式集群的安装方法,方便大家学习,真实环境不可能只有一台机器,肯定是多节点的集群,大单位还会建设很多Hadoop集群,比如各个大部门有自己的集群,或者按热、温、冷来划分建立集群,反正都是很多台服

    2024年01月19日
    浏览(51)
  • Hadoop完全分布式集群搭建

    1.在虚拟机关机的状态下选择克隆 2.开始克隆 3.选择从当前状态创建 4.创建一个完整的克隆 5.选择新的虚拟机存储位置(选择内存充足的磁盘) 6.开始克隆 7.克隆完成 8.同样的方法克隆第二台虚拟机 9.在计算机中存在三台虚拟机 将第一台虚拟机更名为hadoop01 修改hadoop01的主机

    2024年02月02日
    浏览(47)
  • HADOOP 伪分布式集群搭建

    由于笔者这里使用的是vmware 虚拟机 采用centos7 linux 操作系统进行搭建,所以一下示例均以centos7进行示例 1.  搭建vmware 虚拟机 (1)创建好虚拟机后采用linux ISO镜像文件启动安装centos7操作系统 (其 它方式也可以) (2)完成之后设置网络模式,笔者采用桥接模式进行设置  

    2024年02月01日
    浏览(40)
  • 【Hadoop】完全分布式集群搭建

    大家好,我是向阳花花花花,这篇文章是我历时三天,推翻重做两小时进行搭建的Hadoop集群(完全分布式)个人笔记和感想,收录于初心的《大数据》专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,一名正在努力的双非二本院校计算机专业学生 💕

    2024年02月15日
    浏览(41)
  • Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(56)
  • Hadoop分布式集群搭建教程

    大数据课程需要搭建Hadoop分布式集群,在这里记录一下搭建过程 搭建Haoop分布式集群所需环境: VMware:VMware-workstation-full-17.0.2-21581411 CentOS:CentOS-7-x86_64-DVD-2003, Hadoop:hadoop-3.1.3.tar JDK:jdk-8u212-linux-x64.tar.gz 新建虚拟机 设置用户 命名虚拟机 自定义硬件,完成虚拟机创建 开始

    2024年02月08日
    浏览(39)
  • elasticsearch(ES)分布式搜索引擎04——(数据聚合,自动补全,数据同步,ES集群)

    **聚合(aggregations)**可以让我们极其方便的实现对数据的统计、分析、运算。例如: 什么品牌的手机最受欢迎? 这些手机的平均价格、最高价格、最低价格? 这些手机每月的销售情况如何? 实现这些统计功能的比数据库的sql要方便的多,而且查询速度非常快,可以实现近

    2024年02月08日
    浏览(51)
  • Docker安装Hadoop分布式集群

    hadoop目录安装在:/usr/local/hadoop-2.7.0/etc/hadoop

    2024年02月13日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包