大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)

这篇具有很好参考价值的文章主要介绍了大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2022.12.4  大数据运维基础篇 本章主要是基础坏境配置

目录

前言

 一、hadoop是什么?

1.1 Hadoop 是什么

1.2 Hadoop 优势

1.3 Hadoop 组成

 二、大数据技术体系

                  2.1 HDFS 架构概述Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

2.2 YARN 架构概述

2.3 MapReduce 架构概述 

三. 推荐系统框架图

四. 实操 Hadoop集群基础环境的配置 (重点!!!)

1.配置ip 

2.设置主机名(三台都需要)

3.集群ip地址和主机名的映射

         4.创建hadoop用户

         5.关闭防火墙

5.1 步骤一:关闭防火墙(三台都要关闭)

5.2 步骤二:关闭防火墙自启

5.3 步骤三:查看防火墙状态

         6.配置集群主机之间的时钟同步(避免集群中主机连接超时)

6.1 直接同步(集群中所有的节点都可以访问互联网)

6.2平滑时间同步

         7. SSH免密(重要!)

7.1 生成ssh密钥

7.2 交换ssh密钥

总结



前言

适用于大数据平台运维  1+x证书等

一、hadoop是什么?

1.1 Hadoop 是什么

(1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构
(2)主要解决海量数据的存储和海量数据的分析计算问题
(3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈

1.2 Hadoop 优势


(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
(3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
(4)高容错性:能够自动将失败的任务重新分配。

1.3 Hadoop 组成

大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)
版权声明:本文为CSDN博主「@从一到无穷大」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/huxili2020/article/details/117809913

二、大数据技术体系

大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)

图中涉及的技术名词解释如下:

(1)Sqoop:Sqoop 是一款开源的工具,主要用于在Hadoop、Hive 与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop 的HDFS 中,也可以将HDFS 的数据导进到关系型数据库中。
(2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据。
(3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统。
(4)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop 上存储的大数据进行计算。
(5)Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
(6)Oozie:Oozie 是一个管理Hadoop 作业(job)的工作流程调度管理系统。
(7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
(8)Hive:Hive 是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL 查询功能,可以将SQL 语句转换为MapReduce 任务进行运行。其优点是学习成本低,可以通过类SQL 语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用,十分适合数据仓库的统计分析。
(9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

### 重点:HDFS   Yarn   MapReduce

2.1 HDFS 架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
(2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
(3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

2.2 YARN 架构概述

Yet Another Resource Negotiator 简称YARN ,另一种资源协调者,是Hadoop 的资源管理器。

ResourceManager(RM):整个集群资源(内存、CPU等)的管理者
NodeManager(NM):单个节点服务器资源的管理者。
ApplicationMaster(AM):单个任务运行的管理者。
Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。

 

2.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段:Map 和 Reduce

1)Map 阶段并行处理输入数据
2)Reduce 阶段对Map 结果进行汇总

 三. 推荐系统框架图

大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)

四. 实操 Hadoop集群基础环境的配置 (重点!!!)

master slave1 slave2 三台主机以单链路连接为例   (理论+实操相结合以便更好理解,单理论或者单实操都是不可取的)

1.配置ip 

之前博客教程如下:

linux网络配置(超简单,一看就会)_北神树的博客-CSDN博客

命令:ip a  查看网络  

确定linux系统vim等工具能够正常使用,不能则需下载(下载命令 yum -y install “xx”)

2.设置主机名(三台都需要)

[root@localhost ~]# hostnamectl set-hostname master   

[root@localhost ~]# bash         

[root@localhost ~]# hostnamectl set-hostname slave1

[root@localhost ~]# bash 

[root@localhost ~]# hostnamectl set-hostname   slave2

[root@localhost ~]# bash 

三台主机名修改完成 

主机名修改方法二,永久保存

[root@localhost ~]# vi /etc/profile/hostname #将master节点的主机名修改为master

.....

3.集群ip地址和主机名的映射

映射文件地址: /etc/hosts

[root@master ~]# vi /etc/hosts

[root@slave1 ~]# vi /etc/hosts

[root@slave2 ~]# vi /etc/hosts

配置完毕后使用 reboot命令重启系统 使配置生效

或者使用source命令 格式 : source 配置文件 如:#source /etc/profile,可以使配置的profile文件立刻生效

大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)

4.创建hadoop用户

#useradd hadoop

#passwd (hadoop)  密码自设

5.关闭防火墙

5.1 步骤一:关闭防火墙(三台都要关闭)

[root@master ~]# systemctl stop firewalld.service

[root@slave1 ~]# systemctl stop firewalld.service

[root@slave2 ~]# systemctl stop firewalld.service

5.2 步骤二:关闭防火墙自启

[root@master ~]# systemctl disable firewalld.service

[root@slave1 ~]# systemctl disable firewalld.service

[root@slave2 ~]# systemctl disable firewalld.service

5.3 步骤三:查看防火墙状态

[root@master ~]# systemctl status firewalld.service

[root@slave1 ~]# systemctl status firewalld.service

[root@slave2~]# systemctl status firewalld.service

大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)

6.配置集群主机之间的时钟同步(避免集群中主机连接超时)

NTP同步方式分为直接同步平滑同步两种

6.1 直接同步(集群中所有的节点都可以访问互联网)

1.查看ntp服务是否安装

[root@master ~]#rpm -qa | grep ntp  

安装成功会有版本信息

若无则安装

[root@master ~]# yum -y install ntp

2.直接同步时间

[root@master ~]# ntpd 

6.2平滑时间同步

适用于一个节点可以联网或者所有节点都不能联网,则可以在集群中选择一个节点,将其搭建成一个内网的NTP时间服务器,然后让集群中的各个节点与这个NTP服务器进行时间同步

1.同步时间

[root@master ~]# vi /etc/sysconfig/ntpdate

在ntpd文档中添加一行内容

SYS_HWLOCK=yes

2.启动服务

启动ntp服务

[root@master ~]# service ntpd start

设置ntpd为开机自启动状态

[root@master ~]# chkconfig ntpd on

3.编辑 /etc/ntp.conf

[root@master ~]# vi /etc/ntp.conf

(1)在文件中添加

restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

#设置始终同步的广播地址

(2)并注释下方四行内容

#service 0.ccentos.pool.ntp.org

#service 1.ccentos.pool.ntp.org

#service 2.ccentos.pool.ntp.org

#service 3.ccentos.pool.ntp.org

(3)去掉以下内容的注释(如果没有就加上)

server 127.127.1.0 # local -e

fudge 127.127.127.1.0 stratum 10

4.slave节点与master节点时间同步

[root@master ~]# crontab -e

添加以下任务

*/ 1* * * */usr/sbin/ntpdate 192.168.1.6

查看时间

data命令

7. SSH免密(重要!)

问 :为什么需要免密? 答:hadoop运行过程中需要管理远端

7.1 生成ssh密钥

7.1.1 切换用户

[root@master ~]#su - hadoop

[root@slave1 ~]#su - hadoop

[root@slave2 ~]#su - hadoop

7.1.2 在每个节点上生成密钥对

[hadoop@master ~]$ ssh-keygen -t rsa -P " " 

[hadoop@slave1 ~]$ ssh-keygen -t rsa -P ""

[hadoop@slave2 ~]$ ssh-keygen -t rsa -P ""

在每个节点上均使用ssh-keygen命令生成密钥对,使用-t他参数设定加密类型,本次用rsa加密方式,并使用-P 参数设定密钥保护密码,本次未设定密钥保护类型,传递空符串作为参数

7.1.3 在master节点上创建公钥

[hadoop@master ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

可以查看密钥文件和授权文件

[hadoop@master ~]$  ls ~/.ssh/

authorized_keys   id_rsa i   d_rsa.pub

[hadoop@master ~]$ chmod 700 ~/.ssh/authorized_keys  #赋予权限

通过重定向的方式将id_rsa.pub文件中的内容写入授权的authorized_keys文件中

7.2 交换ssh密钥

7.2.1 交换密钥

1.将master节点上的公钥分发给slave1节点

[hadoop@master ~]$ scp ~/.ssh/authorized_keys hadoop@slave1:~/.ssh/

#输入yes #输入hadoop用户密码

2.在slave1节点追加公钥

[hadoop@slave1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3.将slave1节点上的公钥分发给slave2和master节点

[hadoop@slave1 ~]$ scp ~/.ssh/authorized_keys hadoop@slave2:~/.ssh/

[hadoop@slave1 ~]$ scp ~/.ssh/authorized_keys hadoop@master:~/.ssh/

4.在slave2节点追加公钥

[hadoop@slave2 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

5.将slave1节点上的公钥分发给slave1和master节点

[hadoop@slave1 ~]$ scp ~/.ssh/authorized_keys hadoop@slave1:~/.ssh/

[hadoop@slave1 ~]$ scp ~/.ssh/authorized_keys hadoop@master:~/.ssh/

#总体而言,就是主节点master创建公钥 每个节点都追加公钥,并把公钥分发给另外的两个节点,让每个节点都有其他节点包括自己的钥匙

7.2.2 验证ssh无密码登录

1.查看master/slave1/slave2 节点的authorized_keys 文件

[hadoop@master ~]$ cat ~/.ssh/authorizded_keys  #或用vim命令

2.ssh验证

[hadoop@slave1 ~]$ ssh slave2

........

总结

理论参考CSDN博主「@从一到无穷大」/ 大数据平台运维(中级)课本所编写

实践参考大数据平台运维(中级)课本所编写

仅供学习使用文章来源地址https://www.toymoban.com/news/detail-480179.html

到了这里,关于大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《黑马程序员2023新版黑马程序员大数据入门到实战教程,大数据开发必会的Hadoop、Hive,云平台实战项目》学习笔记总目录

    本文是对《黑马程序员新版大数据入门到实战教程》所有知识点的笔记进行总结分类。 学习视频:黑马程序员新版大数据 学习时总结的学习笔记以及思维导图会在后续更新,请敬请期待。 前言:配置三台虚拟机,为集群做准备(该篇章请到原视频进行观看,不在文章内详细

    2024年02月03日
    浏览(70)
  • 什么是大数据?Hadoop概述、Hadoop基础

    1.1 大数据的概念 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 通俗来说就是海量的数据,但是也可泛指大数据技术、大数据行业、大数据应用等。 大数据技术,主要解决 海量数据的存储 和 海量数据的分析计算 问题。 1

    2024年02月08日
    浏览(60)
  • 【云计算平台】Hadoop单机模式环境搭建

    接上一篇博客 点我跳转到虚拟机搭建,配置好虚拟机环境后进行hadoop单机模式的部署,我的云计算课程中只要求了简单的单机模式部署,如果有精力的话,应该会把伪分布式部署也简单地记录一下 Apache Hadoop 项目为可靠,可扩展的分布式计算开发开源软件;Hadoop软件库是一个

    2024年02月02日
    浏览(50)
  • 大数据课程D2——hadoop的概述

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解hadoop的定义和特点; ⚪ 掌握hadoop的基础结构; ⚪ 掌握hadoop的常见命令; ⚪ 了解hadoop的执行流程; 1. HDFS(Hadoop Distributed File System - Hadoop分布式文件系统)是Hadoop提供的一套用于进行分布式存储的机制。

    2024年02月15日
    浏览(36)
  • Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述

    在当今大数据时代,处理海量数据成为了一项关键任务。Hadoop作为一种开源的分布式计算框架,为大规模数据处理和存储提供了强大的解决方案。本文将介绍Hadoop的组成和其在大数据处理中的重要作用,让我们一同踏上学习Hadoop的旅程。 1)Hadoop是一个由Apache基金会所开发的

    2024年02月14日
    浏览(44)
  • 【云计算平台】Hadoop全分布式模式环境搭建

    此前搭建了hadoop的单机模式与伪分布式模式: 单机模式部署 伪分布式模式部署 中间拖得有点久了,今天索性做个了结,把hadoop的全分布式模式部署的操作也简单地记录一下,算是一个系统性的学习吧。 伪分布式模式是学习阶段最常用的模式,它可以将进程都运行在同一台机

    2023年04月08日
    浏览(58)
  • Maix Bit(K210)保姆级入门上手教程---外设基本使用

    Maix Bit(K210)保姆级入门上手教程—环境搭建 Maix Bit(K210)保姆级入门上手教程—自训练模型之云端训练 这是K210快速上手系列文章,主要内容是,介绍K210的基本外设的使用、通过简单介绍一两个基本的硬件使用来掌握K210的外设开发(K210GPIO使用教程、K210串口使用教程) 阅

    2024年02月03日
    浏览(45)
  • 大数据技术之Hadoop:MapReduce与Yarn概述(六)

    目录 一、分布式计算 二、分布式资源调度 2.1 什么是分布式资源调度 2.2 yarn的架构 2.2.1 核心架构 2.2.2 辅助架构 前面我们提到了Hadoop的三大核心功能:分布式存储、分布式计算和资源调度,分别由Hadoop的三大核心组件可以担任。 即HDFS是分布式存储组件,MapReduce是分布式计算

    2024年02月09日
    浏览(39)
  • 【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )

    企业级大数据应用框架需要满足业务的需求,一是要求能够满足基于数据容量大,数据类型多,数据流通快的大数据基本处理需求,能够支持大数据的采集,存储,处理和分析,二是要能够满足企业级应用在可用性,可靠性,可扩展性,容错性,安全性和隐私性等方面的基本

    2024年02月09日
    浏览(50)
  • ROS入门-第 1 章 ROS概述与环境搭建

    目录 第 1 章 ROS概述与环境搭建 1.1 ROS简介 1.1.1 ROS概念 1.1.2 ROS设计目标 1.1.3 ROS发展历程 1.3 ROS快速体验 1.3.1 HelloWorld实现简介 1.3.2 HelloWorld(C++版) 步骤 1:创建工作空间 步骤 2:创建发布者节点 步骤 3:创建订阅者节点 步骤4:C++版CMakeLists.txt配置 步骤 5:编译和运行 1.3.3

    2024年02月13日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包