(保姆级)Hadoop-3.3.6、jdk_8u381搭建(大数据入门)

这篇具有很好参考价值的文章主要介绍了(保姆级)Hadoop-3.3.6、jdk_8u381搭建(大数据入门)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

准备:

一、在虚拟机软件安装Linux

1、新建虚拟机:

2、选择安装源:

3、选择客户机操作系统:

4、定义虚拟机名称和选择虚拟机和操作系统将要安装的位置:

5、指定磁盘容量

6、点击虚拟机设置,选择Centos的ISO映像文件

7、配置操作系统:

1、日期时间选择亚洲/上海时区

2、软件选择最小安装,如下图即可

3、安装目标位置选择自动分配分区即可,如下图

4、网络和主机名中,将以太网打开,适当选择修改主机名

5、点击开始安装即可

6、设置root密码,一定要设置,创建用户看个人需要,可以在之后创建

8、虚拟机克隆:

二、配置hadoop搭建前环境

1、配置Linux静态IP

2、Linux主机名和IP映射

3、关闭Linux防火墙

4、Linux SSH免密登录

5、关键一步,快照保存

三、搭建Hadoop(在此次配置中以hadoop3.3.6进行演示)

1、登录hadoop官网下载hadoop压缩包、登录java官网下载jdk压缩包(jdk1.8.0_381),tip.下载jdk1.8.0_381需要注册oracle账号

2、解压缩好之后,配置jdk环境变量

3、配置hadoop

1、配置hadoop-env.sh:

2、配置core-site.xml文件:

3、配置hdfs-site.xml文件:

4、配置mapred-site.xml文件:

5、配置yarn-site.xml文件:

6、配置workers文件:

7、配置其他文件以防止hadoop启动失败

创建相关文件目录

4、配置以及检查主节点虚拟机的hadoop的环境变量

1、配置Hadoop环境变量

2、测试是否正确安装

5、传送相应文件至从节点,并生效环境变量

1、传送hosts文件

2、传送Hadoop目录

3、传送JAVA/jdk-1.8

4、传送环境变量

5、生效环境变量在每个虚拟机中,使环境变量文件生效(使用finalshell可以同时发送命令到全部会话)

四、启动hadoop集群

最后,祝大家配置hadoop都能一发入魂,good luck!!

 迭子生吃虾滑

Hadoop搭建

准备:

软件:VMare Workstation 17 pro

镜像:Centos 7 下载:centos-7-isos-x86_64安装包下载_开源镜像站-阿里云 (aliyun.com)

一、在虚拟机软件安装Linux

1、新建虚拟机:

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

选择典型安装之后点击下一步

2、选择安装源:

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

以防万一,首先先点击安装程序光盘映像文件设置好Centos的镜像路径,最好将Centos的镜像选择放在在D盘的某个合适的位置,再点击稍后安装操作系统,点击下一步

3、选择客户机操作系统:

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

点击下一步

4、定义虚拟机名称和选择虚拟机和操作系统将要安装的位置:

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

虚拟机的名称改一个统一的名称,比如hsh-hadoop-node2(在此之前我已经安装好了第一个节点)

位置:选择一个D盘的位置,这里将要存放的是Centos操作系统

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

点击下一步

5、指定磁盘容量

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

选择最大磁盘大小为20GB

并选择将虚拟磁盘存储为单个文件,前提是你这个操作系统之后不会频繁移动,并且D盘需要有足够大的空间

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

点击完成

6、点击虚拟机设置,选择Centos的ISO映像文件

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

点击编辑虚拟机设置,由于之前我们在选择安装源时选择的是稍后安装操作系统,所以我们需要在这个选择合适的ISO镜像文件

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

确定后点击开启虚拟机

7、配置操作系统:

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

选择简体中文,点击继续

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

1、日期时间选择亚洲/上海时区

2、软件选择最小安装,如下图即可

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

3、安装目标位置选择自动分配分区即可,如下图

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

4、网络和主机名中,将以太网打开,适当选择修改主机名

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

5、点击开始安装即可

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

6、设置root密码,一定要设置,创建用户看个人需要,可以在之后创建

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

输入root用户名和密码即可登录Centos操作系统

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

8、虚拟机克隆:

因为要搭建hadoop集群,所以需要多个虚拟机,一个一个安装太慢,可以使用虚拟机克隆的方式

拍摄快照之后,另外三台虚拟机就可以通过快照克隆的方式搭建。

(用的已经配置好hadoop搭建前环境进行演示)

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

之后选择相应的D盘文件夹装载操作系统文件(克隆)

二、配置hadoop搭建前环境

1、配置Linux静态IP

为什么要配置静态IP地址?

目前主流的ip地址分配主要是基于ipv4,但是目前的ipv4的地址已经基本分配完了,所以为了节省ip地址,连接到同一个局域网的设备的ip地址是由父节点动态分配的,以节省ip资源。同一个集群中的设备应尽可能避免ip地址动态分配,这会造成一些不必要的麻烦,所以将虚拟机的ip地址设为静态。

#首先查看该虚拟机的原始ip,输入ip addr 或 ifconfig都可 
ip addr 
ifconfig

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

修改ip为静态ip

#控制台输入

vi /etc/sysconfig/network-scripts/ifcfg-ens33

后面的这个ifcfg-ens33根据每个人的配置不同,名字也不一样,可能是ens780都有可能,根据你ip addr查看到的为准

进入到文件中,文件详情如下图所示

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

需要修改或增添的的内容有BOOTPROTO、IPADDR、GATEWAY、NETMASK、DNS

BOOTPROTO:将DHCP修改为STATIC

IPADDR:ip地址,如果在BOOTROTO中设置为DHCP,即该ip地址为动态分配的,设置为static即为静态ip,即使重启虚拟机也不会改变

GATEWAY:网关,和ip地址前三段相同

NETMASK:子网掩码

修改网关和子网掩码的要求:

点击虚拟机中的编辑,

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

设置的网关和子网掩码务必要和虚拟机网络设置中的相同,ip地址只要和网关的前三段相同即可,tip. 网关的最后一位一般为2

DNS:

在自己的主机windows系统上,打开cmd,输入ifconfig

如果连接到的是WIFI,就找到无线局域网适配器WLAN,查看DNS服务器,将DNS1、DNS2添加到配置文件中。

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

最终,将该文件内容修改为以下:

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

tips:其他的教程可能会说配置DNS为8.8.8.8  和114.114.114.114,8.8.8.8的DNS服务器是微软的DNS服务器,但其实使用这个DNS可能会有问题,所以建议DNS服务器最好就是选择你自己经常连接的wifi自动分配的DNS服务器(不要电脑连接手机热点,手机热点的DNS服务器会经常更换,可能会有问题)

#修改网卡配置后要重启网络服务才能生效

systemctl restart network

#再次查看ip,有无变化

ip addr

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

观察到ip地址改为文件修改时的ip地址即修改成功

2、Linux主机名和IP映射

为什么要设置主机名和IP映射?

将不同的虚拟机设置一个独有且有规律的名字有助于集群中设备的管理,IP映射也是如此,他将主机名与设备的ip地址绑定,有利于设备的管理和集群工作。

#修改主机映射

vi /etc/hosts

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

增添 192.168.213.111 hadoop-master (192.168.213.111为文件修改的ip地址,hadoop-master为你想修改的主机名)

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

并且要将集群中所有的节点主机映射全部添加(每台虚拟机都需要配置,之后我们可以通过scp命令将文件传输到其他节点上,现在不需要去另外节点配置

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

3、关闭Linux防火墙

为什么关闭防火墙?

防火墙会阻挡集群中每个设备之间的通信,防火墙可能会阻止某些端口的连接或者关闭端口,总之打开各个设备的防火墙有害于集群之间的通信

#关闭防火墙

systemctl stop firewalld.service

#查看防火墙状态

systemctl status firewalld.service #开启防火墙 systemctl start firewalld.service

#禁用防火墙,可防止防火墙开机自启动

systemctl disable firewalld.service

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

4、Linux SSH免密登录

为什么设置ssh免密登录?

集群中的设备之间存在某些共享的文件和数据,如果不设置免密登录,则每次设备之间获取共享数据时都要输入密码,大幅降低了集群的工作效率。

首先在控制台切换到用户根目录,使用ssh-keygen -t rsa命令 (ssh-keygen 是密钥生成器,-t为参数 rsa是一种加密算法)生成密钥对(即公钥文件id_rsa.pub和私钥文件id_rsa)

 #切换到用户根目录

cd ~ 

 #进入ssh目录下 ps.ssh在用户根目录下使用ls命令是无法显示的,他是被隐藏的目录

cd .ssh 

ssh-keygen -t rsa

重复按下Enter键出现以下内容即生成密钥对成功

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

接下来再查看.ssh目录的文件,并将公钥文件id_rsa.pub中的内容复制到相同目录下的authorized_keys中

cd .ssh/

ls

cp id_rsa.pub authorized_keys

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

再然后以上操作对所有虚拟机都要进行一遍操作,并且将每台虚拟机中的id_rsa.pub中的内容拷贝到一台虚拟机中的authorized_keys文件中(在本教程中,我将s1、s2、s3中的id_rsa.pub文件内容都拷贝到了master的authorized_keys文件中),拷贝有远程连接软件会方便很多,如果没有远程连接软件,可以自己试试其他方法

以下为各台虚拟机id_rsa.pub文件情况

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

拷贝到master之后

以下为matser节点的authorizer_keys文件

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

接下来再将matser节点的authorized_keys远程拷贝到其他节点(其他节点也相同),这步在最后我们可以通过scp命令进行传输,先不急

切换到Hadoop用户的根目录下,为.ssh目录及文件赋予相应权限

cd ~ # 切换到用户根目录下

chmod 700 .ssh chmod 600 .ssh/*

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

最后使用ssh命令登录hadoop-s1,第一次登录需要输入yes进行确认,第二次则不用,此时表示设置成功,其他节点也是如此

如果第二次连接依旧还需要密码,则可能是 chmod 700 .ssh chmod 600 .ssh/* 并没有执行或执行成功,这会导致hadoop集群无法正常启动,免密登录设置这一步很重要

ssh hadoop-s1  # hadoop-s1 为主机映射中修改的主机名

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

EX.最后再配置一个时间同步(在ssh目录下使用以下命令)

# 配置时间同步,在每台虚拟机上使用以下命令

crontab -e

# 在文件内输入以下内容并保存

0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org   

# 以上这是同步系统时间的Cron表达式,在每天的每个小时的第一分钟(0分1秒)使用ntpdate工具从cn.pool,ntp.org服务器同步系统时间

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

5、关键一步,快照保存

每次完成一次重要的配置或者软件安装,最好都需要进行一次快照保存,以便之后恢复历史节点

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

记录本次配置的关键信息,点击拍摄快照即可

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

三、搭建Hadoop(在此次配置中以hadoop3.3.6进行演示)

1、登录hadoop官网下载hadoop压缩包、登录java官网下载jdk压缩包(jdk1.8.0_381),tip.下载jdk1.8.0_381需要注册oracle账号

Hadoop下载网址:Apache Hadoop

jdk下载网站:Java Downloads | Oracle 中国

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

下载好之后打开远程连接软件(如WinSCP、finallshell,我自己用的是finallshell)连接虚拟机,上传hadoop和jdk压缩包(jdk使用1.8版本)

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

进入压缩包所在的目录,并进入相关文件夹解压两个压缩包,我自己的hadoop安装目录是放在/home/Hadoop目录下的

#进入到各自压缩包所在的文件目录

#解压压缩包

tar -zxvf hadoop-3.3.6.tar.gz

tar -zxvf jdk-8u381-linux-x64.tar.gz

2、解压缩好之后,配置jdk环境变量

vi /etc/profile

#在文件中添加自己的jdk路径

export JAVA_HOME=/home/Language/JAVA/jdk1.8/jdk1.8.0_381

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

生效环境变量(也可以等hadoop的环境变量配好之后再生效环境变量,但推荐还是每配置好一个环境就生效以查验是否正确安装

source /etc/profile  # 生效环境变量

java -version  # 检查java环境

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

观察到java version和安装的jdk版本相同即可

3、配置hadoop

#进入hadoop目录

cd /home/softwares/Hadoop/hadoop-3.3.6/etc/hadoop #这个是我自己的hadoop目录,每个人不同

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

进入hadoop目录配置hadoop-env.sh文件及其他重要文件

1、配置hadoop-env.sh:

# 打开vi编辑器编辑文件

vi hadoop-env.sh

# 修改或添加以下内容

export JAVA_HOME=/home/Language/JAVA/jdk1.8/jdk1.8.0_381 #都是修改为自己安装的路径

export HADOOP_HOME=/home/Hadoop/hadoop-3.3.6

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

2、配置core-site.xml文件:

# 打开vi编辑器编辑文件

vi core-site.xml

# 在configureation之间添加以下内容

<property>
        <name>fs.defaultFS</name> # fs.defaultFS是指定Hadoop文件系统的默认URI 
        <value>hdfs://hadoop_master:9000</value> # 表示默认的Hadoop的文件系统是运行在hadoop_master节点上
</property> 
<property> 
        <name>hadoop.tmp.dir</name> #hadoop的临时文件存放位置             
        <value>/home/softwares/Hadoop/hadoop-3.3.6/HadoopData</value> #将hadoop的临时文件存储到HadoopData目录下 
</property>

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

上面的这张图有误,我自己的主节点名为hadoop-master,大家配的时候配自己的主节点(master)名即可

3、配置hdfs-site.xml文件:

# 使用vi编辑器编辑文件

vi hdfs-site.xml

# 添加或修改内容如下 

<property> 
        <name>dfs.namenode.secondary.http-address</name> #这个是为主节点配置一个副本节点,防止主节点宕机数据丢失,但其实在实际情况中,secondary节点和master节点不在同一台机器或服务器上配置 
        <value>hadoop-master:50090</value> 
</property> 
<property> 
        <name>dfs.replication</name> #指定数据块的复制数为3 
        <value>3</value> 
</propert>
<property> 
        <name>dfs.datanode.data.dir</name> #指定DataNode存储块数据的目录路径         
        <value>/home/softwares/Hadoop/hadoop-3.3.6/Hadoop_tmpData/dfs/DATA_datanode</value> # DATA_datanode文件夹需要之后自行创建,不过好像hadoop集群再启动的时候如果没有也会自行创建,但还是自己创建一个最好 
</property> 
<property> 
        <name>dfs.namenode.name.dir</name> #指定NameNode存储元数据的目录路径 
        <value>/home/softwares/Hadoop/hadoop-3.3.6/Hadoop_tmpData/dfs/DATA_namenode</value> # DATA_namenode如上 
</property> 

4、配置mapred-site.xml文件:

# 打开vi编辑器编辑文件

vi mapred-site.xml

# 添加或修改以下内容 
<property> 
        <name>mapreduce.framework.name</name> 表示MapReduce应用程序应在YARN(Yet Another Resource Negotiator)框架上运行。 
        <value>yarn</value>
</property> 
<property> 
        <name>mapreduce.jobhistory.address</name> # 此属性指定 JobHistory 服务器的地址,用于跟踪已完成和正在运行的作业。 
        <value>hadoop-master:10020</value> 
</property> 
<property> 
        <name>mapreduce.jobhistory.webapp.address</name> # 此属性定义 JobHistory 服务器的 Web 应用程序地址。用户可以通过指定地址(在本例中为“hadoop-master:19888”)的 Web 界面访问作业历史记录信息。 
        <value>hadoop-master:19888</value> 
</property> 
<property> 
        <name>yarn.app.mapreduce.am.env</name> # 此属性在 YARN 应用程序中运行时为 MapReduce ApplicationMaster (AM) 设置环境变量。 
        <value>HADOOP_MAPRED_HOME=/home/Hadoop/hadoop-3.3.6</value> 
</property> 
<property> 
        <name>mapreduce.map.env</name> 
        <value>HADOOP_MAPRED_HOME=/home/Hadoop/hadoop-3.3.6</value> # 这个包括下面的属性分别为 map 和 reduce 任务设置环境变量。 
</property> 
<property> 
        <name>mapreduce.reduce.env</name> 
        <value>HADOOP_MAPRED_HOME=/home/Hadoop/hadoop-3.3.6</value> 
</property> 

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

5、配置yarn-site.xml文件:

# 打开vi编辑器编辑文件

vi yarn-site.xml

#添加或修改为以下内容 
<property> 
        <name>yarn.resourcemanager.hostname</name> # 此属性设置YARN资源管理器的主机名。在这里,它被设置为 "hadoop-master",这表示YARN资源管理器应该运行在名为 "hadoop-master" 的主机上。 
        <value>hadoop_master</value> 
</property> 
<property> 
        <name>yarn.nodemanage.aux-services</name> # 个属性定义了NodeManager上运行的辅助服务。在这里,它被设置为 "mapreduce_shuffle",这表示NodeManager将提供MapReduce的shuffle服务。MapReduce中的shuffle是指在Map任务完成后,将输出数据传输到Reduce任务的过程。     
        <value>mapreduce_shuffle</value> 
</property>

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

6、配置workers文件:

# 打开vi编辑器编辑文件

vi yarn-site.xml

删除localhost

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

#加入以下内容 
hadoop-s1 
hadoop-s2 
hadoop-s3

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

注意:如果在这个workers文件当中,将hadoop-master也添加进来,那么最后hadoop集群启动之后,在hadoop-master主节点也会存在datanode进程,如果不添加则不存在,只会在从节点中会有datanode进程。建议master节点上不要添加datanode,master节点主要负责管理即可。

7、配置其他文件以防止hadoop启动失败

在start-dfs.sh,stop-dfs.sh 两个文件顶部添加以下参数

HDFS_DATANODE_USER=root 
HADOOP_SECURE_DN_USER=hdfs 
HDFS_NAMENODE_USER=root 
HDFS_SECONDARYNAMENODE_USER=root

在start-yarn.sh,stop-yarn.sh两个文件顶部添加以下参数

YARN_RESOURCEMANAGER_USER=root 
HADOOP_SECURE_DN_USER=yarn 
YARN_NODEMANAGER_USER=root

以上配置是为了防止ERROR Attempting to operate on hdfs namenode as root 的报错,因为我们目前的整个集群都是基于linux的root用户配置的,其实在在真实的生产环境中,是不会用root用户的,因为这会存在安全问题,但目前初学者来说大部分都是使用root用户,所以也可以强制hadoop使用root用户启动运行。

创建相关文件目录

hadoop配置完成后 cd 回到hadoop-3.3.6目录,创建HadoopData目录和DATA_datanode、DATA_namenode目录(在本例子中,目录路径为:/home/softwares/Hadoop/hadoop-3.3.6/HadoopData)

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

cd /home/softwares/Hadoop/hadoop-3.3.6
mkdir HadoopData #这个文件夹是在配置core-site.xml文件时,我们自定义配置的临时数据存放目录

mkdir Hadoop_tmpData/dfs/DATA_datanode #同上,但是是hdfs-site.xml中的

mkdir Hadoop_tmpData/dfs/DATA_namenode

4、配置以及检查主节点虚拟机的hadoop的环境变量

1、配置Hadoop环境变量

# 编辑文件

vi /etc/profile

# 添加以下内容: 
export HADOOP_HOME=/home/softwares/Hadoop/hadoop-3.3.6 
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

2、测试是否正确安装

# 生效环境变量

source /etc/profile

# 检查hadoop是否正确安装

hadoop version

出现如下页面即为安装成功

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

5、传送相应文件至从节点,并生效环境变量

要传的文件有Hadoop(在我的目录里,Hadoop目录下是包括了hadoop-3.3.6的,/home/softwares/Hadoop/hadoop-3.3.6,其实只需要传hadoop-3.3.6目录即可,具体看自己配的环境变量路径和hadoop配置文件里的路径)、JAVA目录(我自己的JAVA目录下包括了jdk-1.8,,/home/Language/JAVA/jdk1.8/jdk1.8.0_381,其实只需要上传jdk-1.8目录即可,具体看自己配的环境变量路径和hadoop配置文件里的路径),profile文件(环境变量文件, /etc/profile)

1、传送hosts文件

在/etc目录下

scp -r hosts hadoop-s1:/etc/hosts

scp -r hosts hadoop-s2:/etc/hosts

scp -r hosts hadoop-s3:/etc/hosts

2、传送Hadoop目录

回到softwares目录

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

将Hadoop/hadoop-3.3.6传送到s1,s2,s3的指定目录下(省的每个虚拟机都要修改相同的配置)

#在master的softwares目录下执行以下命令

scp -r Hadoop hadoop-s1:/home/softwares/Hadoop  # hadoop-s1是我们当时主机映射是给从节点起的名字

scp -r Hadoop hadoop-s2:/home/softwares/Hadoop

scp -r Hadoop hadoop-s3:/home/softwares/Hadoop

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

3、传送JAVA/jdk-1.8

将jdk的包和环境变量的文件传送到s1 s2 s3。

#传送jdk包,首先要回到home的目录下

cd /home

scp -r Language hadoop-s1:/home/Language

scp -r Language hadoop-s2:/home/Language

scp -r Language hadoop-s3:/home/Language

4、传送环境变量

将/etc/profile的环境变量文件传送到 s1 s2 s3

#传送环境变量,首先要到etc的目录下

cd /etc

scp -r profile hadoop-s1:/etc/profile

scp -r profile hadoop-s2:/etc/profile

scp -r profile hadoop-s3:/etc/profile

5、生效环境变量在每个虚拟机中,使环境变量文件生效(使用finalshell可以同时发送命令到全部会话)

source /etc/profile

四、启动hadoop集群

在master节点下

# 因为配置了环境变量,以下命令在任何位置都可以启动

start-all.sh      # 启动hadoop集群

stop-all.sh      #关闭hadoop集群  

jps                  # 查看当前运行的进程

测试hadoop集群是否正常启动

启动之后,使用jps命令查看正在运行的进程,正常来说在master节点下会有以下四个红框的进程,未被红框标记的进程是其他的进程(storm的进程,在本次hadoop集群的搭建中无关紧要),未出现这四个节点即集群启动不成功

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

在从节点上,使用jps命令可以看到以下三个红框标记的进程,未被红框标记的进程是其他的进程(storm的进程,在本次hadoop集群的搭建中无关紧要),未出现这三个节点也表示集群启动不成功

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

如果集群正常启动,则可以登录hadoop的网页:主节点ip地址:9870(我自己的地址是192.168.213.111:9870)

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

如果顺利出现以上页面,恭喜你,你已经成功迈出了大数据学习的第一步!

还有一件事!!!!不要忘了给每台虚拟机保存虚拟机快照

hadoop和jdk对应版本,大数据常用组件,hadoop,java,大数据

最后,祝大家配置hadoop都能一发入魂,good luck!!

欢迎大家对本次教程提出批评与指正,这真的很重要!!

联系:

QQ:106672998

微信:hsh232626文章来源地址https://www.toymoban.com/news/detail-775008.html

到了这里,关于(保姆级)Hadoop-3.3.6、jdk_8u381搭建(大数据入门)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop环境搭建及常见问题解决(保姆级教程)

    学习大数据的路上,肯定少不了Hadoop的陪伴。 在学习Hadoop之初,一件\\\"痛苦\\\"的事情莫过于装环境,没有环境,练不了HDFS命令,写不了MapReduce程序,后续的HBase、Hive无从下手。 为了学好Hadoop,于是下决心,一定把环境装好,于是,跟着老师做,跟着网上学,别人都顺理成章、

    2023年04月09日
    浏览(88)
  • Hadoop入门详解以及Hadoop集群搭建

    hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。hadoop充分利用了集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System),

    2024年02月04日
    浏览(44)
  • 【Hadoop】HA高可用搭建保姆级教程(大二学长的万字笔记)

    大家好!我是初心,今天给大家带来的是Hadoop HA搭建保姆级教程,来自大二学长的万字长文自述和笔记! 相信很多人看到这个标题时,可能会产生一种疑问:博主你之前不是出过一期关于Hadoop HA高可用集群搭建的教程了吗,这次怎么还出一篇?是有什么改进的地方吗? 没错

    2024年02月15日
    浏览(53)
  • Linux从零搭建Hadoop集群(CentOS7+hadoop 3.2.0+JDK1.8+Mapreduce完全分布式集群案例)

    和相关配置版本 :Linux CentOS Hadoop Java 版本: CentOS7 Hadoop3.2.0 JDK1.8 虚拟机参数信息内存3.2G、处理器2x2、内存50G ISO:CentOS-7-x86_64-DVD-2009.iso 基本主从思路: 先把基础的设置(SSH、JDK、Hadooop、环境变量、Hadoop和MapReduce配置信息)在一台虚拟机(master)上配好,通过

    2024年02月05日
    浏览(68)
  • 【大数据】下载hadoop与jdk

    第一步,ctrl+alt+t 打开终端窗口,执行如下命令: 第二步 安装SSH、配置SSH无密码登陆 1)集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server: 2)安装后,可以使用

    2024年02月08日
    浏览(30)
  • Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆级超详细含图文)

    说明: 本篇将详细介绍用二进制安装包部署hadoop等组件,注意事项,各组件的使用,常用的一些命令,以及在部署中遇到的问题解决思路等等,都将详细介绍。 ip hostname 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3 1.2.1系统版本 1.2.2内存建议最少4g、2cpu、50G以上的磁盘容量 本次

    2024年02月12日
    浏览(53)
  • Linux-一篇文章,速通Hadoop集群之伪分布式,完全分布式,高可用搭建(附zookeeper,jdk介绍与安装)。

    文章较长,附目录,此次安装是在VM虚拟环境下进行。文章第一节主要是介绍Hadoop与Hadoop生态圈并了解Hadoop三种集群的区别,第二节和大家一起下载,配置Linux三种集群以及大数据相关所需的jdk,zookeeper,只需安装配置的朋友可以直接跳到文章第二节。同时,希望我的文章能帮

    2024年03月19日
    浏览(53)
  • 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】

    视频地址: 尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】 尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】 尚硅谷

    2024年02月06日
    浏览(52)
  • 【大数据】Hadoop运行环境搭建

    使用VMware虚拟机搭建基于CentOS7的Hadoop环境: cpu核数(需要搭建3台Hadoop组成集群,加上Windows本机,所以可以分配的数量为本机的cpu核数除以4) 内存至少4G 硬盘最少50G 创建虚拟机: 新建虚拟机,选择自定义(高级)—硬件兼容性默认—选择稍后安装操作系统 —客户机操作系统

    2024年02月08日
    浏览(43)
  • 【大数据】hadoop运行环境搭建(搭建如此简单)

    首先准备好工具。下载好最新的VMware Workstation,CentorOS 7运行Linux,建议Linux桌面标准版,且创建好一个用户 安装模板虚拟机。IP地址192.168.150.100(自定义)、主机名称hadoop100、内存4G、硬盘50G,嘎嘎重要,一步一步来完成 vim /etc/sysconfig/network-scripts/ifcfg-ens33 进入配置文件(想不

    2024年02月08日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包