Hadoop大数据处理与分析教程

这篇具有很好参考价值的文章主要介绍了Hadoop大数据处理与分析教程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文所需文件(Vmware虚拟机、密匙、乌班图系统、JDK、Hadoop)

链接:https://pan.baidu.com/s/1yU5s36Rgl_jE_mAmHsJBfQ?pwd=i5s6 
提取码:i5s6

一、Linux操作系统的安装

二、Hadoop的伪分布式安装

1.配置ssh无密登录

(1)安装ssh

sudo apt-get install ssh

(2)产生SSH Key

ssh-keygen -t rsa

(3)将公钥放到许可证文件中

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

(4)更改权限

chmod 755 ~
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

(5)验证是否可以免密登录本机(下图为登录成功界面)

ssh 本机名

Hadoop大数据处理与分析教程

 (6)退出ssh连接

exit

2.JDK的安装

(1)查看Vmware网络配置(配置IP地址)

Hadoop大数据处理与分析教程

Hadoop大数据处理与分析教程

 Hadoop大数据处理与分析教程

(2) 配置虚拟机静态IP

sudo vi /etc/netplan/01-network-manager-all.yaml

     依据Vmware网络配置编辑

network:
  ethernets:
    ens33:
      dhcp4: no
      dhcp6: no
      addresses: [192.168.186.130/24,]
      gateway4: 192.168.186.2
      nameservers:
          addresses: [114.114.114.114, ]
  version: 2
  renderer: NetworkManager

      更新网络配置(若没报错,即配置成功)

sudo netplan apply

      测试连接

ping www.baidu.com

     修改主机名(本文修改为master),并把主机名和IP地址写进/etc/hosts配置文件(如图所示)

sudo vi /etc/hostname
sudo vi /etc/hosts

Hadoop大数据处理与分析教程

     重启虚拟机使配置生效

(3)连接xshell (提前安装Xshell、Xftp)

Hadoop大数据处理与分析教程

(4)新建文件传输(导入JDK、hadoop压缩包)

Hadoop大数据处理与分析教程

 Hadoop大数据处理与分析教程

(5)解压jdk

tar -zxvf jdk-8u171-linux-x64.tar.gz

 (6)配置环境变量

sudo vi /etc/profile

     在文本末添加以下命令(添加的命令如下图所示)

export JAVA_HOME=./jdk1.8.0_171
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}lib
export PATH=${JAVA_HOME}/bin:$PATH

Hadoop大数据处理与分析教程

 (7)重新加载配置文件,验证jdk配置是否成功(下图即为配置成功)

source /etc/profile
java -version

Hadoop大数据处理与分析教程

 3.Hadoop的安装

(1)解压hadoop安装包

tar -zxvf hadoop-3.2.4.tar.gz

(2)配置hadoop环境变量

sudo vi ~/.bashrc

     在文尾添加以下代码

export JAVA_HOME=/home/wenzi/jdk1.8.0_171
export HADOOP_HOME=/home/wenzi/hadoop-3.2.4
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

     更新配置

source ~/.bashrc

(3)测试是否配置成功(下图即配置成功)

hadoop version

Hadoop大数据处理与分析教程

4.修改Hadoop配置文件

(1)修改hadoop-env.sh

sudo vi ./hadoop-3.2.4/etc/hadoop/hadoop-env.sh

     找到以下命令进行修改(如图)

Hadoop大数据处理与分析教程

Hadoop大数据处理与分析教程(2)修改core-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/core-site.xml
<configuration>
<!-- 配置HDFS的主节点,nameNode -->
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.186.130:9000</value>
</property>

<!-- 配置HADOOP运行时产生文件的储存目录 -->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/wenzi/hadoop-3.2.4/dataNode_1_dir</value>
</property>
</configuration>

 (3)修改yarn-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/yarn-site.xml
<configuration>

<!--配置ReourceManager的地址-->
<property>
     <name>yarn.resourcemanager.hostname</name>
     <value>192.168.186.130</value>
</property>

<!--配置NodeManager执行任务的方式shuffle:洗牌 -->
<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

</configuration>

(4)修改mapred-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/mapred-site.xml
<configuration>
<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>
</configuration>

(5)修改hdfs-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/hdfs-site.xml
<configuration>
<!-- 指定HDFS储存数据的副本数目,默认情况下时3份 -->
<property>
     <name>dfs.replication</name>
     <value>1</value>
</property>
<!-- 指定namenode数据存储目录 -->
<property>
     <name>dfs.namenode.name.dir</name>
     <value>file:///home/wenzi/hadoop-3.2.4/hadoop_data/hdfs/namenode</value>
</property>
<property>
     <name>dfs.datanode.data.dir</name>
     <value>file:///home/wenzi/hadoop-3.2.4/hadoop_data/hdfs/datanode</value>
</property>
<property>
     <name>dfs.http.address</name>
     <value>wenzi:50070</value>
</property>
</configuration>

(6)修改/etc/profile文件

sudo vi /etc/profile
:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HAOOP_HOME=./hadoop-3.2.4

     修改成如图所示

Hadoop大数据处理与分析教程

 (7)创建并格式化文件系统

mkdir -p ./hadoop-3.2.4/hadoop_data/hdfs/namenode
mkdir -p ./hadoop-3.2.4/hadoop_data/hdfs/datanode
mkdir -p ./hadoop-3.2.4/dataNode_1_dir/datanode
hdfs namenode -format

5.启动Hadoop

(1)启动

start-all.sh

(2)查看hadoop全部的守护进程(全部启动即为成功)

Hadoop大数据处理与分析教程

 (3)查看HDFS WEB 页面

打开火狐浏览器输入:192.168.186.130:50070 

如图所示:

Hadoop大数据处理与分析教程

 (4)查看YARN WEB页面

打开火狐浏览器输入:192.168.186.130:8088

如图所示:

Hadoop大数据处理与分析教程

 三、Hadoop集群的搭建与配置

1.修改配置文件

(1)修改hdfs-site.xml文件(对照以下代码进行修改)

sudo vi ./hadoop-3.2.4/etc/hadoop/hdfs-site.xml
<configuration>
<!-- 指定HDFS储存数据的副本数目,默认情况下时3份 -->
<property>
     <name>dfs.replication</name>
     <value>1</value>
</property>
<!-- 指定namenode数据存储目录 -->
<property>
     <name>dfs.namenode.name.dir</name>
     <value>file:///home/wenzi/hadoop-3.2.4/hadoop_data/hdfs/namenode</value>
</property>
<property>
     <name>dfs.http.address</name>
     <value>master:50070</value>
</property>
</configuration>

(2)修改core-site.xml文件(对照以下代码进行修改)

sudo vi ./hadoop-3.2.4/etc/hadoop/core-site.xml
<configuration>
<!-- 配置HDFS的主节点,nameNode -->
<property>
     <name>fs.defaultFS</name>
     <value>hdfs://master:9000</value>
</property>

<!-- 配置HADOOP运行时产生文件的储存目录 -->
<property>
     <name>hadoop.tmp.dir</name>
     <value>/home/wenzi/hadoop-3.2.4/dataNode_1_dir</value>
</property>
</configuration>

(3)修改yarn-site.xml文件(对照以下代码进行修改)

sudo vi ./hadoop-3.2.4/etc/hadoop/yarn-site.xml
<configuration>

<!--配置ReourceManager的地址-->
<property>
     <name>yarn.resourcemanager.hostname</name>
     <value>master</value>
</property>

<!--配置NodeManager执行任务的方式shuffle:洗牌 -->
<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

</configuration>

(4)修改mapred-site.xml文件(对照以下代码进行修改)

sudo vi ./hadoop-3.2.4/etc/hadoop/mapred-site.xml
<configuration>
<property>
     <name>mapred.job.tracker</name>
     <value>master:54311</value>
</property>
</configuration>

(5)修改/etc/hosts文件(内容如图所示)

sudo vi /etc/hosts

两个slave节点IP需要与后面保持一致

Hadoop大数据处理与分析教程

(6) 编辑masters文件(在文件中输入主机名master)

sudo vi ./hadoop-3.2.4/etc/hadoop/masters

(7)编辑workers文件(删除local host添加slave1、slave2)

sudo vi ./hadoop-3.2.4/etc/hadoop/workers

Hadoop大数据处理与分析教程

 (8)删除临时文件夹

rm -rf ./hadoop-3.2.4/dataNode_1_dir
rm -rf ./hadoop-3.2.4/logs

2.复制虚拟机

(1)复制主机master到slave1、slave2(下图为复制步骤)

Hadoop大数据处理与分析教程

Hadoop大数据处理与分析教程

 Hadoop大数据处理与分析教程

Hadoop大数据处理与分析教程

 (2)设置slave服务器

下面为设置slave1、同理设置salve2,

1、修改IP地址(IP与上文保持一致,slave1:192.168.186.131 slave2:192.168.186.132)

打开slave1虚拟机进行以下配置

sudo vi /etc/netplan/01-network-manager-all.yaml
network:
  ethernets:
    ens33:
      dhcp4: no
      dhcp6: no
      addresses: [192.168.186.131/24,]
      gateway4: 192.168.186.2
      nameservers:
          addresses: [114.114.114.114, ]
  version: 2
  renderer: NetworkManager
sudo netplan apply

2、修改主机名(分别把master改为slave1、slave2)

sudo vi /etc/hostname

Hadoop大数据处理与分析教程

3、重启虚拟机使配置生效

sudo reboot

 4.修改hdfs-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/hdfs-site.xml
<configuration>
<!-- 指定HDFS储存数据的副本数目,默认情况下时3份 -->
<property>
     <name>dfs.replication</name>
     <value>1</value>
</property>
<!-- 指定namenode数据存储目录 -->
<property>
     <name>dfs.datanode.data.dir</name>
     <value>file:///home/wenzi/hadoop-3.2.4/hadoop_data/hdfs/datanode</value>
</property>
<property>
     <name>dfs.http.address</name>
     <value>master:50070</value>
</property>
</configuration>

5.格式化文件系统

hdfs namenode -format

3.启动Hadoop集群

start-all.sh

(1)分别查看三个虚拟机进程

jps

Hadoop大数据处理与分析教程

ssh slave2
jps

Hadoop大数据处理与分析教程

ssh slave1
jps

Hadoop大数据处理与分析教程

(1)查看HDFS WEB 页面

打开火狐浏览器输入:http://master:50070 

如图所示:

Hadoop大数据处理与分析教程

(2)查看YARN WEB页面

打开火狐浏览器输入:http://master:8088

如图所示:

Hadoop大数据处理与分析教程文章来源地址https://www.toymoban.com/news/detail-490119.html

到了这里,关于Hadoop大数据处理与分析教程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop3.0大数据处理学习3(MapReduce原理分析、日志归集、序列化机制、Yarn资源调度器)

    前言:如果想知道一堆牌中有多少张红桃,直接的方式是一张张的检查,并数出有多少张红桃。 而MapReduce的方法是,给所有的节点分配这堆牌,让每个节点计算自己手中有几张是红桃,然后将这个数汇总,得到结果。 官方介绍:MapReduce是一种分布式计算模型,由Google提出,

    2024年02月08日
    浏览(42)
  • Pandas数据处理与分析教程:从基础到实战

    在数据分析和数据科学领域,Pandas是Python编程语言中最受欢迎的数据处理库之一。它提供了高效、灵活和易于使用的数据结构,使得数据的清洗、转换和分析变得简单而直观。本教程将详细介绍Pandas的各个方面,包括基本的数据结构、数据操作、数据过滤和排序、数据聚合与

    2024年02月10日
    浏览(36)
  • 结构化数据处理与分析:Spark SQL 教程

    作者:禅与计算机程序设计艺术 Apache Spark 是由 Apache 基金会开发的开源分布式计算框架,最初用于对大规模数据进行快速的处理,在大数据计算领域占据重要地位。其独特的高性能处理能力及丰富的数据处理功能使得 Spark 在各个行业应用广泛。Spark SQL 是 Spark 提供的用于结构

    2024年02月06日
    浏览(34)
  • 基于Hadoop的MapReduce网站日志大数据分析(含预处理MapReduce程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts)

    需要本项目的可以私信博主!!! 本项目包含:PPT,可视化代码,项目源码,配套Hadoop环境(解压可视化),shell脚本,MapReduce代码,文档以及相关说明教程,大数据集! 本文介绍了一种基于Hadoop的网站日志大数据分析方法。本项目首先将网站日志上传到HDFS分布式文件系统

    2024年02月16日
    浏览(45)
  • Hadoop大数据处理技术-初步了解Hadoop

    ​ 云计算,听起来就像是什么仙气十足的东西,但其实它并不神秘。简单来说,云计算就是通过网络(通常是互联网)来提供各种计算服务,包括存储、数据库、软件、网络等,而不是依靠个人计算机或本地服务器来处理。想象一下,就好像你可以通过互联网租用一台强大的

    2024年04月22日
    浏览(28)
  • 大数据处理架构Hadoop

    Hadoop是Apache软件基金会旗下的一个 开源分布式计算平台 ,为用户提供了系统底层细节透明的分布式基础架构 Hadoop是 基于Java语言开发 的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中 Hadoop的核心是 分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Ha

    2024年02月09日
    浏览(24)
  • 大数据处理中的数据处理与算法优化:机器学习在Hadoop处理中的应用

    作者:禅与计算机程序设计艺术 大数据处理中的数据处理与算法优化:机器学习在Hadoop处理中的应用 引言 随着大数据时代的到来,大量的数据处理需求不断增加,数据处理质量和效率成为企业、政府、科研机构等用户关注的焦点。机器学习作为一种新兴的数据处理技术,在

    2024年02月13日
    浏览(39)
  • 利用Hadoop处理离线数据:Hive和Spark离线数据处理实现

    作者:禅与计算机程序设计艺术 引言 随着大数据时代的到来,越来越多的数据产生于各种业务系统。这些数据往往需要在离线环境中进行处理,以降低数据处理的时间和成本。Hadoop作为目前最为流行的分布式计算框架,提供了强大的离线数据处理能力。Hive和Spark作为Hadoop生

    2024年02月11日
    浏览(30)
  • Python数据攻略-Hadoop集群中PySpark数据处理

    Hadoop是一个开源的分布式存储和计算框架。它让我们可以在多台机器上存储大量的数据,并且进行高效的数据处理。简而言之,Hadoop就像一个巨大的仓库,可以存放海量的数据,并且有高效的工具来处理这些数据。

    2024年02月07日
    浏览(35)
  • Hadoop3.0大数据处理学习2(HDFS)

    HDFS:Hadoop Distributed File System。Hadoop分布式存储系统 一种允许文件通过网络在多台主机上分享的文件系统,可以让多机器上的用户分享文件和存储空间。 两大特性:通透性、容错性 分布式文件管理系统的实现很多,HDFS只是其中一种,HDSF不适合存储小文件。GFS、TFS。 使用格式

    2024年02月08日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包