大数据应用——工程实践III

这篇具有很好参考价值的文章主要介绍了大数据应用——工程实践III。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大数据应用——工程实践III


 文章来源地址https://www.toymoban.com/news/detail-502161.html

 

 

任务一:完成Hadoop集群部署前环境的准备工作

1.1 虚拟机环境准备

1.  安装虚拟机

2.  克隆虚拟机

3.  修改网络配置

4.  修改主机名和映射

5.  关闭防火墙

1.2 安装JDK

1.3 安装Hadoop

1.4 集群配置

1.  编写集群分发脚本xsync

2.  集群部署规划

表 1.1

hadoop101

hadoop102

hadoop103

HDFS

NameNode

DataNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

NodeManager

  1.  配置集群

(1)核心配置文件

配置core-site.xml

(2)HDFS配置文件

配置 hadoop-env.sh

配置 hadoop-site.xml

(3)YARN配置文件

配置 yarn-env.sh

配置 yarn-site.xml

(4)MapReduce配置文件

配置 mapred-env.sh

配置 mapred-site.xml

  1. 在集群上分发配置好的Hadoop配置文件
  2. 查看文件分发情况

1.5 群起集群

1.  配置slaves

2.  启动集群

(1)如果集群是第一次启动,需要格式化NameNode

[hadoop@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format

(2)启动HDFS

[hadoop@hadoop101 hadoop-2.7.2]$ sbin/start-dfs.sh

(3)启动YARN

[hadoop@hadoop102 hadoop-2.7.2]$ sbin/start-yarn.sh

(4)使用jps分别查看三台虚拟机的节点

[hadoop@hadoop101 hadoop-2.7.2]$ jps

(5)查看web端

http:192.168.2.122:50070/dfshealth.html#tab-overview

任务二:能够将本地文件存储到集群中

1.  上传小文件

[hadoop@hadoop101 hadoop-2.7.2]$ hdfs dfs -put test/word.txt /user/hadoop/input1

  1.  上传大文件

[hadoop@hadoop101 hadoop-2.7.2]$bin/hadoop fs -put/opt/softw

are/hadoop-2.7.2.tar.gz /user/hadoop/input1

3.  查看上传文件位置

任务三:能够从集群中下载文件到本地

[hadoop@hadoop101 hadoop-2.7.2]$ bin/hadoop fs -get /user/hadoop/input1/hadoop-2.7.2.tar.gz test/

任务四:举例练习Hadoop的常用命令

  1.  启动集群命令

(1)启动HDFS

[hadoop@hadoop101 hadoop-2.7.2]$ sbin/start-dfs.sh

(2)启动YARN

[hadoop@hadoop102 hadoop-2.7.2]$ sbin/start-yarn.sh

  1.  格式化NameNode命令

[hadoop@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format

  1.  在HDFS文件系统上创建一个input1文件夹

[hadoop@hadoop101 hadoop-2.7.2]$ hdfs dfs -mkdir -p /user/had

oop/input1

  1.  将测试文件内容上传到文件系统上

[hadoop@hadoop101 hadoop-2.7.2]$ hdfs dfs -put test/word.txt /user/hadoop/input1

  1.  查看上传的文件是否正确

[hadoop@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -ls /user/hadoo

p/input1/

[hadoop@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat /user/hado

op/input/word.txt

  1.  运行MapReduce程序

[hadoop@hadoop101 hadoop-2.7.2]$ bin/hadoop jar share/hadoo

p/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount/u

ser/hadoop/input1/ /user/hadoop/output

  1.  查看输出结果

[hadoop@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat /user/hado

op/output/*

  1.  将测试文件内容下载到本地

[hadoop@hadoop101 hadoop-2.7.2]$ hdfs dfs -get /user/hadoop/

output/part-r-00000 ./test/

  1.  删除文件系统上的output文件

[hadoop@hadoop101 hadoop-2.7.2]$ hdfs dfs -rm -r /user/hadado

op/output

  1. 关闭集群命令

(1)关闭HDFS

[hadoop@hadoop101 hadoop-2.7.2]$ sbin/stop-dfs.sh

(2)关闭YARN

[hadoop@hadoop102 hadoop-2.7.2]$ sbin/stop-yarn.sh

任务五:编写程序,用MR计算单词个数

  1.  在hadoop-2.7.2文件下面创建一个test文件夹

[hadoop@hadoop101 hadoop-2.7.2]$ mkdir test

  1.  在test文件夹下创建一个word.txt文件

[hadoop@hadoop101 test]$ touch word.txt

  1.  编辑word.txt文件

[hadoop@hadoop101 test]$ sudo vi word.txt

  1.  将word.txt文件上传到hdfs文件系统上

[hadoop@hadoop101 hadoop-2.7.2]$ hdfs dfs -put test/word.txt /user/hadoop/input

  1.  执行MapReduce程序

[hadoop@hadoop101 hadoop-2.7.2]$ bin/hadoop jar share/hadoo

p/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount/u

ser/hadoop/input/ /user/hadoop/output

  1.  查看结果

[hadoop@hadoop101 hadoop-2.7.2]$cat test/part-r-00000

出现问题:在从节点(Slave)执行命令jps后,发现没有运行DataNode。

问题原因:在启动Hadoop之前,进行了多次格式化,导致DataNode的ID发生了变化。

解决方案:格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode。(先关闭namenode和datanode进程)或者让 NameNode与DataNode的ID一致 。

我在学习Hadoop过程中的体会和心得如下:

Hadoop是一个庞大的生态系统,包含了很多的组件和工具,学习曲线比较陡峭。初学者最好从基础入手,先学习Hadoop的基本概念和核心组件,如HDFS和MapReduce等。

Hadoop的学习不仅是理论知识的积累,更需要实践和经验的积累。通过实际操作和开发Hadoop应用程序,才能更好地掌握和理解Hadoop的知识和技能。

Hadoop是一个分布式计算框架,需要具备一定的计算机编程技能。特别是对于开发MapReduce应用程序,需要掌握Java编程语言和基本的算法知识。

Hadoop的学习需要耐心和坚持不懈的精神,很多时候需要花费大量的时间和精力去理解和解决问题。但是,只要坚持下去,学习Hadoop的收获也是十分丰富的。

总之,学习Hadoop是一项具有挑战性的任务,需要花费不少时间和精力。但是,通过实践和不断的学习,我们可以掌握Hadoop的核心知识和技能,并为大数据时代做出贡献。

 

 

到了这里,关于大数据应用——工程实践III的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【非常重要】Hadoop成功启动的验证与集群的基本应用

    master上 slave上 master:9870 这是Hadoop自带的web监测软件,提供丰富的系统状态信息 自己理解:9870端口用来查看Hadoop中的hdfs运行状态 master:18088 监测yarn的运行状况 自己理解:18088端口用来查看Hadoop中的yarn运行状态 这个程序是验证hadoop最重要的一环,虽然在1和2的验证中都通过,

    2023年04月09日
    浏览(36)
  • Java 操作 Hadoop 集群之 HDFS 的应用案例详解

    注意:本文内容基于 Hadoop 集群搭建完成基础上: Linux 系统 CentOS7 上搭建 Hadoop HDFS集群详细步骤 本文的内容是基于下面前提: Hadoop 集群搭建完成并能正常启动和访问 Idea 和 Maven 分别安装完成 需要有 JavaSE 基础和熟悉操作hadoop 的 hdfs dfs 命令 Maven 及 idea 中 Maven 相关配置 本地

    2024年04月16日
    浏览(42)
  • 【生产级实践】Docker部署配置Hadoop3.x + HBase2.x实现真正分布式集群环境

    网上找了很多资料,但能够实现Docker安装Hadoop3.X和Hbase2.X真正分布式集群的教程很零散,坑很多, 把经验做了整理, 避免趟坑。 1、机器环境 这里采用三台机器来部署分布式集群环境: 192.168.1.101 hadoop1 (docker管理节点) 192.168.1.102 hadoop2 192.168.1.103 hadoop3 2、下载Docker Hadoop的

    2024年02月02日
    浏览(48)
  • 构建大型企业应用程序:Scala和Hadoop的最佳实践

    作者:禅与计算机程序设计艺术 随着大数据和云计算技术的兴起,很多大型企业正在构建面向海量数据的大型分布式应用程序。这些应用程序一般由多个独立的小模块组成,这些模块需要分布在不同的服务器上进行通信,数据需要存储到海量的磁盘和内存中,并且需要处理复

    2024年02月11日
    浏览(43)
  • 在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群

    本文在两台2核2g的云服务器上搭建了Hadoop集群,两台云服务器分别是阿里云(hjm)和腾讯云(gyt),集群部署规划如下: hjm gyt HDFS NameNodeSecondaryNameNodeDataNode DataNode YARN ResourceManagerNodeManager NodeManager 经实验,目前可以正常实现文件上传下载,但跑mapreduce程序还出现服务器资

    2024年02月08日
    浏览(45)
  • 【云计算】3台虚拟机完成Spark Yarn集群部署并编写Scala应用程序实现单词计数统计

    目录 1.准备环境          2.安装spark并配置环境 3.安装scala并配置环境 4.安装编辑器idea 5.编写Spark Scala应用程序实现单词计数统计 6.Spark On Yarn配置 虚拟机:vmware workstation16 linux版本:centOS 7 linux 分布式环境:hadoop 3.1.1 (1)创建三台虚拟机,并准备好linux环境和hadoop,确保h

    2023年04月15日
    浏览(45)
  • 无人机路径规划算法在无人机领域具有重要的应用价值,可以帮助无人机在复杂的环境中高效、安全地完成任务

    无人机路径规划算法在无人机领域具有重要的应用价值,可以帮助无人机在复杂的环境中高效、安全地完成任务。本文将介绍基于 MATLAB 的多种无人机路径规划算法,并提供相应的源代码。 一、无人机路径规划简介 无人机路径规划是指在给定的环境中,通过算法确定无人机的

    2024年02月06日
    浏览(53)
  • Vue应用多语言支持工程化最佳实践

    VoerkaI18n是一款非常优秀的 全新的开源国际化多语言解决方案 ,主要特性包括: 全面工程化解决方案,提供初始化、提取文本、自动翻译、编译等工具链支持。 符合直觉,不需要手动定义文本Key映射。 强大的插值变量格式化器机制,可以扩展出强大的多语言特性。 支持 b

    2024年02月03日
    浏览(45)
  • 开源大数据集群部署(十一)Ranger 集成Hadoop集群

    作者:櫰木 1、节点选择 部署在两个namenode节点 cd /opt/bigdata tar -xzvf ranger-2.3.0-hdfs-plugin.tar.gz -C /opt/ cd /opt/ranger-2.3.0-hdfs-plugin vim install.properties ranger hdfs初始化 初始化完成后会在/opt/hadoop/etc/hadoop目录下生成3个文件 在rangeradmin页面上进行配置 servicename必须和install.properties中的R

    2024年02月22日
    浏览(53)
  • 【大数据】Hadoop高可用集群搭建

    大家好!这篇文章是我在搭建Hdfs的HA(高可用)时写下的详细笔记与感想,希望能帮助到大家!本篇文章收录于 初心 的 大数据 专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,和大家共同努力 💕 座右铭:理想主义的花,终究会盛开在浪漫主义的土壤里

    2024年02月06日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包