Hadoop之hadoop-mapreduce-examples测试执行及报错处理

这篇具有很好参考价值的文章主要介绍了Hadoop之hadoop-mapreduce-examples测试执行及报错处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Hadoop-mapreduce简介

  Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。 整个框架负责任务的调度和监控,以及重新执行已经失败的任务。通常,Map/Reduce框架和分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。Map/Reduce框架由一个单独的master JobTracker 和每个集群节点一个slave TaskTracker共同组成。master负责调度构成一个作业的所有任务,这些任务分布在不同的slave上,master监控它们的执行,重新执行已经失败的任务。而slave仅负责执行由master指派的任务。hadoop-mapreduce-examples则是Hadoop安装完成后自带的程序包,包含计算PI、统计单词等计算程序。

二、hadoop-mapreduce-examples包含的程序列表

程序名称 用途
aggregatewordcount 一个基于聚合的map/reduce程序,它对输入文件中的单词进行计数。
aggregatewordhist 一个基于聚合的map/reduce程序,用于计算输入文件中单词的直方图。
bbp 一个使用Bailey Borwein Plouffe计算PI精确数字的map/reduce程序。
dbcount 一个计算页面浏览量的示例作业,从数据库中计数。
distbbp 一个使用BBP型公式计算PI精确比特的map/reduce程序。
grep 一个在输入中计算正则表达式匹配的map/reduce程序。
join 一个影响连接排序、相等分区数据集的作业
multifilewc 一个从多个文件中计算单词的任务。
pentomino 一个地图/减少瓦片铺设程序来找到解决PotoMimo问题的方法。
pi 一个用拟蒙特卡洛方法估计PI的MAP/Relp程序。
randomtextwriter 一个map/reduce程序,每个节点写入10GB的随机文本数据。
randomwriter 一个映射/RADIUS程序,每个节点写入10GB的随机数据。
secondarysort 定义一个次要排序到减少的例子。
sort 一个对随机写入器写入的数据进行排序的map/reduce程序。
sudoku 数独求解者。
teragen 为terasort生成数据
terasort 运行terasort
teravalidate terasort的检查结果
wordcount 一个映射/缩小程序,计算输入文件中的单词。
wordmean map/reduce程序,用于计算输入文件中单词的平均长度。
wordmedian map/reduce程序,用于计算输入文件中单词的中值长度。

三、测试样例实验

1、计算PI

[wuhs@s142 hadoop]$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 10
Hadoop之hadoop-mapreduce-examples测试执行及报错处理
Hadoop之hadoop-mapreduce-examples测试执行及报错处理

2、单词统计实验

1)、创建源文件和结果存储目录

[wuhs@s142 hadoop]$ hadoop fs -mkdir -p /wordcount/input
[wuhs@s142 hadoop]$ hadoop fs -mkdir -p /wordcount/output

2)、创建待计算的文本文件

[wuhs@s142 hadoop]$ cat /tmp/input/1.txt
123
321
This a test
hello hadoop
hi hadoop
Hadoop
Hadoop
hi
123
321
123
test
Test
123
test
Test

3)、将文件上传到Hadoop

[wuhs@s142 hadoop]$ hadoop fs -put /tmp/input/1.txt /wordcount/input

4)、查看文件列表

[wuhs@s142 hadoop]$ hadoop fs -ls /wordcount/input
Found 1 items
-rw-r–r-- 2 wuhs supergroup 74 2021-12-16 04:31 /wordcount/input/1.txt

5)、运行wordcount

[wuhs@s142 hadoop]$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /wordcount/input/1.txt /wordcount/output/1

2021-12-16 04:40:33,396 INFO mapreduce.Job: map 0% reduce 0%
2021-12-16 04:40:38,562 INFO mapreduce.Job: map 100% reduce 0%
2021-12-16 04:40:43,655 INFO mapreduce.Job: map 100% reduce 100%
2021-12-16 04:40:44,676 INFO mapreduce.Job: Job job_1639642758452_0004 completed successfully

File Input Format Counters
Bytes Read=58
File Output Format Counters
Bytes Written=49

6)、查看运行结果

[wuhs@s142 hadoop]$ hadoop fs -cat /wordcount/output/1/part-r-00000
Hadoop之hadoop-mapreduce-examples测试执行及报错处理

7)、文件夹的创建和文件上传也可以在浏览器操作

Hadoop之hadoop-mapreduce-examples测试执行及报错处理

四、QA

1、执行计算时报错/bin/bash: /bin/java: No such file or directory

  • 报错信息:
    Hadoop之hadoop-mapreduce-examples测试执行及报错处理
    解决方案:
    各节点执行ln -s /usr/local/java/bin/java /bin/java

2、执行计算时报错The auxService:mapreduce_shuffle does not exist

  • 报错信息
    Hadoop之hadoop-mapreduce-examples测试执行及报错处理
  • 解决方案
    修改yarn-site.xml 文件,如下,修改完成重启hadoop即可。
<property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
</property>

3、执行计算的时候Cannot create directory xxx Name node is in safe mode.

  • 报错信息
    Hadoop之hadoop-mapreduce-examples测试执行及报错处理

  • 解决方案
    hdfs在启动开始时会进入安全模式,这时文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。主动离开安全模式可以使用命令: $bin/hadoop dfsadmin -safemode leave文章来源地址https://www.toymoban.com/news/detail-448782.html

4、执行单词统计报错Output directory xxx already exists

  • 报错信息
    Hadoop之hadoop-mapreduce-examples测试执行及报错处理
  • 解决方案
    修改输出目录,输出目录需要为空目录,所以在后面加上1,则会在/wordcount/output 目录下创建目录1,如果是多次计算每次都需要指定不同的目录用于存储结果。
    Hadoop之hadoop-mapreduce-examples测试执行及报错处理

到了这里,关于Hadoop之hadoop-mapreduce-examples测试执行及报错处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop MapReduce解析

    Hadoop MapReduce是一个用于处理大量数据的编程模型和一个相应的实现框架。MapReduce作业通常分为两个阶段:Map阶段和Reduce阶段。 Map阶段 在Map阶段,你编写的Map函数会对输入数据进行处理。每个输入数据片段(例如一行文本)都会被Map函数处理,并产生中间键值对。 以单词计数

    2024年04月14日
    浏览(31)
  • 【Hadoop】MapReduce详解

    🦄 个人主页 ——🎐开着拖拉机回家_大数据运维-CSDN博客 🎐✨🍁 🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁🍁🪁🍁🪁 🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁 感谢点赞和关注 ,每天进步一点点!加油! 目录 一、MapReduce概述 1. 1 MapReduce 介绍 1.2 MapReduce 定义 1.3 MapReduce优缺点 1.2.1.优

    2024年02月05日
    浏览(51)
  • hadoop之mapreduce详解

         优化前我们需要知道hadoop适合干什么活,适合什么场景,在工作中,我们要知道业务是怎样的,能才结合平台资源达到最有优化。除了这些我们当然还要知道mapreduce的执行过程,比如从文件的读取,map处理,shuffle过程,reduce处理,文件的输出或者存储。在工作中,往往

    2024年02月15日
    浏览(43)
  • 【Hadoop】- MapReduce概述[5]

    目录 前言 一、分布式计算框架 - MapReduce 二、MapReduce执行原理 MapReduce是一种 分布式计算框架 ,由Google开发。它的设计目标是将大规模数据集的处理和生成任务分布到一个由廉价计算机组成的集群中。 在MapReduce模型中,输入数据被分割成若干小块,并在集群中的多个节点上并

    2024年04月25日
    浏览(33)
  • Hadoop之MapReduce概述

    MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce优缺点 优点 1)MapReduce易于编

    2024年02月08日
    浏览(56)
  • Hadoop生态之Mapreduce

    今天给大家带来的是Hadoop生态中的Mapreduce,看到这里诸佬们可能就有疑惑了呢,啥是Mapreduce?小小的脑袋大大的疑惑。 在上篇博客中博主使用了王者来举例子,如果把Hadoop当作王者的话,HDFS是后台存储点券数据的系统的话,那么我们今天介绍的Mapreduce就是某者用来计算优惠

    2024年02月02日
    浏览(47)
  • MapReduce排序机制(Hadoop)

    在MapReduce中, 排序的目的是为了方便Reduce阶段的处理,通常是为了将相同键的键值对聚合在一起,以便进行聚合操作或其他处理。 对于MapTask,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使 用率达到一定 阈值 后,再对缓冲区中的数据进行一次快速排序,并将这

    2024年04月24日
    浏览(33)
  • hadoop-MapReduce

    1. MapReduce设计思想 2. MapReduce分布式计算的基本原理 3. 使用Java进行MapReduce编程 4. 在Hadoop集群中提交MapReduce任务 5.Yarn工作机制 1. MapReduce设计思想 1.1  什么是MapReduce 1 )MapReduce是一个分布式计算框架 它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。 起源于

    2024年02月10日
    浏览(42)
  • Hadoop MapReduce 调优参数

    前言: 下列参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核, 4G 内存。 MapReduce 调优参数详解 这个参数定义了在 Reduce 阶段同时进行的拷贝操作的数量,用于从 Map 任务获取数据,增加此值可以加速 Shuffle 阶段的执行。 默认值: 5 建议配置: 10 定义了在 Reduce 阶段输

    2024年02月10日
    浏览(39)
  • Hadoop之MapReduce 详细教程

    MapReduce 思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。 1、 Map 负责“分” ,即把复杂

    2024年02月03日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包