虚拟机+Hadoop下MapReduce的Wordcount案例

这篇具有很好参考价值的文章主要介绍了虚拟机+Hadoop下MapReduce的Wordcount案例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

环境:ubuntu18.04

前提:Hadoop已经搭建好

1.新建WDtest.txt文件,自定义执行样例

抄作业记得改标题

cd /usr/local/hadoop
vim WDtest.txt

输入内容(可以自定义,抄作业别写一样的)

虚拟机wordcount,hadoop,大数据,分布式

2.开启hadoop

cd /usr/local/hadoop
./sbin/start-all.sh

3.修改yarn-site.xml文件的配置

cd /usr/local/hadoop/etc/hadoop
vim yarn-site.xml

yarn-site.xml内容如下,注意第一个<property>要改:

·输入hadoop classpath(任意路径下均可),将返回的内容复制在第一个<property>的<value>中


<?xml version="1.0"?>

<configuration>
	<property>
		<name>yarn.application.classpath</name>
		<value>*这个要改-输入hadoop classpath(任意路径下均可),将返回的内容复制在这个标签中*</value>
	</property>
	<property>  
		<name>yarn.nodemanager.aux-services</name>  
		<value>mapreduce_shuffle</value>  
	</property> 
	<property>
	<name>yarn.nodemanager.vmem-pmem-ratio</name>
	<value>3.0</value>
	</property>
</configuration>

*修改配置文件之后要重启hadoop(关了又开) 

4.新建输入文件夹

 hadoop fs -mkdir -p /input/wordcount 

如果报错Command ‘hadoop‘ not found, did you mean

参考这篇博文:(37条消息) hdfs报错Command ‘hdfs‘ not found, did you mean_hdfs not found_码农阿益的博客-CSDN博客

5.新建输出文件夹

 hadoop fs -mkdir -p /output

6.上传WDtest.txt到输入文件夹中

hadoop fs -put /usr/WDtest /input/wordcount

7.运行自带的wordcount程序

注意版本号是否一样,不一样去到沿着路径查看后修改文章来源地址https://www.toymoban.com/news/detail-721890.html

cd /usr/local/hadoop/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /input/wordcount /output/wordcountresult

8.生成执行结果

hadoop fs -text /output/wordcountresult/part-r-00000

9.关闭hadoop

cd /usr/local/hadoop
./sbin/stop-all.sh

到了这里,关于虚拟机+Hadoop下MapReduce的Wordcount案例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MapReduce入门(一)—— MapReduce概述 + WordCount案例实操

    MapReduce知识点总览图 MapReduce 是 一个分布式运算程序的编程框架 ,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是 将用户编写的业务逻辑代码 和 自带默认组件 整合成一个 完整的分布式运算程序 ,并发运行在一个 Hadoop 集群上。 1.2.1 优点 1 )M

    2023年04月21日
    浏览(43)
  • Hadoop集群WordCount详解

    MapReduce理论介绍 MapReduce处理过程 MapReduce代码 1.1 MapReduce编程模型 MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是”任务的分解与结果的

    2023年04月19日
    浏览(38)
  • YARN On Mapreduce搭建与wordCount案例实现

    YARN的基本思想是将资源管理RM,和作业调度、监控功能拆分成单独的守护进程。这个思想中拥有一个全局的资源管理器以及每个应用的MASTER,AM。每一个应用 都是单个作业或者一个DAG作业。 架构图: mapred-site.xml yarn-site.xml 配置节点分发到其他节点。 启动yarn 启动rm资源管理 访

    2023年04月24日
    浏览(35)
  • Hadoop 实战 | 词频统计WordCount

    通过分析大量文本数据中的词频,可以识别常见词汇和短语,从而抽取文本的关键信息和概要,有助于识别文本中频繁出现的,这对于理解文本内容和主题非常关键。同时,通过分析词在文本中的相对频率,可以帮助理解词在不同上下文中的含义和语境。 \\\"纽约时报\\\"评

    2024年02月02日
    浏览(42)
  • Kali Linux 安装搭建 hadoop 平台 调用 wordcount 示例程序 详细教程

    目标: *安装虚拟机,在自己虚拟机上完成hadoop的伪分布式安装。(安装完成后要检查)* 安装SSH Server服务器:apt-get install openssh-server 更改默认的SSH密钥 cd /etc/ssh mkdir ssh_key_backup mv ssh_host_* ssh_key_backup 创建新密钥:dpkg-reconfigure openssh-server 允许 SSH Root 访问,修改SSH 配置文件

    2024年02月04日
    浏览(39)
  • Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount

    本系列文章索引以及一些默认好的条件在 传送门 首先需要明确eclipse安装目录,然后将hadoop-eclipse-plugin_版本号.jar插件放在安装目录的dropins下 关于插件,可以通过博主上传到csdn的免费资源获取,链接 具体版本可以自己选择: 在eclipse界面中依次选择:Window→show view→other→

    2023年04月09日
    浏览(64)
  • MapReduce之WordCount本地测试

    在给定的文本文件中统计输出每一个单词出现的总次数。 (1)输入数据 2)期望输出数据 banzhang 1 cls 2 hadoop 1 jiao 1 ss 2 xue 1 按照MapReduce编程规范,分别编写Mapper,Reducer,Driver。 (1)创建maven工程,MapReduceDemo (2)在pom.xml文件中添加如下依赖 (2)在项目的src/main/resources目录

    2024年02月03日
    浏览(42)
  • MapReduce WordCount程序实践(IDEA版)

    Linux:Hadoop2.x Windows:jdk1.8、Maven3、IDEA2021 编程分析 编程分析包括: 1.数据过程分析:数据从输入到输出的过程分析。 2.数据类型分析:Map的输入输出类型,Reduce的输入输出类型; 编程分析决定了我们该如何编写代码。 新建Maven工程 打开IDEA–点击File–New–Project 选择Maven–点

    2024年02月03日
    浏览(43)
  • WordCount 在 MapReduce上运行详细步骤

    注意:前提条件hadoop已经安装成功,并且正常启动。 1.准备好eclipse安装包,eclipse-jee-juno-linux-gtk-x86_64.tar.gz,使用SSH Secure File Transfer Client工具把安装包上传于Hadoop集群的名称节点。   2.上传Hadoop在eclipse上运行插件:haoop-eclipse-plugin-2.6.0.jar   3.更改eclipse-jee-juno-linux-gtk-x86_64.t

    2023年04月16日
    浏览(40)
  • 大数据-Storm流式框架(二)--wordcount案例

    storm软件包中lib目录下的所有jar包 WordCountTopology.java LineSpout.java SplitBolt.java CountBolt.java 右键运行WordCountTopology S torm配置项 说明 java.library.path Storm本身依赖包的路径,存在多个时用冒号分隔 storm.local.dir Storm使用的本地文件系统目录(必须存在并且storm进程可读写)。默认是sto

    2024年02月08日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包