使用hadoop进行词频统计测试案例

1年前作者：Long_1979分类：Toy博客阅读(14)违法举报

这篇具有很好参考价值的文章主要介绍了使用hadoop进行词频统计测试案例。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1首先hadoop集群环境，使用jps’查看服务启动情况

1.1使用start-all.sh启动Hadoop集群环境

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式 1..2使用jps查看服务启动情况

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

2创建一个需要进行处理的数据文件:word.txt

2.1 为了方便管理，首先创建一个文件夹（我这里创建已经创建了mydata，这个自定义）再在其下创建文件

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

2.2 进入mydata目录下使用vi word.txt 创建该文件，并在文件中输入如下数据

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

3 将所需要分析的文件上传到hdfs系统上

3.1 首先在hdfs上创建一个用于保存所上传的文件夹，我这里创建了一个input，使用的命令是hadoop fs -mkdir /input

3.2 使用hadoop fs -ls / 查看hdfs上已经存在的目录

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

3.3 将所需要分析处理的文件上传到创建的目录下，并进行查看

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

4 使用hadoop自带的jar包对上传的文件进行分析

4.1 首先找到hadoop自带的mapreduce测试jar包所在位置

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

4.2 使用其中的hadoop-mapreduce-examples-3.3.0.jar 对上上传的数据进行分析

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

注意：这里的wordcount 是这个测试jar包中的一个单词统计的主类的引用路径名，实际应用中需要自己导入自己所创建的类引用路径

这里的/output 目录不需要提前创建，它会自动生成，测试是否分析成功可以查看该目录下是否产生相应的part-r-00000文件

5 查看是否成功

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

注意：可以查看part-r-00000文件看是否出现对应的词频统计结果，即为成功，如下所示

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

到这里使用hadoop自带的案例jar包处理词频统计已经大功告成！！！文章来源地址https://www.toymoban.com/news/detail-787603.html

到了这里，关于使用hadoop进行词频统计测试案例的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

python使用jieba分词，词频统计，基本使用
python采用第三方库进行中文分词，本文章只是记录文章。 1.需要下载第三方库jieba： cmd: pip install jieba 2.为了方便测试，在同级目录下，准备一个txt格式文件，文件名随意，这里我也是随便取的：文件路径可以是绝对路径，也可以是相对路
2024年02月07日
浏览(12)
文本分析-使用Python做词频统计分析
🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 前言前面我们已经介绍了文本分析中的中文分词和去除停用词，这篇文章将详细介绍分词后
2024年02月10日
浏览(9)
字典类型操作、jieba库使用及文本词频统计
字典的定义理解“映射” 映射是一种键(索引)和值(数据)的对应字典类型是“映射”的体现键值对：键是数据索引的扩展字典是键值对的集合，键值对之间无序采用大括号{}和dict()创建，键值对用冒号: 表示 {键1:值1，键2:值3} 可以通过键拿到值我们在之前的的集合中说声明
2024年02月01日
浏览(28)
使用Hadoop进行大数据分析的步骤与实践
作者：禅与计算机程序设计艺术随着互联网、移动互联网、物联网等新型设备的广泛普及，以及各种应用系统的不断发展，越来越多的数据产生出来，而这些数据将会对我们带来巨大的商业价值。如何有效地从海量数据中挖掘商业价值，是企业面临的一项重要课题。大数据
2024年02月07日
浏览(10)
使用python统计《三国演义》人物词频，看看罗贯中笔下谁的出场次数最多
“滚滚长江东逝水，浪花淘尽英雄”。近来读《三国演义》，忽然想看看到底哪位英雄在书中提到的最多，于是就想用分词算法实现一下。网上也确实有相关的案例，作为参考，自己又重写并优化了一遍。思路下载《三国演义》txt文档使用jieba分词算法对文档进行分词处理
2024年02月06日
浏览(9)
hadoop学习：mapreduce入门案例二：统计学生成绩
这里相较于 wordcount，新的知识点在于学生实体类的编写以及使用数据信息： 1. Student 实体类 2. mapper 阶段，StudentMapper 类 3. reduce 阶段，StudentReduce 类 4. 驱动类，studentDriver 类
2024年02月11日
浏览(8)
VMware中Linux系统下（Ubuntu）Hadoop的安装和使用步骤
VMware中Linux系统下（Ubuntu）Hadoop的安装和使用步骤此篇文章中安装的是：jdk1.8.0_202、hadoop-3.2.4 安装过程中可能会用到的复制粘贴方法： Windows下复制内容到虚拟机下的linux系统（Ubuntu） 1、创建Hadoop用户 2、切换到hadoop账户 1、更新apt 2、安装vim编辑器 1、安装SSH服务端 2、登录
2024年04月09日
浏览(22)
hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数
这个案例的需求很简单现在这里有一个文本wordcount.txt，内容如下现要求你使用 mapreduce 框架统计每个单词的出现个数这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架（1）创建一个 maven 工程，maven 工程框架可以选择quickstart （2）在properties中添加 had
2024年02月11日
浏览(7)
词频的统计
任务8、词频统计 -参看本博《经典案例【词频统计】十一种实现方式》 -针对单词文本文件，统计每个单词出现的次数 hello hadoop hello spark i love you hadoop and spark i learn hadoop and scala -思路：读取文件，通过拆分得到单词数组，定义一个哈希映射保存词频统计结果，遍历单词数组，
2024年02月09日
浏览(10)
Spark实战：词频统计
1、分步完成词频统计（1）基于文本文件创建RDD 执行命令： val lines = sc.textFile(\\\"/home/test.txt\\\") （2）按空格拆分作扁平化映射执行命令： val words = lines.flatMap(_.split(\\\" \\\")) （3）将单词数组映射成二元组数组执行命令： val tuplewords = words.map((_, 1)) （4）将二元组数组按键归约执行命
2024年04月28日
浏览(11)