使用hadoop进行词频统计测试案例

这篇具有很好参考价值的文章主要介绍了使用hadoop进行词频统计测试案例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1首先hadoop集群环境,使用jps’查看服务启动情况

1.1使用start-all.sh启动Hadoop集群环境

 

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式1..2使用jps查看服务启动情况

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

 2创建一个需要进行处理的数据文件:word.txt

2.1 为了方便管理,首先创建一个文件夹(我这里创建已经创建了mydata,这个自定义)再在其下创建文件

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

 2.2 进入mydata目录下使用vi word.txt 创建该文件,并在文件中输入如下数据

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

3 将所需要分析的文件上传到hdfs系统上

3.1 首先在hdfs上创建一个用于保存所上传的文件夹,我这里创建了一个input,使用的命令是hadoop fs -mkdir /input

3.2 使用hadoop fs -ls / 查看hdfs上已经存在的目录

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

3.3 将所需要分析处理的文件上传到创建的目录下,并进行查看

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

4 使用hadoop自带的jar包对上传的文件进行分析

4.1 首先找到hadoop自带的mapreduce测试jar包所在位置

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

4.2 使用其中的hadoop-mapreduce-examples-3.3.0.jar 对上上传的数据进行分析

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

注意:这里的wordcount 是这个测试jar包中的一个单词统计的主类的引用路径名,实际应用中需要自己导入自己所创建的类引用路径

这里的/output 目录不需要提前创建,它会自动生成,测试是否分析成功可以查看该目录下是否产生相应的part-r-00000文件

5 查看是否成功

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

注意:可以查看part-r-00000文件看是否出现对应的词频统计结果,即为成功,如下所示

hadoop词频统计步骤,hadoop,Linux,hadoop,大数据,分布式

到这里使用hadoop自带的案例jar包处理词频统计已经大功告成!!!文章来源地址https://www.toymoban.com/news/detail-787603.html

到了这里,关于使用hadoop进行词频统计测试案例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python使用jieba分词,词频统计,基本使用

    python采用第三方库进行中文分词,本文章只是记录文章。 1.需要下载第三方库jieba:                 cmd: pip install jieba 2.为了方便测试,在同级目录下,准备一个txt格式文件,文件名随意,这里我也是随便取的:                 文件路径可以是绝对路径,也可以是相对路

    2024年02月07日
    浏览(34)
  • 文本分析-使用Python做词频统计分析

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 前言 前面我们已经介绍了文本分析中的中文分词和去除停用词,这篇文章将详细介绍分词后

    2024年02月10日
    浏览(33)
  • 字典类型操作、jieba库使用及文本词频统计

    字典的定义 理解“映射” 映射是一种键(索引)和值(数据)的对应 字典类型是“映射”的体现 键值对:键是数据索引的扩展 字典是键值对的集合,键值对之间无序 采用大括号{}和dict()创建,键值对用冒号: 表示 {键1:值1,键2:值3} 可以通过键拿到值 我们在之前的的集合中说声明

    2024年02月01日
    浏览(34)
  • 使用Hadoop进行大数据分析的步骤与实践

    作者:禅与计算机程序设计艺术 随着互联网、移动互联网、物联网等新型设备的广泛普及,以及各种应用系统的不断发展,越来越多的数据产生出来,而这些数据将会对我们带来巨大的商业价值。如何有效地从海量数据中挖掘商业价值,是企业面临的一项重要课题。 大数据

    2024年02月07日
    浏览(30)
  • 使用python统计《三国演义》人物词频,看看罗贯中笔下谁的出场次数最多

    “滚滚长江东逝水,浪花淘尽英雄”。近来读《三国演义》,忽然想看看到底哪位英雄在书中提到的最多,于是就想用分词算法实现一下。 网上也确实有相关的案例,作为参考,自己又重写并优化了一遍。 思路 下载《三国演义》txt文档 使用jieba分词算法对文档进行分词处理

    2024年02月06日
    浏览(31)
  • hadoop学习:mapreduce入门案例二:统计学生成绩

    这里相较于 wordcount,新的知识点在于学生实体类的编写以及使用 数据信息: 1. Student 实体类 2.  mapper 阶段,StudentMapper 类 3. reduce 阶段,StudentReduce 类 4. 驱动类,studentDriver 类

    2024年02月11日
    浏览(35)
  • VMware中Linux系统下(Ubuntu)Hadoop的安装和使用步骤

    VMware中Linux系统下(Ubuntu)Hadoop的安装和使用步骤 此篇文章中安装的是:jdk1.8.0_202、hadoop-3.2.4 安装过程中可能会用到的复制粘贴方法: Windows下复制内容到虚拟机下的linux系统(Ubuntu) 1、创建Hadoop用户 2、切换到hadoop账户 1、更新apt 2、安装vim编辑器 1、安装SSH服务端 2、登录

    2024年04月09日
    浏览(39)
  • hadoop 学习:mapreduce 入门案例一:WordCount 统计一个文本中单词的个数

    这个案例的需求很简单 现在这里有一个文本wordcount.txt,内容如下 现要求你使用 mapreduce 框架统计每个单词的出现个数  这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架 (1)创建一个 maven 工程,maven 工程框架可以选择quickstart (2)在properties中添加 had

    2024年02月11日
    浏览(31)
  • Spark实战:词频统计

    1、分步完成词频统计 (1)基于文本文件创建RDD 执行命令: val lines = sc.textFile(\\\"/home/test.txt\\\") (2)按空格拆分作扁平化映射 执行命令: val words = lines.flatMap(_.split(\\\" \\\")) (3)将单词数组映射成二元组数组 执行命令: val tuplewords = words.map((_, 1)) (4)将二元组数组按键归约 执行命

    2024年04月28日
    浏览(30)
  • 词频的统计

    任务8、词频统计 -参看本博《经典案例【词频统计】十一种实现方式》 -针对单词文本文件,统计每个单词出现的次数 hello hadoop hello spark i love you hadoop and spark i learn hadoop and scala -思路:读取文件,通过拆分得到单词数组,定义一个哈希映射保存词频统计结果,遍历单词数组,

    2024年02月09日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包