基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

这篇具有很好参考价值的文章主要介绍了基于hadoop下的使用map reduce分布式系统的高考高频词汇统计。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

hadoop课程设计报告

一、设计目的与要求

1、设计目的

通过hadoop课程设计可以加深、巩固对本门专业课程理论知识的掌握。通过eclipse和hadoop来编写课设报告等方面的实践训练,筑牢编程基础,培养良好的逻辑思维能力,提高综合运用能力。同时也锻炼学生自我管理和自我发展的能力,合理安排时间完成自己的任务,促进个人和集体良好的合作交往。

  1. 设计要求

基于hadoop下的mapreduce分布式系统

具体要求:

  1. 实现代码在hadoop下的运行
  2. 高考英语单词的分词统计
  3. 实现单词频率由高到低的排序
  4. 实现文件保存其hdfs下
  5. 图形界面化

二、设计内容

1、设计题目和环境

题目:基于hadoop下的高考英语高频词汇分析

语言:Java+Linux

环境:eclipise+Hadoop

2、设计过程与步骤

实现所涉及的文件:

  1. map.java:实现空格切割,冒号连接
  2. combine.java:对每个单词进行词频统计
  3. reduces.java:自定义Reduce类
  4. drivers.java:编写MapReduce主类
  5. read.java:图形界面化
  6. English.txt:文本文

操作过程与步骤如下:

  1. 将文本按照空格切割,以冒号连接,单词:文档名称作为key,单词次数作为value

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图1 map.java

  1. 对map阶段的单词次数聚合处理,并重新设置key作为单词,value值由文档名称和词频组成

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图2 combine.java

  1. 接收combine阶段的输出,最终案例倒排索引文件需求的样式,将单词作为key,多个文档名称和词频连接作为value,输出到目标目录

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图3 reduce.java

  1. 设置MapReduce工作任务的相关参数,采用本地运行模式

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图4 driver.java

  1. 图形界面化,显示最终内容

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图5 reader.java

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图6 reader.java

  1. 将Java程序打包成jar包的形式

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图7 jar包

  1. 在hdfs下创建文件

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图8 创建一个名为sigen的文件用于存放数据

  1. 将要分析的数据上传到hdfs中

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图9 上传数据

  1. 在hadoop下运行jar包(其中cn.itcast.mr.invertedIndex java程序的package名,output是输出文件所在地)hadoop jar /export/sigen521.jar cn.itcast.mr.invertedIndex.drivers /sigen52/123.txt /sigen52/output

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图10 运行

  1. 运行结果完成后可以查看

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图11 查看结果

3、设计过程中出现的问题与解决方法

(1)问题一:图形界面设计的时候一直达不到预期的效果

解决方法:查看以前的例子,查询CSDN寻找到了灵感

(2)问题二:ecplise完成 初始代码后,不知道如何在hadoop下运行

解决方法:查询CSDN得知,在ecplise下打成jar包的形式然后在hadoop下运行

(3)问题三:在haadoop下运行hadoop jar /export/servers/Hadoop-2.7.4/12345.jar cn.itcast.mr.invertedIndex.drivers /sigen/1.txt /sigen/output 一直报错不知道什么原因

解决方法:查询资料,借助百度翻译得知hdfs下没有相应的文件,创建相应文件后,成功运行。

4、程序运行界面(或者是图表可视化结果)

(1)程序运行后,hdfs界面

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图12 文件位置

(2)图形可视化

基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

图13 图形界面

  • 设计总结

(1)通过本次大作业的学习与设计我的收获很大,将本学期所学习的知识由零零碎碎到整体实现一个大的设计有了一个清晰的认知,学会了自己去克服困难,磨练了我的意志以及加强了学习的能力,没有学到过的函数通过查阅资料请教同学也可以成功使用,同时我也对于hadoop这门课程有了更加深入的了解,喜欢上了这门课程,hadoop可以完成很多东西,在学习中也能找到自己的乐趣,经过自己的不断努力实现了代码的运行成功获取到了数据

(2)大学生活让我对爬虫有了一定的了解,但实际操作领域依旧是一片空白。纸上得来终觉浅,绝知此事要躬行。经过本次大作业,让我对自己有了新的认识,并明确了爬虫这一课程的前进方向。

(3)  1.继续学习,不断提升理论素养

  在信息时代,学习是不断地汲取新信息,获得事业进步的动力。现在通过总感觉自己学的不够,要用到知识时总感觉脑袋总是空白。实习后让我明白,为了能更好的适应工作,不得不利用自己空闲时间去弥补学习中的不足。实训内容是与自己所学专业有密切联系的,所以自己在这方面格外侧重,希望能够加强自己的专业知识。

  2.加强信心,坚持下去

 希望能把所学习的知识,也能运用到课堂上。对自己多一点信心,多给自己点赞赏,多给自己鼓鼓劲,相信自己总会走出一条宽敞大道。

  3、学习中的同学相处

  感觉学生时代很美好,不仅仅是不需要去努力工作,而是在学生时代你可以有很好的同学,很好的朋友,大家相互嘘寒问暖,不必勾心斗角,同学之间互帮互助没有什么坏心思。我感觉这里才真的有纯洁的友谊,纯洁的感情。我想当踏上了社会,就会存在着利益关系,有工作繁忙,有着上下级的阶级,也多了份人情世故。希望以后自己努力,可以多几个朋友,希望自己可以有个团结工作的环境。在整个学习过程中,同学之间的关系总是那般融洽,学生时代是我们最开心的日子,为了面对以后的生活,我们现在能做的就是好好学习,掌握知识为了自己的明天祖国的未来奉献自己的一份力量。

下载地址:

复制这段内容后打开百度网盘手机App,操作更方便哦
链接: https://pan.baidu.com/s/1u0WDtkGradU3sAEs-XbEuQ
提取码: jp2j文章来源地址https://www.toymoban.com/news/detail-467451.html

到了这里,关于基于hadoop下的使用map reduce分布式系统的高考高频词汇统计的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于CentOS 7 的 Hadoop3版本分布式环境配置搭建

    以下是在VMware虚拟机中安装centos 7去配置hadoop。所以要准备的包 centos 7:Index of /apache/hadoop/common/hadoop-3.3.5 hadoop3.3.5:Index of /apache/hadoop/common/hadoop-3.3.5 查看原本的jdk版本   其实原来的openjdk版本也是可用的,但是hadoop3.x不支持较低版本的jdk,所以这里卸载重新安装新版本jdk文件

    2024年02月01日
    浏览(53)
  • 基于Hadoop分布式存储的网盘系统实现(简易粗糙版)

    大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。 1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员… 2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。 3、如果您觉得文章有

    2024年02月10日
    浏览(54)
  • 基于Linux环境下搭建Hadoop3.3.5伪分布式集群

    目录 架构设计: 一、下载hadoop安装包 二、解压及构建软连接 三、 修改配置文件 1. 配置workers文件   //hadoop02中叫slaves 2. 修改hadoop-env.sh          3. 修改core-site.xml     4. 修改hdfs-site.xml 5. 配置:mapred-site.xml文件   6. 配置yarn-site.xml文件  四、根据hdfs-site.xml的配置项,准备数

    2024年01月19日
    浏览(47)
  • Hadoop 之 分布式集群配置与使用(三)

    名称 含义 HDFS Hadoop Distributed File System,Hadoop 分布式文件系统的简称 NameNode 指挥其它节点存储的节点,用于映射文件在集群存储的位置 Secondary NameNode 副命名节点,用于备份命名节点数据,并协助命名节点进行管理工作;命名节点崩溃后可以用来恢复其数据,可以有多个 Dat

    2024年02月16日
    浏览(40)
  • 基于Windows系统的Hadoop伪分布式模式部署-从零开始(我的学习记录)

    目录 前言 一.JDK的下载安装配置 1.JDK 下载 2.JDK 安装 3.JDK 环境变量配置 4.验证JDK安装是否成功 5.重点? 二.Hadoop部署以及工具集winutils 1.下载Hadoop解压/下载winutils以及\\\"安装\\\"         下载Hadoop和winutils         \\\"安装\\\"winutils 2.配置Hadoop环境变量/配置Hadoop文件 Hadoop配置环境变量

    2024年04月13日
    浏览(60)
  • 超详细版Hadoop的安装与使用(单机/伪分布式)

    虚拟机安装包以及Ubuntu ISO映像下载:https://pan.baidu.com/s/19Ai5K-AA4NZHpfMcCs3D8w?pwd=9999  下载完成后,进入VMware,点击右上角【文件】——【新建虚拟机向导】 1.1选择典型 1.2选择光盘映像 映像文件选择上方刚刚下载的ubuntukylin-16.04-desktop-amd64 1.3命名 根据自己需求来,无统一规定

    2024年01月21日
    浏览(52)
  • Hadoop的分布式文件存储系统HDFS组件的使用

    存储整个HDFS集群的元数据(metaData) —— 整个集群中存储的目录和文件的索引 管理整个HDFS集群 接收客户端的请求 负责节点的故障转移 存储数据,是以block块的形式进行数据的存放。 默认情况下block块的大小是128M。 blocksize大小的计算公式: 寻址时间:下载文件时找到文件

    2024年02月09日
    浏览(74)
  • 毕业设计项目:基于SpringBoot+Hadoop+Vue企业级网盘分布式系统的设计与实现

    2.1 运行环境 2.2 基本处理流程 企业网盘系统的使用者分为企业普通员工和企业管理员,所以进行的基本处理流程是不一样的。企业普通员工进入本系统前台主界面后看到的是首页数据大盘,系统右上角有用户的头像和系统公告通知。在首页顶部的位置有个欢迎用户功能,此模

    2024年02月05日
    浏览(66)
  • 云计算实验1 基于Hadoop的云计算平台配置和map-reduce编程案例

    本实验考察学生Hadoop平台下的环境配置、分布式文件存储操作和管理以及基于Hadoop的分布式编程的设计与实现。 Linux的虚拟机环境、线上操作视频和实验指导手册 完成Hadoop开发环境安装、熟悉基本功能和编程方法。 请按照线上操作视频和实验知道手册,完成以下实验内容:

    2024年02月03日
    浏览(41)
  • 分布式下的session共享问题

    首页我们确定在分布式的情况下session是不能共享的。         1.不同的服务,session不能共享,也就是微服务的情况下         2.同一服务在分布式情况,session同样不能共享,也会是分布式情况 分布式下session共享问题解决方案(域名相同)         1.session复制         2.客户

    2024年02月11日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包