Hadoop系统应用之MapReduce相关操作【IDEA版】---经典案例“倒排索引、数据去重、TopN”

这篇具有很好参考价值的文章主要介绍了Hadoop系统应用之MapReduce相关操作【IDEA版】---经典案例“倒排索引、数据去重、TopN”。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

倒排索引

一、实验说明

  倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引的文件称为倒排索引文件,简称倒排文件(Inverted File)。

二、实验准备

在之前建立的HadoopDemo的基础上进行实验

三、开始实验

 1.启动Hadoop服务

输入命令:

start-dfs.sh
start-yarn.sh
jps

idea操作hadoop,mapreduce,搜索引擎,大数据

 2.虚拟机vM上创建相应的文本文件

创建/export/mrtxt目录,在里面创建三个文本文件 file1.txtfile2.txtfile3.txt

idea操作hadoop,mapreduce,搜索引擎,大数据

 3.上传文件到HDFS指定目录

在hdfs上创建目录/mrtxt/input,将三个文本文件 file1.txtfile2.txtfile3.txt,上传到HDFS的/mrtxt/input目录

idea操作hadoop,mapreduce,搜索引擎,大数据

 在UI界面查看是否上传成功

idea操作hadoop,mapreduce,搜索引擎,大数据

 文章来源地址https://www.toymoban.com/news/detail-730609.html

三、开始实验

1.Map阶段实现【创建倒排索引映射器类:InvertedIndexMapper】

打开之前创建的Maven项目 HadoopDemo,创建net.army.mr包,在该路径下编写自定义Mapper类InvertedIndexMapper,主要用于将文本中的单词按照空格进行切割,并以冒号拼接,“单词:文档名称”作为key,单词次数作为value,都以文本方式输出至Combine阶段。

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据

idea操作hadoop,mapreduce,搜索引擎,大数据

 编写代码

package net.army.mr;


import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;

/**
 * 作者:yangjian
 * 日期:2023/04/24
 * 功能:倒排索引映射器类
 */

public class InvertedIndexMapper extends Mapper<LongWritable, Text, Text, Text> {
    private static Text keyInfo = new Text(); // 存储单词和URL组合
    private static final Text valueInfo = new Text("1"); // 存储词频,初始化为1

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        // 获取文件行数据
        String line = value.toString();
        // 拆分得到单词数组
        String[] words = StringUtils.split(line, " ");
        // 得到这行数据所在的文件切片
        FileSplit fileSplit = (FileSplit) context.getInputSplit();
        // 根据文件切片得到文件名
        String fileName = fileSplit.getPath().getName();
        for (String word : words) {
            // key值由单词和URL组成,如“MapReduce:file1.txt”
            keyInfo.set(word + ":" + fileName);
            // 将键值对数据传入下一个阶段
            context.write(keyInfo, valueInfo);
        }
    }
}

2.Combine阶段实现【创建倒排索引合并器类:InvertedIndexCombiner】

根据Map阶段的输出结果形式,在net.army.mr包下,自定义实现Combine阶段的类InvertedIndexCombiner,对每个文档的单词进行词频统计。

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据

idea操作hadoop,mapreduce,搜索引擎,大数据

编写代码

package net.army.mr;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 作者:yangjian
 * 日期:2023/04/24
 * 功能:倒排索引合并器类
 */

public class InvertedIndexCombiner extends Reducer<Text, Text, Text, Text> {

    private static Text info = new Text();

    // 输入: <MapReduce:file3.txt {1,1,...}>
    // 输出: <MapReduce file3.txt:2>
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        // 统计词频
        int sum = 0;
        for (Text value : values) {
            sum += Integer.parseInt(value.toString());
        }
        // 获取分隔符冒号的位置
        int splitIndex = key.toString().indexOf(":");
        // 重新设置value值由URL和词频组成
        info.set(key.toString().substring(splitIndex + 1) + ":" + sum);
        // 重新设置key值为单词
        key.set(key.toString().substring(0, splitIndex));
        // 将键值对数据传入下一个阶段
        context.write(key, info);
    }
}

 3.Reduce阶段实现【创建倒排索引归并器类:InvertedIndexReducer】

根据Combine阶段的输出结果形式,同样在net.army.mr包下,自定义Reducer类InvertedIndexMapper,主要用于接收Combine阶段输出的数据,并最终案例倒排索引文件需求的样式,将单词作为key,多个文档名称和词频连接作为value,输出到目标目录。

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据

 idea操作hadoop,mapreduce,搜索引擎,大数据

编写代码

package net.army.mr;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 作者:yangjian
 * 日期:2023/04/24
 * 功能:倒排索引归并器类
 */

public class InvertedIndexReducer extends Reducer<Text, Text, Text, Text> {

    private static Text result = new Text();

    // 输入:<MapReduce file3.txt:2>
    // 输出:<MapReduce file1.txt:1;file2.txt:1;file3.txt:2;>
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        // 生成文档列表
        String fileList = new String();
        for (Text value : values) {
            fileList += value.toString() + ";";
        }
        // 设置结果数据
        result.set(fileList);
        // 将键值对数据输出
        context.write(key, result);
    }
}

 4.Driver主类实现【创建倒排索引驱动器类:InvertedIndexDriver】

idea操作hadoop,mapreduce,搜索引擎,大数据

idea操作hadoop,mapreduce,搜索引擎,大数据

编写代码

package net.army.mr;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 作者:yangjian
 * 日期:2023/04/24
 * 功能:倒排索引驱动器类
 */

public class InvertedIndexDriver {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);

        // 设置作业启动类
        job.setJarByClass(InvertedIndexDriver.class);

        // 设置Mapper类
        job.setMapperClass(InvertedIndexMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(Text.class);

        // 设置Combiner类
        job.setCombinerClass(InvertedIndexCombiner.class);

        // 设置Reducer类
        job.setReducerClass(InvertedIndexReducer.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(Text.class);

        // 定义uri字符串
        String uri = "hdfs://YANGJIAN00:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/mrtxt/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/mrtxt/output");

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录
        fs.delete(outputPath, true);

        // 给作业添加输入目录
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

5. 运行倒排索引驱动器类【运行InvertedIndexDriver类】,查看结果

idea操作hadoop,mapreduce,搜索引擎,大数据

 6.问题说明

运行过程中出现以下问题

idea操作hadoop,mapreduce,搜索引擎,大数据

 问题解决方法(更换两个基础文件)

地址如下:(8条消息) Hadoop系统应用之java-API对HDFS的操作实验缺少的两个文件-桌面系统文档类资源-CSDN文库

数据去重

一、实验说明

数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选,数据去重指去除重复数据的操作。在大数据开发中,统计大数据集上的多种数据指标,这些复杂的任务数据都会涉及数据去重。

二、实验准备

在之前建立的HadoopDemo的基础上进行实验

idea操作hadoop,mapreduce,搜索引擎,大数据

idea操作hadoop,mapreduce,搜索引擎,大数据

三、开始实验

1. Map阶段实现

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据

 idea操作hadoop,mapreduce,搜索引擎,大数据

 编写代码

package cn.itcast.mr.dedup;


import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class DedupMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    private static Text line = new Text();//每行数据
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)throws IOException, InterruptedException {
        line = value;
        context.write(line,NullWritable.get());
    }


}

2. Reduce阶段实现

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据idea操作hadoop,mapreduce,搜索引擎,大数据

编写代码

package cn.itcast.mr.dedup;

import java.io.IOException;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class DedupReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
    //重写reduce()方法
    @Override
    protected void reduce(Text key, Iterable<NullWritable> values, Reducer<Text, NullWritable, Text, NullWritable>.Context context) throws IOException, InterruptedException {
        context.write(key,NullWritable.get());
    }
}

3.Driver程序主类实现

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据

idea操作hadoop,mapreduce,搜索引擎,大数据

编写代码

package cn.itcast.mr.dedup;


import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;

public class DedupDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {


        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(DedupDriver.class);
        job.setMapperClass(DedupMapper.class);
        job.setReducerClass(DedupReducer.class);
        //设置输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);
        //设置输入和输出目录
        FileInputFormat.addInputPath(job, new Path("D:\\Hadoop\\HDFS\\Dedup\\input"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\Hadoop\\HDFS\\Dedup\\output"));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

}

 4.在本机文件下编辑要处理的文件

idea操作hadoop,mapreduce,搜索引擎,大数据

 5.查看运行结果

idea操作hadoop,mapreduce,搜索引擎,大数据

TopN

一、实验说明

TopN分析法是指从研究对象中按照某一个指标进行倒序或正序排列,取其中所需的N个数据,并对这N个数据进行重点分析的方法。

二、实验准备

在之前建立的HadoopDemo的基础上进行实验

idea操作hadoop,mapreduce,搜索引擎,大数据

 idea操作hadoop,mapreduce,搜索引擎,大数据

 

三、开始实验

1. Map阶段实现

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据

 idea操作hadoop,mapreduce,搜索引擎,大数据

 编写代码

package cn.itcast.mr.topN;

import java.io.IOException;
import java.util.TreeMap;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class TopNMapper extends Mapper<LongWritable, Text, NullWritable, IntWritable>{
    private TreeMap<Integer, String> repToRecordMap = new TreeMap<Integer, String>();
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, NullWritable, IntWritable>.Context context)throws IOException, InterruptedException {
        String line = value.toString();
        String[] nums = line.split(" ");

        for (String num :nums) {
            repToRecordMap.put(Integer.parseInt(num),"");
            if(repToRecordMap.size()>50) {
                repToRecordMap.remove(repToRecordMap.firstKey());
            }
        }
    }
    protected void cleanup (Mapper<LongWritable, Text, NullWritable, IntWritable>.Context context) {
        for(Integer i : repToRecordMap.keySet()) {
            try {
                context.write(NullWritable.get(), new IntWritable(i));
            }catch(Exception e) {
                e.printStackTrace();
            }

        }
    }

}

2. Reduce阶段实现

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据

 idea操作hadoop,mapreduce,搜索引擎,大数据

 编写代码

package cn.itcast.mr.topN;

import java.io.IOException;
import java.util.Comparator;
import java.util.TreeMap;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

public class TopNReducer extends Reducer<NullWritable, IntWritable, NullWritable, IntWritable> {
    private TreeMap<Integer, String> repToRecordMap = new TreeMap<Integer, String>(new Comparator<Integer>() {
        public int compare(Integer a, Integer b) {
            return b-a;
        }
    });
    @Override
    public void reduce(NullWritable key, Iterable<IntWritable> values, Reducer<NullWritable, IntWritable, NullWritable, IntWritable>.Context context) throws IOException, InterruptedException {

        for(IntWritable value :values) {
            repToRecordMap.put(value.get(),"");
            if(repToRecordMap.size()>50) {
                repToRecordMap.remove(repToRecordMap.firstKey());
            }
        }

        for(Integer i:repToRecordMap.keySet()) {
            context.write(NullWritable.get(), new IntWritable(i));
        }
    }

}

3.Driver程序主类实现

新建Java类

idea操作hadoop,mapreduce,搜索引擎,大数据

 idea操作hadoop,mapreduce,搜索引擎,大数据

编写代码

package cn.itcast.mr.topN;


import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;


public class TopNDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {


        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(TopNDriver.class);
        job.setMapperClass(TopNMapper.class);
        job.setReducerClass(TopNReducer.class);
        //设置输出类型
        job.setOutputKeyClass(NullWritable.class);
        job.setOutputValueClass(IntWritable.class);
        //设置输入和输出目录
        FileInputFormat.addInputPath(job, new Path("D:\\Hadoop\\HDFS\\TopN\\input"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\Hadoop\\HDFS\\TopN\\output"));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

}

  4.在本机文件下编辑要处理的文件

idea操作hadoop,mapreduce,搜索引擎,大数据

  5.查看运行结果

idea操作hadoop,mapreduce,搜索引擎,大数据

​​​​​​​idea操作hadoop,mapreduce,搜索引擎,大数据

 

到了这里,关于Hadoop系统应用之MapReduce相关操作【IDEA版】---经典案例“倒排索引、数据去重、TopN”的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )

    企业级大数据应用框架需要满足业务的需求,一是要求能够满足基于数据容量大,数据类型多,数据流通快的大数据基本处理需求,能够支持大数据的采集,存储,处理和分析,二是要能够满足企业级应用在可用性,可靠性,可扩展性,容错性,安全性和隐私性等方面的基本

    2024年02月09日
    浏览(39)
  • 七、Hadoop系统应用之搭建Hadoop高可用集群(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)

    Hadoop集群搭建前安装准备参考: 一、Hadoop系统应用之安装准备(一)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7) 一、Hadoop系统应用之安装准备(二)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7) Hadoop集群搭建过程参考: 二、Hadoop系统应

    2024年02月02日
    浏览(39)
  • 云计算 熟悉常用的LINUX操作和hadoop部署相关操作 实验报告

    《云计算系统架构及应用》实验报告 题目: 熟悉常用的LINUX操作和hadoop部署相关操作 姓名 日期 实验环境:  操作系统:Linux Hadoop版本:2.7.3 实验内容与完成情况: (一)熟悉常用的Linux 操作 请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/lo

    2024年02月05日
    浏览(30)
  • 【hadoop】hbase的安装部署以及相关操作(图文详解)

    ​ HBase是一种基于列存储的分布式数据库系统,它能够快速地存储和处理大规模数据。与传统的关系型数据库不同,HBase采用了分布式的架构,能够实现数据的高可靠性、高可扩展性和高性能。在实际应用中,正确地安装和部署HBase集群是非常重要的。 在安装hbase之前,需要虚

    2024年02月04日
    浏览(31)
  • IDEA相关操作

    目录 连接MySQL  IDEA配置Maven 配置全局Maven 导入Maven项目 方法一  方法二 安装Mybatisx插件 安装lombok插件 填写user和Password之后测试连接 如果是第一次连接需要联网下载数据库连接驱动,安装提示下载即可 如果显示如下错误需要更改时区 在命令窗口连接MySQL 查看时区 如果显示

    2024年01月17日
    浏览(21)
  • 【简单易懂版】使用IDEA操作Hadoop(增删改查)

    前提:服务器中已经配置好了hadoop 本人亲测,以下代码已经跑通,基础功能都可以完成!!!希望对大家有用!!! 创建一个maven项目 cn.et 本地maven配置阿里镜像,用于快速下载依赖(重启加载) pow文件中引入hadoop依赖 创建一个HdfsApiUtils 类,用于实现hdfs的增删改查: 获取

    2024年02月06日
    浏览(24)
  • IDEA中GIT相关操作

    1.创建tag 右键项目,然后按照 Git - Repository - Tag… 创建tag。 或 顶部菜单栏 按照 VCS - Git- Tag… 创建tag。 填写 Tag name ,Message 此时tag是在本地提交的,未提交到git上 2.提交tag到git push ,勾选push tags push checkout对应tag的代码 位置:窗口右下角创建分支处——Checkout Tag or Revision …

    2024年04月11日
    浏览(19)
  • IDEA连接Linux上的Hadoop并对HDFS进行操作

    和Linux上版本相同的Hadoop 压缩包解压 : 将放在Linux上面的Hadoop压缩包( hadoop_xxxx.tar.gz )放在Windows 任意硬盘 中 任意 (建议新创建的一个Hadoop文件夹) 文件夹 , 然后 直接进行解压即可 , 不需要担心软件的系统适配问题 配置 HADOOP_HOME 环境变量 及添加 bin 和 sbin 目录的 系统路径 验证

    2024年02月09日
    浏览(32)
  • IDEA连接远程仓库及相关操作(gitee)

    ( 正常安装的会自动找到位置,没找到位置的就点三个点手动寻找位置 ) 在IDEA中git找到克隆,点击,把远端克隆的ssh复制粘贴到URL中(命令行git clone 远端仓库路径 本地目录) 执行merge或者pull操作时,可能发生冲突,把冲突解决后再加入缓存后才能提交(下面是解决冲突,

    2024年02月16日
    浏览(87)
  • idea 2023 新版ui中git的相关操作

    前两个月换了新电脑,下了最新版的idea发现可以切换一套新的ui了 切换新ui肯定不太习惯,很多操作都得重新摸索一下 在这里记录几个git相关的操作 忽略我下面截图中当前项目是js的后端项目…… 切换ui 首先说一下怎么切换新旧版ui,我这里就截一个新版切换旧版的图,旧版

    2024年02月14日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包