第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能

10月前作者：羙橘分类：Toy博客阅读(52) 违法举报

这篇具有很好参考价值的文章主要介绍了第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

提示：文章内容主要以案例为主

目录

前言

项目说明

一，程序需求

1.需求

2.数据

二，编码操作

1.项目建包目录

2.FriendsRecommend.java

3.FriendsRecommendMapper.java

4.FriendsRecommendReduce.java

三，Xshell运行的步骤

1.创建目录

2.上传程序

3.分布式文件系统上传测试数据

4.执行程序

5. 查看结果

总结

前言

项目说明

互为推荐关系
- 非好友的两个人之间存在相同好友则互为推荐关系
- 朋友圈两个非好友的人，存在共同好友人数越多，越值得推荐
- 存在一个共同好友，值为1；存在多个值累加

提示：以下是本篇文章正文内容，下面案例可供参考

一，程序需求

1.需求

程序要求，给每个人推荐可能认识的人
- 互为推荐关系值越高，越值得推荐
- 每个用户，推荐值越高的可能认识的人排在前面

2.数据

数据使用空格分割
每行是一个用户以及其对应的好友
每行的第一列名字是用户的名字，后面的是其对应的好友
数据准备：friend.txt

xiaoming laowang renhua linzhiling
laowang xiaoming fengjie
renhua xiaoming ligang fengjie
linzhiling xiaoming ligang fengjie guomeimei
ligang renhua fengjie linzhiling
guomeimei fengjie linzhiling
fengjie renhua laowang linzhiling guomeimei

二，编码操作

1.项目建包目录

第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能

2.FriendsRecommend.java

package org.hadoop.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


import java.io.IOException;

public class FriendsRecommend {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(FriendsRecommend.class);

        Path input = new Path(args[0]);
        FileInputFormat.addInputPath(job, input);

        Path output = new Path(args[1]);
        //如果文件存在,,删除文件,方便后续调试代码
        if (output.getFileSystem(conf).exists(output)) {
            output.getFileSystem(conf).delete(output,true);
        }

        FileOutputFormat.setOutputPath(job, output);

        job.setMapperClass(FriendsRecommendMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        job.setReducerClass(FriendsRecommendReduce.class);

        job.waitForCompletion(true);
    }
}

3.FriendsRecommendMapper.java

package org.hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.util.StringUtils;

import java.io.IOException;

public class FriendsRecommendMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    Text mkey = new Text();
    IntWritable mval = new IntWritable();

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        //不能用双引号,要用单引号 将传递过来的值进行分割
        String[] strs = StringUtils.split(value.toString(), ' ');
        // 直接好友的 key为直接好友列表  value为0
        for (int i = 1; i < strs.length; i++) {
            //直接好友关系
            mkey.set(fof(strs[0], strs[i]));
            mval.set(0);
            context.write(mkey, mval);
            //间接好友关系 设置value为1
            for (int j = i + 1; j < strs.length; j++) {
                mkey.set(fof(strs[i], strs[j]));
                mval.set(1);
                context.write(mkey, mval);
            }
        }
    }

    //两个共同好友的间接好友之间,可能存在 B C 和C B 的情况,但是比对累加时,计算机不识别,所以需要字典排序
    private static String fof(String str1, String str2) {
        //compareTo比较的 正数说明大
        if (str1.compareTo(str2) > 0) {
            return str2 + ":" + str1;
        }
        return str1 + ":" + str2;
    }
}

4.FriendsRecommendReduce.java

package org.hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class FriendsRecommendReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable mValue = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        //
        int flg = 0;
        int sum = 0;
        for (IntWritable value : values) {
            if (value.get() == 0) {// 直接关系
                flg = 1;
            }
            sum += value.get(); // 添加间接权重
        }

        if (flg == 0) {
            mValue.set(sum);
            context.write(key, mValue);
        }
    }
}

三，Xshell运行的步骤

1.创建目录

创建程序以及数据存放目录

cd /opt/
ls # 如果目录下没有testData目录的话自己手动创建一下即可
cd testData/

mkdir friend
cd friend/

2.上传程序

把程序先上传到虚拟机node01里面

cd /opt/testData/friend/

rz

第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能

3.分布式文件系统上传测试数据

首先上传本地测试文件hello.txt到虚拟机

cd /opt/testData/friend/
rz

第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能

确认Hadoop集群已经开启
- 此处必须开启yarn集群

start-dfs.sh
start-yarn.sh

第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能

分布式文件系统创建input目录并且input目录上传测试文件friend.txt
hdfs dfs -mkdir /input
hdfs dfs -put friend.txt /input
hdfs dfs -ls /input

第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能

4.执行程序

hadoop jar FriendsRecommend-1.0-SNAPSHOT.jar /input /output

第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能

5. 查看结果

hdfs dfs -cat /output/part-r-00000

第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能

总结

本文主要介绍了Hadoop学习案例——MapReduce课程设计好友推荐功能，过程中要注意jar包的打包。文章来源地址https://www.toymoban.com/news/detail-465487.html

到了这里，关于第三节 Hadoop学习案例——MapReduce课程设计好友推荐功能的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现

图1：MaxCompute MapReduce各个阶段思路设计设计思路分析分为六个模块：input输入数据、splitting拆分、Mapping映射、Shuffing派发、Reducing缩减、Final result输出。输入数据：直接读入文本不进行分片，数据项本身作为单个Map Worker的输入。 Map阶段：Map处理输入，每获取一个数字，将数

2024年02月05日
浏览(56)
hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

这个案例的需求很简单现在这里有一个文本wordcount.txt，内容如下现要求你使用 mapreduce 框架统计每个单词的出现个数这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架（1）创建一个 maven 工程，maven 工程框架可以选择quickstart （2）在properties中添加 had

2024年02月11日
浏览(43)
大数据课程D4——hadoop的MapReduce

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ⚪ 了解MapReduce的作用和特点； ⚪ 掌握MapReduce的组件； ⚪ 掌握MapReduce的Shuffle； ⚪ 掌握MapReduce的小文件问题； ⚪ 掌握MapReduce的压缩机制； ⚪ 掌握MapReduce的推测执行机制； ⚪ 掌握MapReduce的数据倾斜问题； 1.

2024年02月15日
浏览(47)
大数据课程D3——hadoop的MapReduce

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ⚪ 了解MapReduce的作用和特点； ⚪ 掌握MapReduce的组件； ⚪ 掌握MapReduce的Shuffle； ⚪ 掌握MapReduce的小文件问题； ⚪ 掌握MapReduce的压缩机制； ⚪ 掌握MapReduce的推测执行机制； ⚪ 掌握MapReduce的数据倾斜问题； 1.

2024年02月14日
浏览(43)
Hadoop3 - MapReduce COVID-19 案例实践

上篇文章对 MapReduce 进行了介绍，并编写了 WordCount 经典案例的实现，本篇为继续加深 MapReduce 的用法，实践 COVID-19 新冠肺炎案例，下面是上篇文章的地址： https://blog.csdn.net/qq_43692950/article/details/127195121 COVID-19，简称“新冠肺炎”，世界卫生组织命名为“2019冠状病毒病” [1-

2024年02月08日
浏览(39)
虚拟机+Hadoop下MapReduce的Wordcount案例

环境：ubuntu18.04 前提：Hadoop已经搭建好抄作业记得改标题输入内容（可以自定义，抄作业别写一样的） yarn-site.xml 内容如下，注意第一个property要改： ·输入hadoop classpath（任意路径下均可），将返回的内容复制在第一个property的value中 *修改配置文件之后要重启hadoop（关了又

2024年02月07日
浏览(51)
【Hadoop_06】MapReduce的概述与wc案例

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。 1）MapReduce易于编程它简单的实现一些接口

2024年02月04日
浏览(48)
Hadoop3教程（十九）：MapReduce之ETL清洗案例

ETL，即 Extract-Transform-Load 的缩写，用来描述数据从源端，经过抽取（Extract）、转换（transform），最后加载（load）到目标端的处理过程。 ETL主要应用于数据仓库，但不只是应用于数据仓库，毕竟这个更像是一类思想。在运行核心的MR程序之前，往往要对数据进行清理，清除掉

2024年02月06日
浏览(46)
Hadoop3教程（十七）：MapReduce之ReduceJoin案例分析

现在有两个文件： orders.txt，存放的是订单ID、产品ID、产品数量 pd.txt，这是一个产品码表，存放的是产品ID、产品中文名；现在是想通过join，来实现这么一个预期输出，即订单ID、产品中文名、产品数量。以上是本次案例需求。简单思考一下思路。我们需要将关联条件作为

2024年02月07日
浏览(52)
大数据与云计算——部署Hadoop集群并运行MapReduce集群案例(超级详细！)

Linux搭建Hadoop集群(CentOS7+hadoop3.2.0+JDK1.8+Mapreduce完全分布式集群) 本文所用到的版本号： CentOS7 Hadoop3.2.0 JDK1.8 基本概念及重要性很多小伙伴部署集群用hadoop用mapreduce，却不知道到底部署了什么，有什么用。在部署集群之前先给大家讲一下Hadoop和MapReduce的基本概念，以及它们在大

2024年02月04日
浏览(46)