头歌大数据——MapReduce综合应用案例 — 电信数据清洗 答案 无解析

这篇具有很好参考价值的文章主要介绍了头歌大数据——MapReduce综合应用案例 — 电信数据清洗 答案 无解析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第1关:数据清洗

编程要求

根据提示,在右侧编辑器补充代码,对数据按照一定规则进行清洗。

Tips:本关需要补充三个文件的代码~如下图所示,点击小三角切换文件~

mapreduce综合应用案例 — 电信数据清洗,大数据实验,头歌实验平台,大数据,mapreduce,hadoop,hdfs,java

 

记得启动HDFS~~

start-dfs.sh

代码如下: 文章来源地址https://www.toymoban.com/news/detail-757803.html

//LogMR.java

package com;
import java.io.IOException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class LogMR {
    /********** begin **********/
    static class MyMapper extends Mapper<LongWritable, Text, PhoneLog, NullWritable> {
        Map<String, String> userMap = new HashMap<>();
        Map<String, String> addressMap = new HashMap<>();
        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
        PhoneLog pl = new PhoneLog();
        Text text = new Text();
        @Override
        protected void setup(Context context) throws IOException, InterruptedException {
            Connection connection = DBHelper.getConnection();
            try {
                Statement statement = connection.createStatement();
                String sql = "select * from userphone";
                ResultSet resultSet = statement.executeQuery(sql);
                while (resultSet.next()) {
                    String phone = resultSet.getString(2);
                    String trueName = resultSet.getString(3);
                    userMap.put(phone, trueName);
                }
                String sql2 = "select * from allregion";
                ResultSet resultSetA = statement.executeQuery(sql2);
                while (resultSetA.next()) {
                    String phone = resultSetA.getString(2);
                    String trueName = resultSetA.getString(3);
                    addressMap.put(phone, trueName);
                }
            } catch (SQLException e) {
                e.printStackTrace();
            }
        }
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String str = value.toString();
            String[] split = str.split(",");
            if (split.length == 6) {
                String trueName1 = userMap.get(split[0]);
                String trueName2 = userMap.get(split[1]);
                String address1 = addressMap.get(split[4]);
                String address2 = addressMap.get(split[5]);
                long startTimestamp = Long.parseLong(split[2]);
                String startTime = sdf.format(startTimestamp * 1000);
                long endTimestamp = Long.parseLong(split[3]);
                String endTime = sdf.format(endTimestamp * 1000);
                long timeLen = endTimestamp - startTimestamp;
                pl.SetPhoneLog(trueName1, trueName2, split[0], split[1], startTime, endTime, timeLen, address1,
                        address2);
                context.write(pl, NullWritable.get());
            }
        }
    }
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJarByClass(LogMR.class);
        job.setMapperClass(MyMapper.class);
        job.setMapOutputKeyClass(PhoneLog.class);
        job.setMapOutputValueClass(NullWritable.class);
        job.setNumReduceTasks(0);
        Path inPath = new Path("/user/test/input/a.txt");
        Path out = new Path("/user/test/output");
        FileInputFormat.setInputPaths(job, inPath);
        FileOutputFormat.setOutputPath(job, out);
        job.waitForCompletion(true);
    }
    /********** end **********/
}
//DBHelper.java

package com;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;
public class DBHelper {
    /********** begin **********/
    private static final String driver = "com.mysql.jdbc.Driver";
    private static final String url = "jdbc:mysql://localhost:3306/mydb?useUnicode=true&characterEncoding=UTF-8";
    private static final String username = "root";// 数据库的用户名
    private static final String password = "123123";// 数据库的密码:这个是自己安装数据库的时候设置的,每个人不同。
    private static Connection conn = null; // 声明数据库连接对象
    static {
        try {
            Class.forName(driver);
        } catch (Exception ex) {
            ex.printStackTrace();
        }
    }
    public static Connection getConnection() {
        if (conn == null) {
            try {
                conn = DriverManager.getConnection(url, username, password);
            } catch (SQLException e) {
                e.printStackTrace();
            } // 连接数据库
            return conn;
        }
        return conn;
    }
    /********** end **********/
}
//PhoneLog.java

package com;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.io.WritableComparable;
public class PhoneLog implements WritableComparable<PhoneLog> {
    private String userA;
    private String userB;
    private String userA_Phone;
    private String userB_Phone;
    private String startTime;
    private String endTime;
    private Long timeLen;
    private String userA_Address;
    private String userB_Address;
    public PhoneLog() {
    }
    public void SetPhoneLog(String userA, String userB, String userA_Phone, String userB_Phone, String startTime,
            String endTime, Long timeLen, String userA_Address, String userB_Address) {
        this.userA = userA;
        this.userB = userB;
        this.userA_Phone = userA_Phone;
        this.userB_Phone = userB_Phone;
        this.startTime = startTime;
        this.endTime = endTime;
        this.timeLen = timeLen;
        this.userA_Address = userA_Address;
        this.userB_Address = userB_Address;
    }
    public String getUserA_Phone() {
        return userA_Phone;
    }
    public void setUserA_Phone(String userA_Phone) {
        this.userA_Phone = userA_Phone;
    }
    public String getUserB_Phone() {
        return userB_Phone;
    }
    public void setUserB_Phone(String userB_Phone) {
        this.userB_Phone = userB_Phone;
    }
    public String getUserA() {
        return userA;
    }
    public void setUserA(String userA) {
        this.userA = userA;
    }
    public String getUserB() {
        return userB;
    }
    public void setUserB(String userB) {
        this.userB = userB;
    }
    public String getStartTime() {
        return startTime;
    }
    public void setStartTime(String startTime) {
        this.startTime = startTime;
    }
    public String getEndTime() {
        return endTime;
    }
    public void setEndTime(String endTime) {
        this.endTime = endTime;
    }
    public Long getTimeLen() {
        return timeLen;
    }
    public void setTimeLen(Long timeLen) {
        this.timeLen = timeLen;
    }
    public String getUserA_Address() {
        return userA_Address;
    }
    public void setUserA_Address(String userA_Address) {
        this.userA_Address = userA_Address;
    }
    public String getUserB_Address() {
        return userB_Address;
    }
    public void setUserB_Address(String userB_Address) {
        this.userB_Address = userB_Address;
    }
    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(userA);
        out.writeUTF(userB);
        out.writeUTF(userA_Phone);
        out.writeUTF(userB_Phone);
        out.writeUTF(startTime);
        out.writeUTF(endTime);
        out.writeLong(timeLen);
        out.writeUTF(userA_Address);
        out.writeUTF(userB_Address);
    }
    @Override
    public void readFields(DataInput in) throws IOException {
        userA = in.readUTF();
        userB = in.readUTF();
        userA_Phone = in.readUTF();
        userB_Phone = in.readUTF();
        startTime = in.readUTF();
        endTime = in.readUTF();
        timeLen = in.readLong();
        userA_Address = in.readUTF();
        userB_Address = in.readUTF();
    }
    @Override
    public String toString() {
        return userA + "," + userB + "," + userA_Phone + "," + userB_Phone + "," + startTime + "," + endTime + ","
                + timeLen + "," + userA_Address + "," + userB_Address;
    }
     @Override
     public int compareTo(PhoneLog pl) {
     if(this.hashCode() == pl.hashCode()) {
     return 0;
     }
     return -1;
     }
}

到了这里,关于头歌大数据——MapReduce综合应用案例 — 电信数据清洗 答案 无解析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 头歌大数据——MapReduce 基础实战 答案 无解析

    第1关:成绩统计 编程要求 使用 MapReduce 计算班级每个学生的 最好成绩 ,输入文件路径为 /user/test/input ,请将计算后的结果输出到 /user/test/output/ 目录下。 代码: 需要先在命令行启动HDFS 再在代码文件中写入以下代码 第2关:文件内容合并去重 编程要求 接下来我们通过一个

    2024年02月08日
    浏览(133)
  • 头歌大数据——HBase 伪分布式环境搭建

    第1关:HBASE伪分布式环境搭建 编程要求 好了,到你啦,你需要先按照上次实训——HBase单节点安装的方式将 HBase 安装在 /app 目录下,然后根据本关知识配置好伪分布式的 HBase ,最后点击测评即可通关。 测试说明 程序会检测你的 HBase 服务和 Hadoop 服务是否启动,以及伪分布

    2024年02月08日
    浏览(74)
  • Hadoop3教程(十九):MapReduce之ETL清洗案例

    ETL,即 Extract-Transform-Load 的缩写,用来描述数据从源端,经过抽取(Extract)、转换(transform),最后加载(load)到目标端的处理过程。 ETL主要应用于数据仓库,但不只是应用于数据仓库,毕竟这个更像是一类思想。 在运行核心的MR程序之前,往往要对数据进行清理,清除掉

    2024年02月06日
    浏览(46)
  • 头歌大数据作业二:搭建Hadoop环境及HDFS

    课外作业二:搭建Hadoop环境及HDFS 作业详情 内容 阿里云-云起实验室-《搭建Hadoop环境》-Hadoop-2.10.1伪分布式: 1.截图本实验ECS的公网IP地址,并添加彩色框标注,如下图所示: 2.步骤6.启动Hadoop成功之后,截图并添加彩色框标注,如下图所示 3.hdfs 根目录创建文件夹(文件夹命

    2024年02月08日
    浏览(56)
  • 100G光模块的应用案例分析:电信、云计算和大数据领域

    100G光模块是一种高速光模块,由于其高速率和低延迟的特性,在电信、云计算和大数据领域得到了广泛的应用。在本文中,我们将深入探讨100G光模块在这三个领域的应用案例。 一、电信领域 在电信领域,100G光模块被广泛用于构建高速通信网络。由于电信网络的数据流量不

    2024年02月14日
    浏览(40)
  • 头歌:数据预处理之数据清洗

    本关任务:完成泰坦尼克号遇难数据的清洗。   案例背景 泰坦尼克号遭遇的灾难震惊世界,如何避免灾难甚至预测灾难呢? 要实现首先要做好泰坦尼克号的损失数据统计,才能为数据分析打下基础。 编程要求 根据提示,你需要完成: 缺失值填充 离群点检测

    2024年02月11日
    浏览(44)
  • Hadoop系统应用之MapReduce相关操作【IDEA版】---经典案例“倒排索引、数据去重、TopN”

      倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引

    2024年02月07日
    浏览(49)
  • Pandas实战100例 | 案例 3: 数据清洗 - 处理缺失值

    案例 3: 数据清洗 - 处理缺失值 知识点讲解 在现实世界的数据集中,经常会遇到缺失值。Pandas 提供了多种方法来处理这些缺失值,包括填充缺失值、删除含有缺失值的行或列。 示例代码 检测缺失值 填充缺失值

    2024年01月20日
    浏览(48)
  • 生态经济学领域里的R语言机器学(数据的收集与清洗、综合建模评价、数据的分析与可视化、数据的空间效应、因果推断等)

    近年来,人工智能领域已经取得突破性进展,对经济社会各个领域都产生了重大影响,结合了统计学、数据科学和计算机科学的机器学习是人工智能的主流方向之一,目前也在飞快的融入计量经济学研究。表面上机器学习通常使用大数据,而计量经济学则通常使用较小样本,

    2024年02月11日
    浏览(57)
  • 大数据MapReduce学习案例:数据去重

    数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选,数据去重指去除重复数据的操作。在大数据开发中,统计大数据集上的多种数据指标,这些复杂的任务数据都会涉及数据去重。 文件file1.txt本身包含重复数据,并且与file2.txt同样出现重复数据,现要求使用

    2024年02月07日
    浏览(68)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包