基于Hadoop的数据分析案例-陌陌聊天软件数据分析

这篇具有很好参考价值的文章主要介绍了基于Hadoop的数据分析案例-陌陌聊天软件数据分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言

一、使用的工具

二、操作步骤

1.数据来源

2.数据内容分析

 3.加载数据

 4.数据清洗ETL

 5.数据分析

8.数据可视化

前言

本文章是使用基于Hadoop的数据仓库Hive针对陌陌聊天软件进行数据分析并可视化。

一、使用的工具

  • Vmware Workstation Pro
  • Centos 7 64bit
  • FinalShell 3.9.2.2
  • DataGrip 2020.1 x64
  • Tableau 2021.1

二、操作步骤

1.数据来源

来自聊天系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储

数据获取链接:https://pan.baidu.com/s/1dq1YJE_drBtJBsjgXDqpsg 
提取码:wgls

2.数据内容分析

①数据大小:两个文件data1.tsv和data2.tsv,共14万条数据

②列分割符:'\t'

③字段名及数据类型(这里为了方便统一,一致使用varchar数据类型)

消息发送时间:varchar
发件人昵称:varchar
发件人账号:varchar
发件人性别:varchar
发件人IP:varchar
发件人系统:varchar
发件人手机型号:varchar
发件人网络类型:varchar
发件人GPS:varchar
收件人昵称:varchar
收件人IP:varchar
收件人账号:varchar
收件人系统:varchar
收件人手机型号:varchar
收件人性别:varchar
消息类型:varchar
相隔距离:varchar
消息内容:varchar

 3.加载数据

 ①创建数据库momo(这里使用DataGrip)

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

 ②创建表momo_data

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

 ③将两份数据data1.tsv和data2.tsv上传到HS2服务所在的本地文件系统(这里使用FinalShell,我的是在虚拟机node1的/root/hivedata/下)

 基于Hadoop的数据分析案例-陌陌聊天软件数据分析

④加载data1.tsv和data2.tsv数据到momo_data表上

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

 ⑤验证数据加载是否成功

查看momo_data表前10行数据是否正常

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

查看momo_data表的总行数(这里可能会耗费一点时间)

 基于Hadoop的数据分析案例-陌陌聊天软件数据分析

 4.数据清洗ETL

①检查发现发送人GPS一列存在数据缺失

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

②需要将消息发送时间进行日期和小时的拆分

③由于tableau需要经度纬度进行分析,需要对发送人GPS和接收人GPS进行拆分

④将数据清洗后的数据保存到新表中 

创建新表momo_etl_data并验证数据是否清洗成功

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

 5.数据分析

 ①统计今日(2021-11-01)消息量

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

②统计每小时消息量、发送和接收用户数

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

③统计今日各地区发送消息量

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

④统计发送消息最多次数的Top10用户

 基于Hadoop的数据分析案例-陌陌聊天软件数据分析

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

⑤统计接收消息最多次数的Top10用户

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

⑥统计发送人手机型号分布情况

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

⑦统计发送人操作系统分布情况

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

8.数据可视化

这里使用Tableau对以上数据表进行可视化,具体过程便不多赘述

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

总结

以上就是今天要讲的内容,本文仅仅简单介绍了数据分析的业务案例,具体的环境配置没有在这里说明,望大家自行配置。文章来源地址https://www.toymoban.com/news/detail-460566.html

到了这里,关于基于Hadoop的数据分析案例-陌陌聊天软件数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于hadoop豆瓣电影数据分析

    《 Hadoop大数据技术 》测试 试题 题    目:          基于hadoop豆瓣电影数据分析                 学生姓名:                               学    号:                               学    院:                               专业班级:          

    2024年02月02日
    浏览(62)
  • 基于Hadoop的豆瓣影视数据分析

           网络电影平台拥有大量的影片库资源,每天数千万用户活跃在平台上,拥有数亿人次的用户点击试看、收藏等行为。在影视作品方面,更是拥有数万的影视作品形成作品库,如此庞大的数据资源库对于电影及电视剧流行趋势的把握有着极为重要的指引作用。通过设计

    2024年02月01日
    浏览(48)
  • 大数据分析基于Hadoop全国天气可视化分析系统

    收藏关注不迷路,源码文章末   全国天气可视化分析系统主要功能模块包括系统首页、轮播图、公告消息、资源管理(天气资讯、资讯分类)系统用户(管理员、普通用户)模块管理(天气信息、降水数据),采取面对对象的开发模式进行软件的开发和硬体的架设,能很好

    2024年01月22日
    浏览(46)
  • 基于hadoop的气象数据可视化分析

    目 录 摘 要 I Abstract III 1绪论 1 1.1选题背景及意义 1 1.2研究现状及趋势 1 1.3研究主要内容 2 2相关技术简介 3 2.1开发工具 3 2.1.1 JDK1.7 3 2.1.2 eclipse luna 3 2.1.3 Hadoop 2.7.2 3 2.1.4 hbase 1.1.3 3 2.1.5 hive 1.2.1 3 2.1.6 zookeeper 3.4.8 4 2.1.7 mysql 5.5 4 2.1.8 swing 4 2.1.9 VMware Workstation 12 Pro 4 2.1.10其他辅助

    2024年02月02日
    浏览(35)
  • 基于Hadoop的电商数据分析系统设计与实现

    基于Hadoop的电商数据分析系统设计与实现 Design and Implementation of E-commerce Data Analysis System based on Hadoop 目录 2 摘要 3 3 第一章 绪论 4 1.1 研究背景 4 1.2 研究目的与意义 5 1.3 现有研究综述 6 第二章 Hadoop技术介绍 8 2.1 Hadoop概述 8 2.2 Hadoop生态系统 9 2.3 Hadoop数据处理模型 10 第

    2024年02月04日
    浏览(49)
  • 基于Hadoop的京东商城数据分析的研究与实现

    题目 基于 Hadoop 的京东商城数据分析的研究与实现 1. 课题研究立项依据 (1)课题来源 随着互联网信息技术的发展,企业商务模式也发生了翻天覆地的变化,很多传统企业都把目光投向了互联网电子商务。近年来,越来越多的电子商务平台的诞生,引起了电子商务业内的广泛

    2024年02月06日
    浏览(35)
  • 大数据设计基于Hadoop全国天气可视化分析系统

      全国天气可视化分析系统主要功能模块包括系统首页、轮播图、公告消息、资源管理(天气资讯、资讯分类)系统用户(管理员、普通用户)模块管理(天气信息、降水数据),采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善

    2024年04月14日
    浏览(42)
  • 数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.项目背景 2.项目简介 2.1分析目标 2.2数据集介绍 2.3技术工具 3.算法理论 4.实验过程

    2024年02月03日
    浏览(29)
  • Java大数据分析基于hadoop云旅游系统的设计与实现

    云旅游系统主要功能模块包括景点介绍、酒店信息、酒店民宿、特色餐饮、路线分享、云文物、景点排行、酒店排行、餐饮统计等,采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善了对应的软体架设以及程序编码的工作,系统采取

    2024年02月03日
    浏览(45)
  • 数据分析案例-基于亚马逊智能产品评论的探索性数据分析

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 一、实验背景 1.1背景概述 1.2实验目的 二、数据描述 2.1数据来源 2.2变量介绍 三、实验

    2024年02月22日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包