基于Hadoop和Hive的聊天数据(FineBI)可视化分析

这篇具有很好参考价值的文章主要介绍了基于Hadoop和Hive的聊天数据(FineBI)可视化分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

1. 准备工作

2. 新建数据库连接

3. 在Hive数据库中创建存放数据的表

4. ETL数据清洗

5. 指标

​6. 进入Fine BI数据中心


参考内容https://www.bilibili.com/read/cv15490959/

数据文件、jar包、插件

https://pan.baidu.com/s/1Mpquo0EgkyZtLHrCPIK2Qg?pwd=7w0k

1. 准备工作

在FineBI6.0\webapps\webroot\WEB-INF\lib下放置jar包

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

启动FineBI服务器

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

安装hive隔离插件

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

选择该文件

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

重启服务器

2. 新建数据库连接

在虚拟机后台启动metastore和hiveserver2服务(在hive目录下)

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

进入beeline客户端

--hive2://后可以是主机名--
!connect jdbc:hive2://192.168.224.112:10000

回车然后输入用户名,我的是root,再回车

密码根据自己的填(我没有),回车

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

如果不成功,就先配置虚拟机中/hadoop父文件夹/hadoop/etc/hadoop/core-site.xml文件

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

和/hive父文件夹/hive/conf/hive-site.xml文件

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

然后重启sh,后台挂起metastore,hiveserver2,启动beeline。

在Fine BI上新建hive数据库连接

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

数据库名称为自己在hive中创建的数据库,主机为虚拟机IP,端口10000,用户名root

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

3. 在Hive数据库中创建存放数据的表

创建dgy_30w表(myhive为我自己的数据库),操作在hive和beeline中都可以

create table myhive.dgy_30w (
    msg_time string comment "消息发送时间",
    sender_name string comment "发送人昵称",
    sender_account string comment "发送人账号",
    sender_sex string comment "发送人性别",
    sender_ip string comment "发送人ip地址",
    sender_os string comment "发送人操作系统",
    sender_phonetype string comment "发送人手机型号",
    sender_network string comment "发送人网络类型",
    sender_gps string comment "发送人的GPS定位",
    receiver_name string comment "接收人呢称",
    receiver_ip string comment "接收人IP",
    receiver_account string comment "接收人账号",
    receiver_os string comment "接收人操作系统",
    receiver_phonetype string comment"接收人手机型号",
    receiver_network string comment "接收人网络类型",
    receiver_gps string comment"接收人的GPS定位",
    receiver_sex string comment"接收人性别",
    msg_type string comment"消息类型",
    distance string comment"双方距离",
    message string comment"消息内容"
    );

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

上传数据

方法一:

通过Xshell的Xftp把csv文件上传到虚拟机opt目录下

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

把csv文件数据上传到dgy_30w表中

LOAD DATA LOCAL INPATH '/opt/chat_data-30W.csv' OVERWRITE INTO TABLE dgy_30w;

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

方法二:

HDFS数据加载

   将csv文件上传到hdfs /data下

hdfs dfs -put /opt/chat_data-30W.csv /data

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

在终端beeline中输入load data inpath '/data/chat_data-30W.csv' into table dgy_30w;

LOAD DATA INPATH '/data/chat_data-30W.csv' OVERWRITE INTO TABLE dgy_30w;

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

导入成功。

4. ETL数据清洗

建立dgy_30w_etl表

create table myhive.dgy_30w_etl (
    msg_time string comment "消息发送时间",
    sender_name string comment "发送人昵称",
    sender_account string comment "发送人账号",
    sender_sex string comment "发送人性别",
    sender_ip string comment "发送人ip地址",
    sender_os string comment "发送人操作系统",
    sender_phonetype string comment "发送人手机型号",
    sender_network string comment "发送人网络类型",
    sender_gps string comment "发送人的GPS定位",
    receiver_name string comment "接收人呢称",
    receiver_ip string comment "接收人IP",
    receiver_account string comment "接收人账号",
    receiver_os string comment "接收人操作系统",
    receiver_phonetype string comment"接收人手机型号",
    receiver_network string comment "接收人网络类型",
    receiver_gps string comment"接收人的GPS定位",
    receiver_sex string comment"接收人性别",
    msg_type string comment"消息类型",
    distance string comment"双方距离",
    message string comment"消息内容",
    msg_day string comment"消息日期(日)",
    msg_hour string comment"消息时间(小时)",
    sender_lng double comment"经度",
    sender_lat double comment"纬度"
    );

开始清洗

INSERT OVERWRITE TABLE myhive.dgy_30w_etl
SELECT *,
to_date(msg_time) As msg_day,
HOUR(msg_time) As msg_hour,
SPLIT(sender_gps,',')[0] As sender_lng,
SPLIT(sender_gps,',')[1] As sender_lat
FROM myhive. dgy_30w
WHERE LENGTH(sender_gps)>0;

运行成功,查询

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

5. 指标

统计今日消息总量

CREATE TABLE IF NOT EXISTS myhive.tb_rs_total_msg_cnt 
COMMENT"每日消息总量" AS
SELECT msg_day,COUNT(*) AS total_msg_cnt
FROM myhive.dgy_30w_etl
GROUP BY msg_day;

统计每小时消息量、发送和接收用户数

CREATE TABLE IF NOT EXISTS myhive.tb_rs_hour_msg_cnt 
COMMENT"每小时消息量趋势" AS
SELECT msg_hour,
COUNT(*)AS total_msg_cnt,
COUNT(DISTINCT sender_account)AS sender_user_cnt,
COUNT(DISTINCT receiver_account)AS receiver_user_cnt
FROM myhive.dgy_30w_etl GROUP BY msg_hour;

统计今日各地区发送消息总量

CREATE TABLE IF NOT EXISTS myhive.tb_rs_loc_cnt
COMMENT"今日各地区发送消息总量"AS
SELECT
msg_day,sender_lng,sender_lat,sender_gps,
COUNT(*)AS total_msg_cnt FROM myhive.dgy_30w_etl 
GROUP BY msg_day,sender_lng,sender_lat,sender_gps;

统计今日发送和接收用户人数

CREATE TABLE IF NOT EXISTS myhive.tb_rs_user_cnt
COMMENT"今日发送消息人数、接收消息人数"AS
SELECT msg_day,
COUNT(DISTINCT sender_account)AS sender_user_cnt,
COUNT(DISTINCT receiver_account)AS receiver_user_cnt 
FROM myhive.dgy_30w_etl
GROUP BY msg_day;

统计发送消息条数最多的Top10用户

CREATE TABLE IF NOT EXISTS myhive.tb_rs_s_user_top10
COMMENT"发送消息条数最多的Top10用户"AS 
SELECT sender_name AS username,
COUNT(*)AS sender_msg_cnt 
FROM myhive.dgy_30w_etl
GROUP BY sender_name
ORDER BY sender_msg_cnt DESC
LIMIT 10;

统计接收消息条数最多的Top10用户

CREATE TABLE IF NOT EXISTS myhive.tb_rs_r_user_top10 
COMMENT"接收消息条数最多的Top10用户" AS 
SELECT receiver_name AS username,
COUNT(*)AS receiver_msg_cnt
FROM myhive.dgy_30w_etl
GROUP BY receiver_name
ORDER BY receiver_msg_cnt DESC
LIMIT 10;

统计发送人的手机型号分布情况

CREATE TABLE IF NOT EXISTS myhive.tb_rs_sender_phone 
COMMENT"发送人的手机型号分布"AS
SELECT sender_phonetype,
COUNT(sender_account)AS cnt 
FROM myhive.dgy_30w_etl
GROUP BY sender_phonetype;

统计发送人的手机操作系统分布

CREATE TABLE IF NOT EXISTS myhive.tb_rs_sender_os
COMMENT"发送人的手机操作系统分布"AS
SELECT sender_os,
COUNT(sender_account)AS cnt
FROM myhive.dgy_30w_etl
GROUP BY sender_os;

进入myhive数据库,查看创建的十个表

use myhive;

show tables;

6. 进入Fine BI数据中心

启动服务器

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

进入FineBI

新建数据集,把数据库表导入FinBI中

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

更新数据

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

新建分析主题

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

选择数据表

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

底栏选择组件,对相应表选择合适的图表,添加仪表板

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql

在组件中给每个表选择合适的图例,适当调整样式

最终展示

基于Hadoop和Hive的聊天数据(FineBI)可视化分析,hadoop,hive,finebi,大数据,etl工程师,database,sql文章来源地址https://www.toymoban.com/news/detail-854122.html

到了这里,关于基于Hadoop和Hive的聊天数据(FineBI)可视化分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【Spark+Hadoop+Hive+MySQL+Presto+SpringBoot+Echarts】基于大数据技术的用户日志数据分析及可视化平台搭建项目

    【Spark+Hadoop+Hive+MySQL+Presto+SpringBoot+Echarts】基于大数据技术的用户日志数据分析及可视化平台搭建项目

    点我获取项目数据集及代码 随着我国科学技术水平的不断发展,计算机网络技术的广泛应用,我国已经步入了大数据时代。在大数据背景下,各种繁杂的数据层出不穷,一时难以掌握其基本特征及一般规律,这也给企业的运营数据分析工作增添了不小的难度。在大数据的背景

    2024年02月10日
    浏览(11)
  • Hadoop+hive+flask+echarts大数据可视化之系统数据收集

    Hadoop+hive+flask+echarts大数据可视化之系统数据收集

           谈到大数据的项目,一般以数据可视化为主体,收集大数据中的有用信息,存储到分布式存储系统hadoop中,由hive导入hadoop中存储的数据,使用HQL语句对数据进行分析,hive底层会将HQL语句转化成mapreduce程序,flask作为python语言的后台技术,可以连接hive将HQL语句的分析结

    2023年04月13日
    浏览(16)
  • 【数据仓库】FineBI数据可视化使用体验

    【数据仓库】FineBI数据可视化使用体验

            FineBI是新一代自助式BI工具,企业客户多,服务范围广.凭借finebi简单流畅的操作,强劲的大数据性能和自助式的分析体验。 1,对个人用户来说, 免费的无限期试用,解锁所有功能,除了限制两个并发访问,个人用户可以尽情的学习调试啦,解锁数据分析的乐趣! 2,

    2024年02月15日
    浏览(8)
  • 基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(五)FineBI可视化

    基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(五)FineBI可视化

    目标 : 实现FineBI访问MySQL结果数据集的配置 实施 安装FineBI 参考《FineBI Windows版本安装手册.docx》安装FineBI 配置连接 数据准备 小结 实现FineBI访问MySQL结果数据集的配置 目标 : 实现FineBI实时报表构建 路径 step1:实时报表构建 step2:实时报表配置 step3:实时刷新测试 实施 实

    2024年02月04日
    浏览(19)
  • 万字解读 | 数据可视化平台--FineBI

    万字解读 | 数据可视化平台--FineBI

    什么是BI 学习目标 知道什么是BI 知道FineBI的优势 1. 商业智能: BI(Business Intelligence)是指通过收集、分析和解释企业内外部数据,为企业决策提供支持和指导的一种技术和工具。商业智能的目标是帮助企业管理者和决策者更好地理解企业的运营状况、市场趋势和竞争环境,从

    2024年02月16日
    浏览(10)
  • 以超市数据微案例-fineBI可视化分析

    以超市数据微案例-fineBI可视化分析

    一、入门案例: 2.分析思路: 数据清晰界面中添加毛利额计算 **所以在新增步骤之后,必须点击保存并更新,否则可视化界面中无法使用最新的数据 4、数据可视化分析 1)销售额最高的十大商品种类 为1-8月超市数据,商品名称--添加过滤条件 2)不同类别产品的销售额占比

    2024年01月19日
    浏览(19)
  • 基于hadoop的气象数据可视化分析

    基于hadoop的气象数据可视化分析

    目 录 摘 要 I Abstract III 1绪论 1 1.1选题背景及意义 1 1.2研究现状及趋势 1 1.3研究主要内容 2 2相关技术简介 3 2.1开发工具 3 2.1.1 JDK1.7 3 2.1.2 eclipse luna 3 2.1.3 Hadoop 2.7.2 3 2.1.4 hbase 1.1.3 3 2.1.5 hive 1.2.1 3 2.1.6 zookeeper 3.4.8 4 2.1.7 mysql 5.5 4 2.1.8 swing 4 2.1.9 VMware Workstation 12 Pro 4 2.1.10其他辅助

    2024年02月02日
    浏览(38)
  • 大数据毕业设计Flink+Hadoop+Hive地铁客流量可视化 地铁客流量预测 交通大数据 地铁客流量大数据 交通可视化 机器学习 深度学习 人工智能 知识图谱 数据可视化 计算机毕业设计

    大数据毕业设计Flink+Hadoop+Hive地铁客流量可视化 地铁客流量预测 交通大数据 地铁客流量大数据 交通可视化 机器学习 深度学习 人工智能 知识图谱 数据可视化 计算机毕业设计

    河北传媒学院 本科 毕业 论文开题报告 专业 小四号宋体 班级 小四号宋体 姓名 小四号宋体 学号 小四号宋体 指导教师 小四号宋体 题目 基于hadoop+spark的深圳市地铁运营的分析与可视化 (1.内容包括:课题的来源及意义,国内外发展状况,本课题的研究目标、内容、方法、手

    2024年03月19日
    浏览(15)
  • 大数据设计基于Hadoop全国天气可视化分析系统

    大数据设计基于Hadoop全国天气可视化分析系统

      全国天气可视化分析系统主要功能模块包括系统首页、轮播图、公告消息、资源管理(天气资讯、资讯分类)系统用户(管理员、普通用户)模块管理(天气信息、降水数据),采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善

    2024年04月14日
    浏览(13)
  • 大数据分析基于Hadoop全国天气可视化分析系统

    大数据分析基于Hadoop全国天气可视化分析系统

    收藏关注不迷路,源码文章末   全国天气可视化分析系统主要功能模块包括系统首页、轮播图、公告消息、资源管理(天气资讯、资讯分类)系统用户(管理员、普通用户)模块管理(天气信息、降水数据),采取面对对象的开发模式进行软件的开发和硬体的架设,能很好

    2024年01月22日
    浏览(11)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包