数仓用户行为数据分析

这篇具有很好参考价值的文章主要介绍了数仓用户行为数据分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分层优点:复杂的东西可以简单化、解耦(屏蔽层作用)、提高复用、方便管理

SA 贴源  数据组织结构与源系统保持一致

shm 历史层  针对不同特征的数据做不同算法,目的都是为了得到一份完整的数据

PDM 明细层 做最细粒度的数据明细,最高扩展性和灵活性,企业级的数据标准,源系统之间的打通

BDM 业务层 针对集市经常放在一起用到的数据做提前预处理,做维度的横向拆合,来源的纵向拆合,形成业务大宽表

基础层  针对集市主题做定制化整合,部门级的数据标准

集市层  基础层和关系层基础上加工出基础原子指标

汇总层  集市层的原子指标基础上增加业务限定、统计周期、统计粒度计算出来的派生指标

报表、指标层  基础指标或派生指标的逻辑计算加工而成

埋点行为数据组成

公共字段

业务字段:埋点上报的字段

事件

"et": [ //事件 { "ett": "1506047605364", //客户端事件产生时间 "en": "display", //事件名称 启动和事件日志是根据事件名称的不同 "kv": { //事件结果,以 key-value 形式自行定义 "goodsid": "236", "action": "1", "extend1": "1", "place": "2", "category": "75" } } ]

项目经验总结

1.shell 中单引号和双引号的区别? ''不转义变量  “”转义变量

反引号 `执行引号中命令

2.tez优点:

可以将多个有依赖的作业(任务)组合成一个完整的DAG作业,只需一次读写HDFS,效率更高。

3.ods层:

启动日志表:只有一个字段line保存json

事件日志表:只有一个字段,按dt分区

4.自定义UDF,可以自己埋点打印日志,方便调试。

函数定义


public Text evaluate(Text input, int startIndex, int length) {
    // 在函数开始处打印日志
    System.out.println("Executing SubstringUDF...");
    
    // 打印输入参数
    System.out.println("Input: " + input.toString());
    System.out.println("Start index: " + startIndex);
    System.out.println("Length: " + length);
    
    // 执行子字符串操作
    String result = input.toString().substring(startIndex, startIndex + length);
    
    // 在函数结束处打印日志
    System.out.println("Substring: " + result);
    System.out.println("SubstringUDF execution completed.");
    
    // 返回结果
    return new Text(result);
}

打成jar包并注册

$ javac -cp /path/to/hive/lib/hive-exec-x.x.x.jar SubstringUDF.java
$ jar -cvf substringudf.jar SubstringUDF.class
$ hive
hive> ADD JAR /path/to/substringudf.jar;

使用

-- 创建测试表
CREATE TABLE employees (
  name STRING,
  salary INT
);

-- 插入测试数据
INSERT INTO employees VALUES
  ('John Doe', 5000),
  ('Jane Smith', 6000),
  ('Michael Johnson', 7000);

-- 使用自定义 UDF 函数获取员工姓名的子字符串
SELECT name, substring_udf(name, 1, 4) AS substring_name FROM employees;

输出结果文章来源地址https://www.toymoban.com/news/detail-476169.html

Executing SubstringUDF...
Input: John Doe
Start index: 1
Length: 4
Substring: John
SubstringUDF execution completed.

到了这里,关于数仓用户行为数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python大数据-对淘宝用户的行为数据分析

    import pandas as pd import numpy as np import matplotlib.pyplot as plt import os data.shape[0] 总流量为12256906,在计算一下 日平均流量、日平均独立访客数 ##日PV pv_daily = data.groupby([‘date’])[‘user_id’].count().reset_index().rename(columns={‘user_id’:‘pv_daily’}) pv_daily.head() 日平均独立访客数与日平均流

    2024年04月25日
    浏览(54)
  • 【产品运营】如何通过数据分析掌握用户行为?

    对于运营来说,需要掌握用户行为来制定不同的运营策略。而用户行为是通过数据分析得出的,那么,具体的数据分析是哪些数据,不同的数据又有什么区别? 快速了解一款APP。 行业趋势,市场空间。 APP的生存现状,所处阶段,遇到的问题。 产品迭代,发现新的增长引擎方

    2024年02月11日
    浏览(38)
  • 社交媒体数据分析:解读Facebook用户行为

    在当今数字化时代,社交媒体已经成为人们生活不可或缺的一部分,而Facebook作为这个领域的巨头,承载了数十亿用户的社交活动。这庞大的用户群体产生了海量的数据,通过深度数据分析,我们能够深入解读用户行为,从而更好地满足用户需求、提升用户体验,同时为平台

    2024年01月21日
    浏览(37)
  • 【数据分析项目实战】篇1:游戏数据分析——新增、付费和用户行为评估

    目录 0 结论 1 背景介绍 1.1 游戏介绍 1.2 数据集介绍 2 分析思路 3 新增用户分析 3.1 新增用户数: 3.2 每日新增用户数: 3.3 分析 4 活跃度分析 4.1 用户平均在线时长 4.2 付费用户平均在线时长 4.3 日活跃用户(日平均在线时长10min)数及占比 4.4 分析与建议 5 游戏行为分析 5.1 对比

    2023年04月08日
    浏览(83)
  • 广电用户画像分析之根据用户行为数据进行筛选与标签添加

    在数据处理和分析领域,我们经常需要根据用户的行为数据进行筛选和标签添加,以便更好地理解用户行为和偏好。在本篇博客中,我们将介绍两个示例,展示如何根据用户的收视行为数据和订单信息进行数据处理和分析。 数据集分析: 广电用户画像分析之探索各个表中的

    2024年02月11日
    浏览(32)
  • 大数据课程综合实验案例:网站用户行为分析

    大数据课程实验案例:网站用户行为分析,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Ec

    2024年02月06日
    浏览(94)
  • 天池赛:淘宝用户购物行为数据可视化分析

    目录 前言 一、赛题介绍 二、数据清洗、特征构建、特征可视化 1.数据缺失值及重复值处理 2.日期分离,PV及UV构建 3.PV及UV可视化 4.用户行为可视化 4.1 各个行为的面积图(以UV为例) 4.2 各个行为的热力图 5.转化率可视化 三、RFM模型 1.构建R、F、M 2.RFM的数据统计分布 3.计算

    2024年01月22日
    浏览(34)
  • 大数据期末课程设计实验案例:网站用户行为分析

    大数据课程实验案例:网站用户行为分析 案例目的 1.熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用; 2.了解大数据处理的基本流程; 3.熟悉数据预处理方法; 4.熟悉在不同类型数据库之间进行数据相互导入导出; 5.熟悉使用R语言进行可视化

    2024年02月05日
    浏览(33)
  • 大数据毕设项目 - 大数据电商用户行为分析 -python 大数据

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年03月17日
    浏览(39)
  • 【Hive+MySQL+Python】淘宝用户购物行为数据分析项目

    user_data.csv是一份用户行为数据,时间区间为2017-11-25到2017-12-03,总计29132493条记录,大小为1.0G,包含5个字段。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下: 用户行为类型共

    2024年02月07日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包