大数据学习(七)一分钟了解数据建模

这篇具有很好参考价值的文章主要介绍了大数据学习(七)一分钟了解数据建模。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

何为大数据建模,我们从3个W(什么、为什么、如何)出发来详解下大数据建模。

一、什么是数据建模(what)

数据建模指的是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。(个人认为,数据建模就是将现实数据关系、类别按照一套完整的方法论有映射到数据仓库里,将数据有序的、结构化存储在数据仓库里面)

二、为什么要进行数据建模(why)

性能:我们可以更快地查询到想要的数据,减少数据的I/O吞吐

成本:减少数据冗余,减低数据存储成本

效率:用户可以快速查询到想要的数据,提高效率

质量:口径变得统一。

三、如何进行数据建模(how)

1.ER建模

将事务抽象为"实体"(Entity)、"属性"(Property)、"关系"(Relationship)来表示数据关联和事物描述。

ER实例:

一个学生可选修多门课,一门课有若干学生选修;
一个教师可讲授多门课,一门课只有一个教师讲授;
一个学生选修一门课,仅有一个成绩。

大数据学习(七)一分钟了解数据建模

2.维度建模

维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。

这么说可能比较抽象,我们可以从三方面来了解维度建模

一、维度建模的基本元素

a.事实表

事实表中的每一行数据都代表一个真实的业务事件,比如下单、支付等

b.维表

对事实的一些描述,比如时间、城市等

场景:现在有负责某华东片区手机销售的业务领导,希望可以看下销售情况。

1.按照城市维度,华东片区下面每个城市的总销售额

2.按照城市+业务员,看华东片区下面的每个城市每个业务员的总销售额

3.按照城市+业务员+时间,对比当月和上月华东片区下面的每个城市每个业务员的总销售额和进行环比。

也就是说 可以通过不同的维度组合来分析事实。

二、维度建模常见模型

a.星座模型

b.雪花模型 

c.星型模型

三、维度建模基本步骤

a.选择业务过程

b.声明粒度

c.确认维度

d.确认事实文章来源地址https://www.toymoban.com/news/detail-473626.html

到了这里,关于大数据学习(七)一分钟了解数据建模的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 20分钟了解物联网开源数据库部署解决方案

    本文针对物联网数据存储提供解决方案的思路,项目特点:结构化数据、传感器节点多(100)、传感器类型多(30)、采样频率高(1HZ),在此背景下,一般的关系型数据库已经不能够支撑数据存储,基于免费开源的软件完成数据存储工作,提高数据的读写能力。 1)多源异构

    2023年04月11日
    浏览(43)
  • 1分钟了解音频、语音数据和自然语言处理的关系

    音频、语音数据和自然语言处理这三者正在不断促进人工智能技术的发展,人机交互也逐渐渗透进生活的每个角落。在各行各业包括零售业、银行、食品配送服务商)的多样互动中,我们都能通过与某种形式的AI(如聊天机器人或虚拟助手)沟通来实现某些交易活动。语言是

    2024年02月09日
    浏览(51)
  • 11.初始JavaScript[初步了解何为js]

    大家好,我是晓星航。今天为大家带来的是 JavaScript的简单介绍 相关的讲解!😀 JavaScript (简称 JS) 是世界上最流行的编程语言之一 是一个脚本语言, 通过解释器运行 主要在客户端(浏览器)上运行, 现在也可以基于 node.js 在服务器端运行. JavaScript 最初只是为了完成简单的表单验

    2024年02月08日
    浏览(49)
  • 大数据学习之Flink,10分钟带你初步了解Flink

    目录 前摘 一、认识Flink的Logo​编辑 二、了解Flink的起源 三、了解Flink的发展 四、明白Flink的定位 五、Flink主要的应用场景 六、流式数据处理的发展和演变 1. 流处理和批处理 2. 传统事务处理 2.1传统事务处理架构​编辑 3. 有状态的流处理 4. Lambda 架构 5. 新一代流处理器 七、

    2024年02月20日
    浏览(47)
  • 大数据学习之Flink、10分钟了解Flink的核心组件以及它们的工作原理

     第一章、Flink的容错机制 第二章、Flink核心组件和工作原理 第三章、Flink的恢复策略 第四章、Flink容错机制的注意事项 第五章、Flink的容错机制与其他框架的容错机制相比较 目录 第二章、Flink核心组件和工作原理 Ⅰ、核心组件 1. Checkpoint组件: 2. Savepoint组件: 3. Barrier组件

    2024年01月23日
    浏览(41)
  • (LLM) 的所有知识;10分钟了解向量数据库;微软 Bing 可以识别图片了;

    🦉 AI新闻 🚀 微软 Bing 可以识图」了,吊打 GPT-4? 摘要 :微软 Bing 最新识图功能让用户可以上传图片并进行编程、做题、看病等操作,还能分析梗图笑点。然而在某些情况下表现不佳,例如无法数清图片中的图案数量,或是犯错解释棋盘。综合来看,Bing 的图像识别能力十

    2024年02月09日
    浏览(36)
  • Flink CDC 2.4 正式发布,5分钟了解CDC 2.4新内容,新增 Vitess 数据源,更多连接器支持增量快照,升级 Debezium 版本

    来源:https://ververica.github.io/flink-cdc-connectors/master/ Flink CDC [1] 是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。 具体关于Flink CDC是什么?可以看下这篇文字 作

    2024年02月12日
    浏览(48)
  • 一分钟了解自动化测试

    目前自动化测试并不属于新鲜的事物,或者说自动化测试的各种方法论已经层出不穷,但是,能够明白自动化测试并很好落地实施的团队还不是非常多,我们接来下用通俗的方式来介绍自动化测试…… 首先我们从招聘岗位需求说起。看近期的职业机会,提到“软件测试工程师

    2024年02月08日
    浏览(39)
  • 25分钟了解php?php基础

    🏆今日学习目标: 🍀学习php基础 ✅创作者:贤鱼 ⏰预计时间:35分钟 🎉个人主页:贤鱼的个人主页 🔥专栏系列:网络安全 🍁贤鱼的个人社区,欢迎你的加入 贤鱼摆烂团 这里用vscode举例 调出cmd 在终端输入php 名字+tab(tab自动补全名字) 记得要进入目标目录下 在php文件中

    2024年01月18日
    浏览(40)
  • python机器学习数据建模与分析——数据预测与预测建模

    数据预测,简而言之就是基于已有数据集,归纳出输入变量和输出变量之间的数量关系。基于这种数量关系: 一方面,可发现对输出变量产生重要影响的输入变量; 另一方面,在数量关系具有普适性和未来不变的假设下,可用于对新数据输出变量取值的预测。 对数值型输出变

    2024年02月04日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包