数据仓库—数据仓库的特征

这篇具有很好参考价值的文章主要介绍了数据仓库—数据仓库的特征。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据仓库的兴起正是源于企业日益增长的商业智能和决策分析需求。企业期望能够全面获取内外部的数据资源,洞见历史运营趋势,预测未来发展态势,从而制定前瞻性的经营策略。然而,分散的OLTP系统由于数据孤岛、格式不一致等问题,无法很好地满足这一需求。

因此,建立一个集成的、面向主题的、反映历史的企业级数据仓库就显得尤为重要。它可以将组织内外部的海量数据进行有效整合,为企业提供高质量的数据资源和强大的分析能力,支持商业智能、数据驱动决策等应用,助力企业的数字化转型和管理升级。

OLAP(在线分析处理)和OLTP(在线事务处理)

OLAP(在线分析处理)和OLTP(在线事务处理)是两种不同的数据处理系统,它们在设计目标、工作负载、数据模型等方面有着明显的区别:

OLTP(在线事务处理)系统:
  1. 目的: 支持日常业务运营,处理大量的基本事务查询和更新操作,如银行账户查询、购物订单等。
  2. 工作负载: 大量的短小事务,以插入、更新、删除为主。
  3. 数据模型: 基于高度规范化的关系模型,以避免数据冗余。
  4. 用户: 操作人员和终端用户。
  5. 数据视图: 支持细节性的、最新的数据视图。
  6. 性能要求: 快速事务响应和数据访问速度。
  7. 典型应用: 订单处理、银行账户管理、库存控制等。
OLAP(在线分析处理)系统:
  1. 目的: 支持决策分析,对整合的历史数据进行多维度分析。
  2. 工作负载: 复杂的分析查询,用于生成报表、数据挖掘等。
  3. 数据模型: 基于多维立方体模型,以支持多维分析。
  4. 用户: 分析人员、决策者。
  5. 数据视图: 支持从不同角度观察统计数据的聚合视图。
  6. 性能要求: 支持大量复杂查询和高吞吐量。
  7. 典型应用: 销售分析、财务分析、客户分析等商业智能应用。

数据仓库的特点

数据仓库与传统的操作数据库(OLTP)有着明显的区别,它具有以下几个主要特征

面向主题(Subject Oriented)

数据仓库按照特定的主题领域(如销售、财务、客户等)组织和存储数据,而不是按功能或应用程序分散存储。这种主题化的组织方式有利于进行跨系统、跨部门的数据分析和查询。

例如,在一家制造企业中,可以构建以"销售"、“生产”、"供应链"等为主题的数据模型,将原始运营数据按照主题域进行集成,支持各个业务主题上的分析需求。

集成的(Integrated)

数据仓库通过ETL(提取-转换-加载)过程,将来自于不同异构数据源系统的数据进行抽取、转换和集成,形成了统一的、一致的企业数据视图。它消除了分散系统中数据的不一致和冗余。

相对稳定的(Non-Volatile)

数据仓库中的数据是只读的,不会被更新、修改或删除。一旦数据加载进入数据仓库就变为静态和持久的了。新的数据会通过ETL过程不断导入,但原有数据保持不变。这确保了数据的完整性和一致性。

反映历史变化的(Time-Variant)

数据仓库不仅存储当前最新的数据快照,还包含了企业长期运营过程中积累的历史数据。这些历史数据反映了随着时间推移数据的变化情况,可用于分析过去的趋势、模式和异常。

为了满足长期保存和分析需求,数据仓库采用持久化的存储方式,如关系数据库、文件系统、数据湖等,而不是临时缓存。

总结

数据仓库的特征使得数据仓库成为面向分析决策的数据基础架构,与传统的面向交易处理的OLTP系统形成了明显区别和互补。数据仓库可以提供一个集中、一致、高质量的数据环境,满足企业的商业智能和分析需求。

总的来说,OLTP侧重于对详细操作数据的高效处理和持续更新,以满足日常业务运营需求;而OLAP则着眼于对集成的统计数据进行复杂分析,为企业决策提供支持。两者在设计理念和目标上存在着本质区别。

数据仓库正是为了支持OLAP分析而构建的一种专门的数据存储系统,它将OLTP系统的分散数据进行了主题化集成,为分析查询和数据挖掘提供了优化的环境。因此,数据仓库架构将OLTP和OLAP相分离,使它们各自发挥所长,相辅相成文章来源地址https://www.toymoban.com/news/detail-851123.html

到了这里,关于数据仓库—数据仓库的特征的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习基础 数据集、特征工程、特征预处理、特征选择 7.27

    无量纲化 1.标准化 2.归一化 信息数据化 1.特征二值化 2. Ont-hot编码 3.缺失数据补全 1.方差选择法 2.相关系数法

    2024年02月14日
    浏览(55)
  • 特征选择算法 | Matlab实现基于互信息特征选择算法的回归数据特征选择 MI

    效果一览 文章概述 特征选择算法 | Matlab实现基于互信息特征选择算法的回归数据特征选择 MI 部分源码

    2024年02月13日
    浏览(72)
  • 【python】数据挖掘分析清洗——特征选择(特征筛选)方法汇总

    本文链接:https://blog.csdn.net/weixin_47058355/article/details/130400400?spm=1001.2014.3001.5501 数据挖掘系列: 缺失值处理方法汇总 离散化方法汇总 离群点(异常值)处理方法汇总 标准化(数据归一化)处理方法汇总 特征选择(特征筛选)方法汇总 特征选择筛选(降维)方法汇总 分类预测方法汇

    2024年02月15日
    浏览(52)
  • 特征选择算法 | Matlab 基于最大互信息系数特征选择算法(MIC)的回归数据特征选择

    效果一览 文章概述 特征选择算法 | Matlab 基于最大互信息系数特征选择算法(MIC)的回归数据特征选择 部分源码

    2024年02月13日
    浏览(38)
  • 大数据的4v特征、数据预处理

    一、大数据的4v特征 大数据的4v特征主要包含规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value) 1、规模性(Volume) 大数据中的数据计量单位是PB(1千个T)、EB(1百万个T)或ZB(10亿个T)。 2、多样性(Variety) 多样性主要体现在数据来源多、数据类型多

    2024年02月07日
    浏览(59)
  • 数据挖掘(3)特征化

    从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。 DM的分类: 描述式DM:以简洁、概要的方式描述数据、提供数据的有趣

    2024年02月07日
    浏览(43)
  • 机器学习:数据处理与特征工程

    机器学习中的数据处理和特征工程是非常关键的步骤,它们直接影响模型的性能和泛化能力。以下是一些常见的数据处理和特征工程技术: 数据处理: 缺失值处理: 处理数据中的缺失值,可以选择删除缺失值、填充均值/中位数/众数,或使用插值方法。 异常值处理: 检测和

    2024年01月16日
    浏览(42)
  • 数据分析时,进行数据建模该如何筛选关键特征?

    1.为什么要做关键特征筛选? 在数据量与日俱增的时代,我们收集到的数据越来越多,能运用到数据分析挖掘的数据也逐渐丰富起来,但同时,我们也面临着如何从庞大的数据中筛选出与我们业务息息相关的数据。(大背景)从数据中挖掘潜在的规律,辅助我们在实际业务中

    2023年04月13日
    浏览(42)
  • 机器学习24:《数据准备和特征工程-II》收集数据

    构建数据集常用的步骤如下所示:   收集原始数据。 识别特征和标签来源。 选择抽样策略。 拆分数据。 这些步骤在很大程度上取决于你如何构建 ML 问题。本文主要介绍——数据收集-Collecting Data。 目录 1. 数据集的大小和质量 1.1 数据集的大小

    2024年02月12日
    浏览(45)
  • 脑电数据集提取微分熵特征(以SEED数据集为例)

    SEED数据集是常用的脑电信号情绪识别数据集,在该数据集的Preprocessed_EEG文件夹中是原始的脑电数据,在ExtractedFeatures文件夹中是官方提取特征后的数据(提取了多种特征可直接使用)。 既然官方已经把特征提取好了为什么还要自己做特征提取? 官方并没有开源提取特征的代码

    2023年04月09日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包