数据仓库——环境

这篇具有很好参考价值的文章主要介绍了数据仓库——环境。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据仓库环境

数据仓库的特性

数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。

面向主题性

主题(Subject):在较高层次上将企业信息系统中数据进行综合、归类分析利用。属于一个抽象概念,每一个主题基本对应一个宏观分析领域。主题(Subject)是对应企业中某一宏观分析领域所涉及的分析对象。
DSS系统是围绕与某个领域有关的数据集合而组织的。
面向主题的好处

  1. 更好地支持和分析数据。
  2. 数据可以整合和抽象。
  3. 提高数据的可复用性。
面向主题的实现

在数据仓库中,每一个主要主题域都是以一组相关的表来具体实现的。

  • 数据表在同一主题域由一个公共关键字联系起来。
  • 数据仓库中的主题域可能包含在不同介质上。
  • 数据仓库中的每一个表都有时间元素作为关键字结构的一部分。

集成性

数据从多个不同的数据源传送进来,进入数据仓库必须进行转换、重新排列以及汇总等操作。存在于数据仓库的数据,必须具有企业的单一物理映像。
集成性的好处

  1. 实现部门间,系统间的协作。
  2. 节省DSS分析员时间和精力。
  3. 提高数据的一致性和准确性
  4. 提升数据发掘与分析的效果。

非易失性

数据仓库中并不进行(一般意义上的)数据更新,数据仓库在进行装载时是以静态快照的格式进行的。

随时间变化

数据仓库中每个数据单元只是在某一时间是准确的。任何情况下记录都包含时间标志用以说明数据在那一时间是准确的。数据仓库的关键字结构总是包含时间元素。
时变性的表现

  1. 数据仓库随时间变化不断增加新的数据内容。
  2. 数据仓库随时间变化不断删去旧的数据内容。
  3. 数据仓库中包含有大量的综合数据。这些综合数据中很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。

第1天到第N天的现象

数据仓库只能一步一步地进行设计并载入数据,即它是进化性的,而非革命性的。爆炸式开发方法只会带来灾难性的后果。

粒度

细节程度越高,粒度级就越低。细节程度越低,粒度集就越高。
粒度会深刻影响存放在数据仓库中的数据量的大小及数据仓库所能回答的查询类型。

粒度级别低

  • 可以从不同角度观察数据
  • 灵活
  • 数据仓库中包含了整个企业活动的事件和历史

粒度级别高

  • 表示数据效率远高于低粒度级别。
  • 需要的索引项更少,数据占用空间的大小较小。
  • 不利于数据压缩。

设置粒度时需要注意的问题

  • 数据仓库中粒度变高时,数据所能回答查询的能力就会随之降低。
  • 因为每个实体都会有特殊要求,确定体系结构中的哪些实体需要从数据仓库获取粒度。

双重粒度

双重粒度是降低数据量的最佳方法。低细节级和高细节级。要知道:在很低的细节级上建立轻度汇总数据是没有意义的。反过来,在太高的细节级建立汇总数据也是没有用的。所以,一定要进行数据粒度的评估,然后才能得出最佳的汇总方案。

  • 轻度综合数据库中的数据量要比细节数据库中的数据量少得多。
  • 大部分DSS处理是针对被压缩的、存取效率高的轻度综合数据进行的。

活样本数据库

当数据仓库中的数据量增长到非常大时,采用抽样取得真实档案数据或轻度综合数据的一个子集,且这个数据库需要进行周期刷新。

分区设计

把数据分散到可独立处理的分离物理单元中。

  • 数据装载
  • 数据访问
  • 数据存档
  • 数据删除
  • 数据监控
  • 数据存储

数据分区要点

  • 数据分区标准完全由开发人员来决定
  • 注意在应用层上数据进行分区更有意义,并且转移数据到其他设备不会带来问题。

数据仓库中的数据组织

  • 简单堆积结构:将所有同类型的数据进行合并。以逐个记录为基础堆积。
  • 轮转综合数据存储:将由近期到远期的数据由天、周、月、年进行汇总处理,一些细节数据丢失,提取越久的数据越不详细。
  • 简单直接文件:数据仅仅是从操作型环境被拖入数据仓库环境。并不是在每天基础上组织的,而是较长时间生成的快照。
  • 连续文件:依据两个或者更多的简单直接文件生成的文件。
  • 等等、、

审计与数据仓库

在数据仓库中审计是可能的,但是审计带来的复杂性使得审计在其他地方进行更有意义。

数据仓库中的同构和异构

  1. 数据仓库中的数据是异构的。
  2. 数据仓库中的数据按照主题域,表,数据在表中的出现。

数据仓库中的数据清理

数据并非永久地注入数据仓库
数据清理或数据细节转换主要方式:

  • 数据加入到数据原有细节的轮转综合文件中
  • 数据从高性能介质转移到大容量介质上
  • 数据从系统中被真正清除
  • 数据从体系结构的一个层次转移到另一个层次

操作型窗口

在操作环境中的档案数据的时间范围称为数据的操作型窗口

操作型 分析型
数据量小 数据量大
数据访问频繁 数据访问较不频繁
访问数据较为新鲜 任何数据都可能被访问

操作型窗口长度对DSS分析员非常重要,它决定可分析员在哪里进行不同的分析和能做什么类型的分析文章来源地址https://www.toymoban.com/news/detail-843264.html

处理错误数据的方式

找到错误数据,进行更新

  • 干净彻底
  • 数据集成被破坏,更新条目所聚合生成的报表失去一致性
  • 更新必须在数据仓库环境进行
  • 许多时候不止修正一条,而是很多

加入修正条目

  • 最新数据的最好反映
  • 可能要修正很多条目,而非一个
  • 有时候修正公式非常复杂,以至于根本不可能进行调整

重设数据值为正常值,不考虑以前值

  • 方便快捷
  • 需要对应用与过程进行约定
  • 不能对过去的错误进行准确的解释

到了这里,关于数据仓库——环境的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 49个过程背诵方法

    五大过程组:启规执监收  需要死记住,五个比较好记按照顺序启动规划执行监控结束   十大过程:整范进,成质源,疯(风)狗(沟)踩(采)人  过程数量: 7  6  6    4   3 6     7            3             3           4 记住每个过程有几个过程,方便记不住的

    2024年02月08日
    浏览(31)
  • 408需要背诵的知识点

    2023年07月24日
    浏览(45)
  • 60道KafKa高频题整理(附答案背诵版)

    废话不多说,直接上干货 简述什么是 Kafka 的 Topic ? Kafka 的 Topic 是一个存储消息的逻辑概念,可以认为是一个消息集合。每条消息发送到 Kafka 集群的消息都有一个类别,这个类别就是 Topic。物理上来说,不同的 Topic 的消息是分开存储的,每个 Topic 可以有多个生产者向它发

    2024年01月16日
    浏览(32)
  • 42道JavaWeb高频题整理(附答案背诵版)

    1、说一说Servlet的生命周期? Servlet的生命周期主要由以下三个阶段组成:初始化,服务和销毁。 初始化(Initialization): 当一个Servlet被载入到内存中时(例如,第一次访问或者服务器启动并且在web.xml中配置了load-on-startup),Servlet容器(例如Tomcat)就会调用Servlet的 init() 方法进

    2024年04月23日
    浏览(31)
  • 曲阜师范大学831学姐高分背诵笔记(完整版)

    1、 微格教学★★★★(18 名词解释) 答:微格教学称为“微型教学”,也称为“小型教学”。所谓“微格教学”,就是将复杂的教学过程分解成许多容易掌握的具体的单一的技能,如“导读技能\\\"、“讲授技能”、“ 提问技能”等。“微格教学”的一个重要的特征是运用录像设

    2024年02月02日
    浏览(40)
  • 30道C++ 基础高频题整理(附答案背诵版)

    1. C和C++有什么区别? C++是C语言的超集( 我看网上很多文章说这是不对的 ),这意味着几乎所有的C程序都可以在C++编译器中编译和运行。然而,C++引入了许多新的概念和特性,使得两种语言在一些关键点上有显著的区别。 以下是C和C++的一些主要区别: 面向对象编程 :C+

    2024年04月15日
    浏览(85)
  • 利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库(一)云上云下数据同步方案设计

    在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器

    2024年04月25日
    浏览(40)
  • 【王道考研】计算机网络 第一章 B 可提供背诵

    上一章我们讲了计算机网络的概述即概念,组成,功能,分类,标准化工作相关组织,和性能指标,接下来就是我们第一章的最后一块部分,体系机构参考模型,这里会讲到分层结构,协议,接口,服务,还有我们最重要的两种模型,ISO/OSI和TCP/IP模型,让我们接着往下看 文

    2024年02月08日
    浏览(53)
  • 【考研数学】数学“背诵”手册 | 需要记忆且容易遗忘的知识点

    复习到后期,去做到前面内容的题目时,有一些需要记忆的结论就比较模糊,比如微分方程的特解形式、施密特正交、各种分布的概率密度等等。我便把这些模糊的点都记录下来了,整理在一起,方便随时查阅 基本形式: f ( x ) = ∑ n = 0 ∞ f ( n ) ( x 0 ) n ! ( x − x 0 ) n . f(x)=

    2024年02月08日
    浏览(44)
  • 推理还是背诵?通过反事实任务探索语言模型的能力和局限性

    最近,语言模型在各种任务中展现出的令人印象深刻的性能表现,表明它们具备一定程度的抽象推理能力。这些能力是通用且 可转移 的,还是专门用于预训练期间接触到的特定任务?为了解开这些效应,本提出了一种基于\\\"反事实\\\"任务变体的评估框架,这些变体偏离了标准任

    2024年02月07日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包