【数据仓库基础(四)】数据仓库需求:基本需求和数据需求

这篇具有很好参考价值的文章主要介绍了【数据仓库基础(四)】数据仓库需求:基本需求和数据需求。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

从基本需求和数据需求两方面介绍对数据仓库系统的整体要求。

一. 基本需求

1. 安全性

数据仓库中含有机密和敏感的数据。为了能够使用这些数据,必须有适当的授权机制。这意味着只有被授权的用户才能访问数据,这些用户在享有特权的同时,也有责任保证数据的安全。

增加安全特性会影响到数据仓库的性能,因此必须提早考虑数据仓库的安全需求。当数据仓库已经建立完成并开始使用后,此时再应用安全特性会比较困难。

在数据仓库的设计阶段,我们就应该进行如下的安全性考虑:

  • 数据仓库中的数据对于最终用户是只读的,任何人都不能修改其中的数据,这是由数据的非易失性所决定的。
  • 划分数据的安全等级,如公开的、机密、秘密、绝密等。
  • 制定访问控制方案,决定哪些用户可以访问哪些数据。
  • 设计授予、回收、变更用户访问权限的方法。
  • 添加对数据访问的审计功能。

 

2. 可访问性

用户能够有效地查找、理解和使用数据。数据应该是随时可访问的。这里数据可访问性指的是用户访问和检索数据的能力。

数据仓库的最终用户通常是业务人员、管理人员或者数据分析师。他们对组织内的相关业务非常熟悉,对数据的理解也很透彻,但是他们大都不是IT技术专家。

这就要求我们在设计数据仓库的时候,将用户接口设计得尽量友好和简单,使得没有技术背景的用户同样可以轻易查询到他们需要的数据。

 

3. 自动化

这里的自动化有狭义和广义两个层面的理解。

  • 狭义的自动化指的是数据仓库相关作业的自动执行。比如ETL过程、报表生成、数据传输等处理,都可以周期性定时自动完成。
  • 广义的数据仓库自动化指的是在保证数据质量和数据一致性的前提下,加速数据仓库系统开发周期的过程。整个数据仓库生命周期的自动化,从对源系统分析到ETL,再到数据仓库的建立、测试和文档化,可以帮助加快产品化进程,降低开发和管理成本,提高数据质量。

 
 

三. 数据需求

通过数据仓库,既可以周期性地回答已知的问题(如报表等),也可以进行即席查询(ad-hoc queries)。

  • 报表最基本的需求就是对预定义好的一系列查询条件、查询内容,排序条件等进行组合,查询数据,把结果用表格或图形的形式展现出来。
  • 所谓的即席查询不是预定义好的,而是在执行时才确定的。

数据库管理员使用命令行或客户端软件,连接数据库系统执行各种各样的查询语句,是最为常见的一种即席查询方式。而理想的数据仓库系统,允许业务或分析人员也可以通过系统执行这样的自定义查询。为了满足需求,数据仓库中的数据需要确保准确性、时效性和历史可追溯性。

1. 准确性

想要数据仓库实施成功,业务用户必须信任其中的数据。这就意味着他们应该能知道数据从哪来,何时抽取,怎么转换的。更重要的是,他们需要访问原始数据来确定如何解决数据差异问题。

实际上ETL过程应该总是在数据仓库的某个地方(如ODS)保留一份原始数据的复制。

 

2.时效性

用户的时效性要求差异很大。有些用户需要数据精确到毫秒级,而有些用户只需要几分钟、几小时甚至几天前的数据就可以了。

数据仓库是分析型系统,用于决策支持,所以实践中一般不需要很强的实时性,以一天作为时间粒度是比较常见的。

 

3.历史可追溯性

数据仓库更多的价值体现在它能够辅助随时间变化的趋势分析,并帮助理解业务事件(如特殊节日促销等)与经营绩效之间的关系。

 
 
参考:《Hadoop构建数据仓库实战》文章来源地址https://www.toymoban.com/news/detail-699874.html

到了这里,关于【数据仓库基础(四)】数据仓库需求:基本需求和数据需求的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 苦练基本功——数据仓库

    🌿 最近在复习一些数据仓库和维度建模的知识,之前博客也写过,那就一起整理一下,对往期内容感兴趣的同学可以参考👇: 链接: 数据仓库入门. 链接: 大数据之维度建模中的重要概念. 🌰 废话不多说,让我们开始今日份的学习吧。   数据技术是指通过使用计算机和相

    2024年02月02日
    浏览(39)
  • 数据仓库 基本信息

    数据仓库(英语:Data Warehouse,简称数仓、DW),是一个 用于存储、分析、报告的数据系统 。 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持 (Decision Support)。 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也

    2024年02月03日
    浏览(33)
  • 【数据仓库设计基础(四)】数据仓库实施步骤

    实施一个数据仓库项目的主要步骤是: 定义项目范围 收集并确认业务需求和技术需求 逻辑设计 物理设计 从源系统向数据仓库装载数据 使数据可以被访问以辅助决策 管理和维护数据仓库 项目范围定义了一个数据仓库项目的边界。典型的范围定义是组织、地区、应用、业务

    2024年02月08日
    浏览(41)
  • 【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

    数据仓库的主要作用: 数据仓库概念主要是解决多重数据复制带来的高成本问题。 在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。 数据仓库的概念: 数据仓库描述为一个 面向主

    2024年02月10日
    浏览(44)
  • 数据仓库基础介绍

    Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。 数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决

    2023年04月24日
    浏览(69)
  • 数据仓库基础知识

    我要了解企业目前的运转情况!(实时监控) 我要知道某地区近5年内的销售情况以制定未来的发展策略!(决策支持) 我要知道哪些是值得发展的优质的顾客!(预测) BI是Business Intelligence的英文缩写,中文解释为商务智能, 用来帮助企业更好地利用数据提高决策质量的技

    2024年02月11日
    浏览(45)
  • 干货:数据仓库基础知识(全)

    权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 1)数据仓库是用于支持决策、面向分析型数据处理; 2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据

    2024年02月07日
    浏览(37)
  • 数据仓库和商业智能:数据处理与分析的基础

    [toc] 引言 1.1. 背景介绍 随着互联网和信息技术的快速发展,数据已经成为企业获取竞争优势的核心资产之一。然而,如何处理、存储和分析这些海量数据成为了摆在企业面前的一个严峻挑战。数据仓库和商业智能(BI)应运而生,成为了实现企业数据分析和决策的重要工具。

    2024年02月17日
    浏览(46)
  • [Stable Diffusion教程] 第一课 原理解析+配置需求+应用安装+基本步骤

    本次内容记录来源于B站的一个视频 以下是自己安装过程中整理的问题及解决方法: 问题:stable-diffusion-webui启动No Python at ‘C:xxxxxxpython.exe‘ 解答:打开webui.bat 把 中的%~dp0venv改成自己python的安装路径就行获取直接set值即可 如 修改完之后又遇到如下问题 将python直接卸载掉

    2024年02月11日
    浏览(41)
  • 【python基础】基本数据类型-数字类型

    视频讲解 数字类型 Python3 支持int(整型数据)、float(浮点型数据)、bool(布尔类型) 在Python 3里, 只有一种整数类型 int,表示为长整型 。像大多数语言一样,数值类型的赋值和计算都是很直观的。 编写程序如下所示: 这里需要注意的是 数值的除法运算,包含两个运算符:/ 返回

    2024年02月06日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包