【数据管理】什么是数据管理?

这篇具有很好参考价值的文章主要介绍了【数据管理】什么是数据管理?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

数据管理,即对数据资源的管理。按照 DAMA (国际数据管理协会)的定义:「数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。」这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(如关系数据库的技术层次上的管理)。

常见内容

数据管理最常见的有以下内容:

  • 数据分析
  • 数据建模
  • 数据库管理
  • 数据仓库
  • 数据挖掘
  • 数据安全
  • 数据集成
  • 数据移动
  • 数据质量保证
  • 元数据管理(数据存储库及其管理)
  • 战略数据架构

主题领域

根据 DAMA DMBOK [DAMA International Guide to Data Management Body of Knowledge (DAMA DMBOK ®)] 的划分,数据管理的领域包含以下部分:

  • 数据治理:数据资产,数据管治
  • 数据架构、数据(模型)分析和设计:数据架构,数据分析,数据建模
  • 数据库管理:数据维护,数据库管理,数据库管理系统
  • 数据安全管理:数据访问管理,数据擦除管理,数据隐私,数据安全
  • 数据质量管理:数据清晰,数据完整性,数据浓缩,数据质量,数据质量保证
  • 参考和主数据管理:数据集成,主数据管理,参考数据
  • 数据仓库和商业智能化管理 :商业智能,数据集市,数据挖掘,数据移动(萃取、 转换和加载),数据仓库
  • 文档、记录和内容管理:文件管理系统(DMS),记录管理
  • 元数据管理:元数据管理,元数据发现,元数据发布,元数据注册
  • 联系人数据管理:业务连续性规划,市场运营,客户数据集成,身份管理,身份信息窃取,数据被盗,ERP 软件,客户关系管理软件,地址 (地理),邮编,Email 地址,电话号码

数据类型

我们可以综合数据的描述层次、业务流向、用途等,将数据分为以下几个类型:

  • 元数据 (Metadata)
  • 引用数据(Reference Data)
  • 主数据(Master Data)
  • 交易数据(Transactional Data)

元数据

元数据(Meta Data)是用来描述数据的数据(Data that describes other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。

元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。

常见的元数据如:

  • 图书编目信息
  • 照片的 EXIF 信息
  • 报名信息表
  • 豆瓣电影信息

引用数据

引用数据(Reference Data),又叫参考数据,它来做一些普遍的定义,描述数据范围、意义。它标示元数据的可能取值范围,我们设计表时所说的数据字典往往就是引用数据。比如,性别只能是男和女,男和女就是引用数据;国家的引用数据就是世界上这100多个国家和地区。

常见的引用数据如:

  • 性别男、女、其他
  • 订单状态
  • 商品尺码、颜色、操作系统
  • 视频的发布状态

主数据

主数据(Master Data)指的是业务实体,比如用户、商品、订单、购物车、文章、视频等。主数据用于跨部门、跨系统的信息交互。

主数据的目标,一是为业务实体建模,或者说业务实体包含哪些属性和行为,二是确保在不同系统中业务实体数据的一致性。

常见的主数据如:

  • 电商中的商品信息、用户信息
  • 新闻网站的新闻
  • 视频网站中的视频、播主
  • B2B 中的商家
  • 外卖平台中的店

交易数据

交易数据(Transactional Data)指主数据之间活动产生的数据。比如客户购买产品的交易记录就是交易活动数据,用户对一个播主进行了关注、打赏也是交易数据。

常见的交易数据如:

  • 电商下单产生的订单、支付
  • 直播平台中用户对主播点赞、刷礼物
  • 社交网站中用户关注行为
  • IM 工具用户发布的聊天信息、公众信息
  • 关系与特点

数据类型的特点

通过以下几个维度来评估:

  • 数据量、更新频率:引用数据 < 元数据 < 主数据 < 交易数据
  • 生命周期、数据质量:引用数据 > 元数据 > 主数据 > 交易数据

数据类型之间的关系

典型有情况下:

  • 元数据、主数据、交易数据都会用到引用数据
  • 主数据会包含元数据
  • 交易数据是主数据之间的行为

GIGO

垃圾进,垃圾出(英语:Garbage in, garbage out,缩写:GIGO),或译为废料进,废品出,wiki,是计算机科学与信息通信技术领域的一句习语,说明了如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。同样的原则在计算机外的其他领域也有体现。

在统计学中,如果分析的原始数据是错误的、不准确的,那么统计的结论也就是不可信的。

数据质量评估

避免 GIGO 等问题,4个角度评估数据质量:

  • 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
  • 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;
  • 合理性:主要包括格式、类型、值域和业务规则的合理有效;
  • 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;
  • 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。

数据质量管理

数据质量功能模块设计的主要包括监控对象管理、检核指标管理、数据质量过程监控、问题跟踪管理、推荐优化管理、知识库管理及系统管理等。其中过程监控包括离线数据监控、实时数据监控;问题跟踪处理由问题发现(支持自动检核、人工录入)、问题提报、任务推送、故障定级、故障处理、知识库沉淀等形成闭环流程。

数据治理

DAMA将数据治理的定义为:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行),数据治理职能指导其他数据管理职能如何执行。这个定义看上去有点虚。我理解的数据治理其实就是优先级管理+流程管理。优先级管理指的是我们需要对数据管理各个问题优先级排序。流程管理是人、角色和责任,也就是谁是什么角色,负责什么问题。比如说,当出现数据缺失的问题时,这个问题的优先级排序怎么样,谁来解决这个问题。

数据安全

我们经常可以在网上看到某某站点用户数据泄露的消息。更有甚者,将数据库的连接信息直接保存到了github上,导致数据库被人复制。这些都是数据安全工作没做到位造成的。我个人认为数据安全从技术和制度方面着手。在技术方面,要确保数据存储、传输、应用、备份过程中的数据安全,防止数据泄露。在制度方面,要建立完善的数据访问控制和权限管理机制。文章来源地址https://www.toymoban.com/news/detail-669196.html

到了这里,关于【数据管理】什么是数据管理?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【SpringBoot应用篇】SpringBoot集成atomikos实现多数据源配置和分布式事务管理

    讨论分布式事务之前我们分清两个概念: 本地事务 、 分布式事务 ; 本地事务是解决 单个数据源 上的数据操作的 一致性 问题的话,而分布式事务则是为了解决 跨越多个数据源 上数据操作的 一致性 问题。 百度官方对分布式事务的定义是指事务的参与者、支持事务的服务

    2024年02月16日
    浏览(50)
  • Spark弹性分布式数据集

    1. Spark RDD是什么 RDD(Resilient Distributed Dataset,弹性分布式数据集)是一个不可变的分布式对象集合,是Spark中最基本的数据抽象。在代码中RDD是一个抽象类,代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 每个RDD都被分为多个分区,这些分区运行在集群中

    2024年02月13日
    浏览(54)
  • 大数据学习06-Spark分布式集群部署

    配置好IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 修改主机名 vi /etc/hostname 做好IP映射 vim /etc/hosts 关闭防火墙 systemctl status firewalld systemctl stop firewalld systemctl disable firewalld 配置SSH免密登录 ssh-keygen -t rsa 下载Scala安装包 配置环境变量 添加如下配置 使环境生效 验证 Spark官网 解压 上

    2024年02月10日
    浏览(65)
  • 大数据开发之Spark(RDD弹性分布式数据集)

    rdd(resilient distributed dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象。 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1.1.1 rdd类比工厂生产 1.1.2 wordcount工作流程 1、一组分区(partition),即是数据集的基本组成单位,

    2024年01月24日
    浏览(65)
  • 大数据课程K2——Spark的RDD弹性分布式数据集

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解Spark的RDD结构; ⚪ 掌握Spark的RDD操作方法; ⚪ 掌握Spark的RDD常用变换方法、常用执行方法; 初学Spark时,把RDD看做是一个集合类型(类似于Array或List),用于存储数据和操作数据,但RDD和普通集合的区别

    2024年02月12日
    浏览(49)
  • Spark大数据分析与实战笔记(第三章 Spark RDD 弹性分布式数据集-02)

    人生很长,不必慌张。你未长大,我要担当。 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。 RDD是Spark提供的最重要的抽象概念

    2024年02月22日
    浏览(82)
  • 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    前言:七八九用于Spark的编程实验 大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析 目录 实验环境: 实验步骤: 一、解压 二、配置环境变量:  三、修改配置文件  1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分发配置文件:

    2024年02月11日
    浏览(49)
  • 云计算与大数据第16章 分布式内存计算平台Spark习题

    1、Spark是Hadoop生态(  B  )组件的替代方案。 A. Hadoop     B. MapReduce        C. Yarn             D.HDFS 2、以下(  D  )不是Spark的主要组件。 A. Driver      B. SparkContext       C. ClusterManager D. ResourceManager 3、Spark中的Executor是(  A  )。 A.执行器      B.主节

    2024年02月14日
    浏览(104)
  • 分布式计算中的大数据处理:Hadoop与Spark的性能优化

    大数据处理是现代计算机科学的一个重要领域,它涉及到处理海量数据的技术和方法。随着互联网的发展,数据的规模不断增长,传统的计算方法已经无法满足需求。因此,分布式计算技术逐渐成为了主流。 Hadoop和Spark是目前最为流行的分布式计算框架之一,它们都提供了高

    2024年01月23日
    浏览(54)
  • 数据存储和分布式计算的实际应用:如何使用Spark和Flink进行数据处理和分析

    作为一名人工智能专家,程序员和软件架构师,我经常涉及到数据处理和分析。在当前大数据和云计算的时代,分布式计算已经成为了一个重要的技术方向。Spark和Flink是当前比较流行的分布式计算框架,它们提供了强大的分布式计算和数据分析功能,为数据处理和分析提供了

    2024年02月16日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包