前言
数据管理,即对数据资源的管理。按照 DAMA (国际数据管理协会)的定义:「数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。」这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(如关系数据库的技术层次上的管理)。
常见内容
数据管理最常见的有以下内容:
- 数据分析
- 数据建模
- 数据库管理
- 数据仓库
- 数据挖掘
- 数据安全
- 数据集成
- 数据移动
- 数据质量保证
- 元数据管理(数据存储库及其管理)
- 战略数据架构
主题领域
根据 DAMA DMBOK [DAMA International Guide to Data Management Body of Knowledge (DAMA DMBOK ®)] 的划分,数据管理的领域包含以下部分:
- 数据治理:数据资产,数据管治
- 数据架构、数据(模型)分析和设计:数据架构,数据分析,数据建模
- 数据库管理:数据维护,数据库管理,数据库管理系统
- 数据安全管理:数据访问管理,数据擦除管理,数据隐私,数据安全
- 数据质量管理:数据清晰,数据完整性,数据浓缩,数据质量,数据质量保证
- 参考和主数据管理:数据集成,主数据管理,参考数据
- 数据仓库和商业智能化管理 :商业智能,数据集市,数据挖掘,数据移动(萃取、 转换和加载),数据仓库
- 文档、记录和内容管理:文件管理系统(DMS),记录管理
- 元数据管理:元数据管理,元数据发现,元数据发布,元数据注册
- 联系人数据管理:业务连续性规划,市场运营,客户数据集成,身份管理,身份信息窃取,数据被盗,ERP 软件,客户关系管理软件,地址 (地理),邮编,Email 地址,电话号码
数据类型
我们可以综合数据的描述层次、业务流向、用途等,将数据分为以下几个类型:
- 元数据 (Metadata)
- 引用数据(Reference Data)
- 主数据(Master Data)
- 交易数据(Transactional Data)
元数据
元数据(Meta Data)是用来描述数据的数据(Data that describes other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。
元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
常见的元数据如:
- 图书编目信息
- 照片的 EXIF 信息
- 报名信息表
- 豆瓣电影信息
引用数据
引用数据(Reference Data),又叫参考数据,它来做一些普遍的定义,描述数据范围、意义。它标示元数据的可能取值范围,我们设计表时所说的数据字典往往就是引用数据。比如,性别只能是男和女,男和女就是引用数据;国家的引用数据就是世界上这100多个国家和地区。
常见的引用数据如:
- 性别男、女、其他
- 订单状态
- 商品尺码、颜色、操作系统
- 视频的发布状态
主数据
主数据(Master Data)指的是业务实体,比如用户、商品、订单、购物车、文章、视频等。主数据用于跨部门、跨系统的信息交互。
主数据的目标,一是为业务实体建模,或者说业务实体包含哪些属性和行为,二是确保在不同系统中业务实体数据的一致性。
常见的主数据如:
- 电商中的商品信息、用户信息
- 新闻网站的新闻
- 视频网站中的视频、播主
- B2B 中的商家
- 外卖平台中的店
交易数据
交易数据(Transactional Data)指主数据之间活动产生的数据。比如客户购买产品的交易记录就是交易活动数据,用户对一个播主进行了关注、打赏也是交易数据。
常见的交易数据如:
- 电商下单产生的订单、支付
- 直播平台中用户对主播点赞、刷礼物
- 社交网站中用户关注行为
- IM 工具用户发布的聊天信息、公众信息
- 关系与特点
数据类型的特点
通过以下几个维度来评估:
- 数据量、更新频率:引用数据 < 元数据 < 主数据 < 交易数据
- 生命周期、数据质量:引用数据 > 元数据 > 主数据 > 交易数据
数据类型之间的关系
典型有情况下:
- 元数据、主数据、交易数据都会用到引用数据
- 主数据会包含元数据
- 交易数据是主数据之间的行为
GIGO
垃圾进,垃圾出(英语:Garbage in, garbage out,缩写:GIGO),或译为废料进,废品出,wiki,是计算机科学与信息通信技术领域的一句习语,说明了如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。同样的原则在计算机外的其他领域也有体现。
在统计学中,如果分析的原始数据是错误的、不准确的,那么统计的结论也就是不可信的。
数据质量评估
避免 GIGO 等问题,4个角度评估数据质量:
- 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
- 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;
- 合理性:主要包括格式、类型、值域和业务规则的合理有效;
- 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;
- 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。
数据质量管理
数据质量功能模块设计的主要包括监控对象管理、检核指标管理、数据质量过程监控、问题跟踪管理、推荐优化管理、知识库管理及系统管理等。其中过程监控包括离线数据监控、实时数据监控;问题跟踪处理由问题发现(支持自动检核、人工录入)、问题提报、任务推送、故障定级、故障处理、知识库沉淀等形成闭环流程。
数据治理
DAMA将数据治理的定义为:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行),数据治理职能指导其他数据管理职能如何执行。这个定义看上去有点虚。我理解的数据治理其实就是优先级管理+流程管理。优先级管理指的是我们需要对数据管理各个问题优先级排序。流程管理是人、角色和责任,也就是谁是什么角色,负责什么问题。比如说,当出现数据缺失的问题时,这个问题的优先级排序怎么样,谁来解决这个问题。文章来源:https://www.toymoban.com/news/detail-669196.html
数据安全
我们经常可以在网上看到某某站点用户数据泄露的消息。更有甚者,将数据库的连接信息直接保存到了github上,导致数据库被人复制。这些都是数据安全工作没做到位造成的。我个人认为数据安全从技术和制度方面着手。在技术方面,要确保数据存储、传输、应用、备份过程中的数据安全,防止数据泄露。在制度方面,要建立完善的数据访问控制和权限管理机制。文章来源地址https://www.toymoban.com/news/detail-669196.html
到了这里,关于【数据管理】什么是数据管理?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!