数据资产目录建设之数据分类全解

这篇具有很好参考价值的文章主要介绍了数据资产目录建设之数据分类全解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

01

数据治理洗澡论

其实他们之前做过数据一轮数据资产盘点,做了一个分类,也挂到系统上了,但是后来就没有后来了。治理做一半,等于啥也没干

我之前在群里开了一个玩笑,数据治理这种事情,就跟洗澡一样,首先得勤快点洗。一天不洗澡,身上就臭了。

另外,标准也很重要,南方和北方对洗干净的定义不一样。南方洗澡的时候,只要泡泡冲干净,就算洗干净了。北方洗澡的时候,身上不搓下来二斤泥都不叫洗干净了。

还有,洗澡得全面,有些人洗澡不洗头还说得过去,但是洗澡只洗左胳膊,这算咋回事?

最后,洗完澡得维护,水得擦干啊,衣服得换干净的,不要到外面踩泥巴,要讲卫生啊!

但是很多人认为数据治理就是弄个项目就完事的。这就像是中世纪的欧洲,一生就洗三次澡,出生一次,结婚一次,入殓一次。其他时间都靠香水度日

所以数据治理不是立一个项目就完事的,要么在家弄个浴室,要么定期去外面大众浴室,条件好可以再叫个搓澡的师傅,上个奶盐。

02

数据分类原则

这不,跟长时间没洗澡一样,长数据虱子了,各种指标爆炸数据质量低下等问题让数据部门的彭友非常难受,所以他们又要开始做数据治理了。

首先要做的就是数据资产盘点,建立数据资产目录。盘点的时候好说,就是各种整理呗。

但是到建立数据资产目录的时候就傻眼了,他们先是按照自己的理解整了一版目录结构。

但是在把数据资产装进去的时候就发现有些数据资源不属于现有的任何一个分类,然后又来调整,但是一会儿又发现有些数据资源放这里也行,放在那里也行,这就蒙圈了

这是因为没有把握住数据分类的原则。具体可以分为:

1全量:能够容纳组织全量数据资产;

2系统:数据分类必须系统化、体系化,层次清晰、逻辑鲜明,形成具有隶属和并列关系的分类体系,展示数据之间的联系和区别

3规范:目录名称要能准确的表达该类目的实际内涵和外延,在整个目录中保持规范;

4唯一:目录体系内,各自界限分明,尽可能保证不重复、不交叉、相互独立且唯一;

5稳定可扩展:建立的数据分类要保持一定的稳定性,保持一段时间内的可持续使用,并保留可扩展的余地。

03

数据分类方法

数据分类其实来源于信息分类法,一共有三种:线分类法、面分类法、混合分类法。

线分类法:简单来说,就是将数据按选定的若干个属性或特征,逐次分为若干层级, 每个层级又分为若干类别。

同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。

线分类法适用于针对一个类别只选取单一分类维度进行分类的场景。最典型的线分类法就是生物分类系统,有一个学科专门研究这个,叫“生物分类学”。

你仔细看看上面的图,就知道线分类法有很大的局限:一个分类只能描述单一的逻辑复杂一点就没法弄了,比如集团中有好几个不同的业态...

面分类法就是把数据依据各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。

还可以将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。 

比如服装,有材料、颜色、款式等多个面,可以自由搭配组成任意内容。下面这个例子则是螺丝的面分类法,可以分为材料、直径、钉头、表面处理:

面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取多个分类维度进行分类的场景。

混合分类法:顾名思义,就是线分类+面分类结合咯。一般来说,还是得以某一个方法为主,另外一个为辅

这下就能集合两种方式的优点,规避它们各自的缺点了。比如用面分类法解决多业态的问题,再用线分类法细化;或者用线分类法搞定前面几层,再用面分类法进行细化。

04

数据分类的层次关系

会后,彭友还找我要PPT。讲真,不是老彭我小气,关键是我还真没有专门为这个事情做一个PPT

因为这些内容其实早就有很全的指导了,比如《证券期货数据分类分级指南》里就很全:

这张图把业务、数据和数据表现形态之间的关系表现的很清楚。我们需要从业务、数据和形态三个视角对数据分类进行理解。

其中,最先要了解的,就是业务。业务可以按条线和子类进行拆分,就算是集团公司,也能拆的很清晰。

然后从业务角度,向下再进行拆解,从数据角度进行分类。所以数据角度的第一个层级应该是业务主题域,而不是纯粹的数据角度

数据分类应该从主题域不断细分,直到最细颗粒度。一般来说,在数据资产目录里,是要能看到详细的样例数据,并能申请API访问权限的。在这个时候,我们需要对数据进行分级,便于进行权限分配和安全管控。

最下面,其实不是数据的分类,而是数据的展示形态。数据最终是要在系统中用业务流程、数据查询、报表分析、大屏展示等各种形态利用起来的。

05

本标准采用多维度和线分类法相结合的方法,在主题、行业和服务三个维度对贵州省政府数据进行 分类,对于每个维度采用线分类法将其分为大类、中类和小类三级。业务部门可以根据业务需要,对数据分类进行小类之后的细分。对小类的细分,各部门可以根据业务数据的性质、功能、技术手段等一系 列问题进行扩展细分。本标准采用面分类法将政府数据按照多个维度进行关键词的标签构造。

根据基础电信企业业务运营特点和企业内部管理方法,收集企业内所有部门的数据资源,梳理所有数据资源。按照线分类法,按照业务属性(或特征),将基础电信企业数据分为若干数据大类,然后按照大类内部的数据隶属逻辑关系,将每个大类的数据分为若干层级,每个层级分为若干子类,同一分支的同层级子类之间构成并列关系,不同层级子类之间构成隶属关系。所有数据类及数据子类构成数据资源目录树,如图1所示。目录树的所有叶子节点是最小数据类。最小数据类是指属性(或特征)相同或 相似的一组数据。

用户相关数据:

4.用户统计分析类数据(用户使用习惯和行为分析数据、用户上网行为相关统计分析数据)

企业自身相关数据:

管理主体就是“WHO”,管理范围就是“WHERE”,这两个对象一确定,就说清楚了是“谁”具体负责“哪里”的事情,职责范围就清晰了,业务条线自然而然就划分出来了。

业务细分一共分为四个步骤:

步骤一:确定业务一级子类——基本业务条线。参考《证券期货行业数据模型》确定的业务条线作为基础。对!数据分类和模型是紧密关联的!!!

步骤二:确定每个业务条线下所有的业务管理主体(MS)。

步骤三:确定每个业务管理主体对应的管理范围,明确对应关系(MS-MS)

步骤四:命名映射关系——业务二级子类。

此方法可以在每一层都这么用,无限套娃,理论上可以把所有的业务细分到足够细的颗粒度,直到每个人。

但是我们分类的时候一般就分个3、4级就行了,在《指引》里,建议用MS-MS划分一次就行,剩下的层级放在数据归类阶段进行。

在数据归类阶段,参考他们提出的MS-MO(管理范围、管理对象)方法,对数据进行归类。

MS-MO方法其实也很好理解。管理范围就是延续上面“MS-MS”后面的MS。汇总起来就是MS-MS-MO,就是管理主体(WHO)、管理范围”WHERE“、管理对象”WHAT",即谁,在哪些业务范围,具体管理那些数据。

步骤一:明确各个业务二级子类的管理范围(MS)。

步骤二:确定业务二级子类的管理范围对应的管理对象(MS-MO),即找到业务二级子类下的全部数据。

步骤三:按照数据细分方法对各个“单类业务数据总和”分别细分,得到数据一级子类。

步骤四:命名数据一级子类。

经过上面的两大阶段,8个小步骤,就能得到一个完整的数据分类目录:文章来源地址https://www.toymoban.com/news/detail-629863.html

到了这里,关于数据资产目录建设之数据分类全解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据库】数据库的介绍、分类、作用和特点,AI人工智能数据如何存储

    欢迎来到《小5讲堂》,大家好,我是全栈小5。 这是《数据库》系列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识点的理解和掌握。 温馨提示:博主能力有限,理解水

    2024年04月14日
    浏览(78)
  • 【人工智能】实验五 采用卷积神经网络分类MNIST数据集与基础知识

    熟悉和掌握 卷积神经网络的定义,了解网络中卷积层、池化层等各层的特点,并利用卷积神经网络对MNIST数据集进行分类。 编写卷积神经网络分类软件,编程语言不限,如Python等,以MNIST数据集为数据,实现对MNIST数据集分类操作,其中MNIST数据集共10类,分别为手写0—9。

    2024年02月04日
    浏览(64)
  • 【二等奖方案】基于人工智能的漏洞数据分类赛题「道可道,非常道」团队解题思路

    2022 CCF BDCI 大赛 · 数字安全公开赛「基于人工智能的漏洞数据分类」赛题二等奖团队 「道可道,非常道」战队获奖方案,赛题地址: http://go.datafountain.cn/s57 本团队具有丰富的比赛和项目经验。在AI大赛上多次拿到Top成绩,其中包括阿里云天池安全恶意程序检测第一名、科大讯

    2024年02月16日
    浏览(48)
  • 人工智能与云计算实训室建设方案

    人工智能(Artificial Intelligence,简称AI)是一种模拟人类智能的科学和工程,通过使用计算机系统来模拟、扩展和增强人类的智能能力。人工智能涉及多个领域,包括机器学习、深度学习、自然语言处理、计算机视觉等。 云计算(Cloud Computing)是一种基于互联网的计算模式,

    2024年02月12日
    浏览(52)
  • 数据中台建设(七):数据资产管理

    文章目录 数据资产管理 一、数据标准管理

    2024年02月02日
    浏览(45)
  • 人工智能:未来智慧城市建设的“智慧大脑”与核心价值

    目录 一、引言 二、人工智能在智慧城市中的应用实例 三、人工智能对智慧城市建设的核心价值 四、面临的挑战与未来展望 五、结语 六、附:智慧城市全套解决方案大合集 - 下载 随着科技的飞速发展,智慧城市的概念逐渐深入人心。智慧城市利用先进的信息通信技术,实现

    2024年01月22日
    浏览(51)
  • 人工智能中的智能游戏:对于游戏的智能化建设,应该如何进行?

    作者:禅与计算机程序设计艺术 随着互联网的发展、云计算的普及和人工智能技术的飞速发展,人工智能已经渗透到我们生活的方方面面,而其中一个重要的领域就是游戏。近年来,由于人工智能技术的进步,越来越多的人开始将其应用于游戏设计中,这使得游戏开发者们拥

    2024年02月07日
    浏览(48)
  • 怎样才能高效的拨打电话—,人工智能系统,呼叫中心,外呼系统建设

    外呼平台是一个与通话相关的多功能管理平台,将通信资源与相关应用技术的管理能力平台化,高效利用通信资源,外呼能力赋能产品服务创新和客户响应能力,同时无缝对接业务、数据、AI等其他能力。外呼平台集成了资源隔离和资源分配,机器人和IVR会话管理,坐席管理

    2023年04月08日
    浏览(35)
  • 基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌(Python 全代码)全流程解析(二)

    第一部分内容的传送门 环境配置建议使用anaconda进行配置。核心的配置是keras和tensorflow的版本要匹配。 环境配置如下: tensorboard 1.13.1 tensorflow 1.13.1 Keras 2.2.4 numpy 1.21.5 opencv-python 4.6.0.66 python 3.7 数据集的预处理分为两个关键步骤。首先是图片处理,我们使用cv2库将图片转换为

    2024年04月29日
    浏览(38)
  • 人工智能文本分类

    在本文中,我们全面探讨了文本分类技术的发展历程、基本原理、关键技术、深度学习的应用,以及从RNN到Transformer的技术演进。文章详细介绍了各种模型的原理和实战应用,旨在提供对文本分类技术深入理解的全面视角。 文本分类作为人工智能领域的一个重要分支,其价值

    2024年02月03日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包