数据仓库命名规范详解

这篇具有很好参考价值的文章主要介绍了数据仓库命名规范详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、数仓中为什么要在数据开发过程中强调遵守数仓开发命名规范呢?

  • 养成良好的编程习惯
  • 写出清楚、易懂、易维护的程序代码
  • 提高代码质量与沟通效率
  • 减少编码中的不必要的错误

二、数仓开发命名规范主要分为以下几个方面

(1)数据仓库命名规范

(2)表命名规范

(3)字段命名规范

(4)字段类型规范

三、规范详解

(1)数据仓库命名规范

数仓建设命名规范,数据仓库,hive,hadoop,数据库,sql,database,数据库架构

(2)表命名规范

  • 命名全部采用小写字母和数字构成,只能以字母开头,并且尽量避免使用数字。
  • 命名应采用能够准确反映其中文含义的英文单词或英文单词缩写构成,避免出现英文单词和汉语拼音混用的局面。
  • 命名长度尽量控制在30个字符以内,考虑可读性、易懂性、规范性;如果超过30个字符,尽量把长单词转换成缩略词。
  • 名称的各部分之间以"_"(下划线)拼接。
  • 数据域、主题域命名统一管理

ODS层表命名规范:

表名规范:ods_来源类型[业务|系统]_业务表名_装载策略_装载周期

表名示例:ods.ods_db_logs_gold_logs_i_d

规范说明:

         -- 存储库名:ods

         -- 来源类型:区分不同来源及系统,含结构化、半结构及非结构化数据。

        -- 类型分类:DataBase(db)、Http(api)、Rsync Log(rsync)、MQ(topicName)、hive(layerName)。

        -- 业务表名:与数据来源系统一致,以避免造成其二义性。有分表则去除分表规则,目标添加source_table字段区分来源表名。

         -- 装载策略:增量(i)、全量(f)、快照(s)、 拉链(h)、

         -- 装载周期:根据实际装载周期确定。实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)

DWD层表命名规范:

表名规范:dwd_一级数据域_二级数据域[_业务过程]_业务描述_装载策略_装载周期

表名示例:dwd.dwd_log_app_click_info_i_d

规范说明:

        -- 存储库名:dwd

         -- 一级数据域:用户域、内容域、日志域、财务域、互动域、服务域等等

        -- 二级数据域:移动端、Web端、会员、金币等等,统一定义

        -- 业务过程:曝光、浏览、点击、注册、登录、注销等等,统一定义

        -- 业务描述:描述业务内容

        -- 装载策略:增量(i)、全量(f)、快照(s)、 拉链(h)

        -- 装载周期:根据实际装载周期确定。实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)

DWS层表命名规范:

表名规范:dws_一级数据域_二级数据域_数据粒度_业务描述_统计周期

表名示例:dws.dws_log_mbr_event_info_1d

规范说明:

        -- 存储库名:dws

        -- 一级数据域:用户域、内容域、日志域、财务域、互动域、服务域等等

        -- 二级数据域:流量、渠道、会员、留存、事件等等

        -- 数据粒度:描述业务数据粒度

        -- 业务描述:描述业务内容

        -- 统计周期:统计实际周期范围,缺省情况下,离线计算应该包括最近一天(_1[h|d|w|m|q|y]),最近N天(_n[h|d|w|m|q|y])和历史截至当天(_t[h|d|w|m|q|y])三个表。小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)。

ADS层表命名规范:

表名规范:ads_应用类型_业务主题_业务描述_统计周期_装载周期

表名示例:ads.ads_rpt_channel_user_1d_d

规范说明:

        -- 存储库名:ads

        -- 应用类型:固定报表、分析报表、标签系统、用户画像、数据接口

        -- 业务主题:看板、驾驶仓、ROI、渠道分析、漏斗分析、留存分析、活跃分析等等

        -- 业务描述:描述业务内容

        -- 统计周期:统计实际周期范围,缺省情况下,离线计算应该包括最近一天(_1[h|d|w|m|q|y]),最近N天(_n[h|d|w|m|q|y])和历史截至当天(_t[h|d|w|m|q|y])三个表。小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)。 -- 装载周期:根据实际装载周期确定。实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)

DIM层表命名规范:

表名规范:dim_应用类型_业务主题_业务描述_[层级_装载策略_装载周期]

表名示例:dim.dim_pub_city_lvl、dim_pub_chl_i_h

规范说明:

        - 存储库名:dim - 应用类型:公共、自定义 - 业务主题:渠道、版本、产品、城市等等

        - 业务描述:描述业务内容 - 层级:层级(lvl)

        - 装载策略:增量(i)、全量(f)、快照(s)、 拉链(h) - 装载周期:根据实际装载周期确定。实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)

TEMP层表命名规范:

表名规范:temp_目标表名_((数据日期[_数据小时])|(开始日期_结束日期))

表名示例:temp.temp_dwd_log_app_click_info_i_d_20210311(会话表)、temp.temp_username_test_20210311_20210321 (临时表)

规范说明:

         - 存储库名:temp

        - 目标表名: 会话表:目标表名,临时表:业务描述

        - 数据日期:ETL跑批日期 、ETL数据处理日期

        - 数据小时:ETL跑批小时 、ETL数据处理小时

        - 开始日期:临时表有效开始日期

        - 结束日期:临时表有效结束日期

(3)字段命名规范

通用规范:

命名全部采用小写、字母和数字构成,且只能以字母开头,并且尽量避免使用数字;

不允许使用除数字、字母、下划线之外的特殊字符 命名应采用能够准确反映其中文含义的英文单词或英文单词缩写构成,避免出现英文单词和汉语拼音混用的局面,尽量达到见字知意效果。

命名长度尽量控制在30个字符以内,特殊字段除外 名称的各部分之间以"_"(下划线)连接 约定俗成的业务缩略词,统一参考【字典库】 实体名称作为前缀

其他:

【禁止】禁止使用关键字,如desc、from、select、left、join、time等 等,请参考Hive官方保留字。

【禁止】禁止缩写英文单词的首字母的元音 【强制】表名、字段名必须使用小写字母或数字,必须以字母开头,禁止使用除数字、字母、下划线之外的特殊字符,禁止两个下划线中间只出现数字。

正例:create_time,create_name

反例:ctime,cname

(4)字段类型规范

长度一般不能超过25个字符长度。如无特殊需要,只允许使用以下几种字段类型。

数仓建设命名规范,数据仓库,hive,hadoop,数据库,sql,database,数据库架构

看到这里啦,点个赞再走呗!文章来源地址https://www.toymoban.com/news/detail-787640.html

到了这里,关于数据仓库命名规范详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 2023-数仓建设规范指南

    1. 数仓分层原则 优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好? 目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表面,还要看

    2024年02月07日
    浏览(38)
  • 数仓命名规范大全!

    01 数据分层 一、数据运营层:ODS(Operational Data Store) ODS层,是最接近数据源中数据的一层,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层

    2024年02月13日
    浏览(40)
  • 大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)

    1.1.1 数据仓库概念 1、数据仓库概念: 为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本,提高产品质量。 数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据的:清洗、

    2024年01月22日
    浏览(64)
  • 大数据之Hadoop数据仓库Hive

    Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 特点: 简单、容易上手 (提供了类似 sql 的查询语言 hql),使得精通 sql 但是不了解 Java 编程的人也

    2024年02月01日
    浏览(54)
  • 大数据技术之Hadoop学习(七)——Hive数据仓库

    目录 素材 一、数据仓库简介 1、数据仓库的认识 (1)数据仓库是面向主题的。 (2)数据仓库是随时间变化的。 (3)数据仓库相对稳定 (4)OLTP和OLAP 2、数据仓库的结构 (1)数据源 (2)数据存储及管理 (3)OLAP 服务器 (4)前端工具 3、数据仓库的数据模型 (1)星状模

    2024年02月17日
    浏览(45)
  • 【大数据】Doris 构建实时数仓落地方案详解(一):实时数据仓库概述

    本系列包含: Doris 构建实时数仓落地方案详解(一):实时数据仓库概述 Doris 构建实时数仓落地方案详解(二):Doris 核心功能解读 Doris 构建实时数仓落地方案详解(三):Doris 实时数仓设计 数据仓库的概念可以追溯到 20 世纪 80 年代,当时 IBM 的研究人员提出了商业数据

    2024年02月04日
    浏览(50)
  • 详解大厂实时数仓建设

    1. 实时需求日趋迫切 目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不

    2024年02月08日
    浏览(45)
  • 数仓知识11:Hadoop生态及Hive、HBase、Impala、HDFS之间的关系

    Hive、HBase、Impala、HDFS是Hadoop生态体系中常用的开源产品,各个产品间是一个什么样的关系,许多人都搞不清楚,本文将进行研究分析。 Hadoop生态 在了解Hive、HBase、Impala、和HDFS之前,先熟悉一下Hadoop的生态。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型在计算机集

    2023年04月08日
    浏览(55)
  • 1.8万字详解实时数仓建设方案及大厂案例

    一、实时数仓建设背景 关注公号: 数元斋 1. 实时需求日趋迫切 目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率

    2024年02月02日
    浏览(46)
  • 用户认证-Kerberos的介绍和使用(Hadoop、Hive、数仓流程、Presto、Kylin集成配置)

    概述 Kerberos是一种计算机网络认证协议,用来在非安全网络中,对个人通信以安全的手段进行 身份认证 , 它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份 。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用

    2024年02月02日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包