最最最全数据仓库建设指南，速速收藏！-Toy模板网

这篇具有很好参考价值的文章主要介绍了最最最全数据仓库建设指南，速速收藏！。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

开讲之前，我们先来回顾一下数据仓库的定义。

数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。这个概念最早由数据仓库之父比尔·恩门(Bill Inmon)于1990年在《建立数据仓库》一书中提出，近年来却被愈发广泛的提及和应用，不信看下图：

到底是什么，让一个从上世纪90年代提出的概念，在近几年确越来越热？带着这个问题，我们来了解一下产业真实的变化。

根据统计局的数字显示，近年来数字经济总体规模占GDP的比重越来越高，截止2018年将近35%；数字经济增速与GDP增速的差距逐渐拉大，远高于同期GDP增速。

在 2014年，“新常态”一词被首次提出，指出从当前中国经济发展的阶段性特征出发，适应新常态，保持战略上的平常心态。意味着经济新常态下，要适应GDP从高速增长转变为中高速增长的态势，吃资源饭、环境饭、子孙饭的旧发展方式正在让位于以转型升级、生产率提高、创新驱动为主要内容的科学、可持续、包容性发展，从要素驱动、投资驱动转向服务业发展及创新驱动。

在新常态下，数据经济背后的信息化正催生数据发挥着巨大价值，未来也会一样。

在这样的背景下，“数据”、“数据分析”、“人工智能”、“IOT”这些行业关键词在百度指数搜索趋势一路攀升。而随着转型的深入，人工智能和物联网技术被越来越广泛的接受和应用，这背后所产生的数据呈大规模增长态势，数据被依赖的程度越来越高。

所以，回到文章开头的问题“数据仓库，一个从上世纪90年代提出的概念，为啥近几年确越来越热了呢？”答案就是随着时代的发展，数据的价值正在被无限的索求、挖掘与放大。其价值的背后需要数据采集、存储、互通、治理、运用的一整套机制。

那么问题又来了，该怎么做才能正确构建企业数据仓库？

别慌！干货来了！接下来就是数据仓库从搭建到应用的一整套方法论详解，别眨眼别退出，看完全部如果觉得有用记得点赞收藏和分享！

先来看张体系图：

我们这里所说的数据仓库，是基于大数据体系的，里面包含标签类目，区别于传统的数据仓库。下面我们来将这张图分解，逐个做简要分析。

一、前期调研

调研是数仓搭建的基础，根据建设目标，我们将调研分为三类：业务调研、业务系统调研、业务数据调研。

业务调研内容：

项目承载的业务是什么，业务的特征和性质
当前的业务流程，有真实流程表格和报告最好，用一个实例的方式来展示整个业务流程
业务专业术语、产品资料、规则算法、逻辑条件等资料
关注用户对流程中存在的问题和痛点描述、以及期望

业务系统调研内容：

清楚了解项目有哪些系统，每个系统对接人，重点系统详细介绍功能和交互
整体系统架构，调用规模，子系统交互方式，并发和吞吐量目标
系统技术选型和系统当前技术难点

数据调研内容：

可提供的数据
数据源类型、环境、数据规模
数据接口方式：文件接口、数据库接口、web service接口等
数据目录，数据字段类型、字典、字段含义、使用场景
数据在业务系统中流向等

二、数据建模

数据建模是数仓搭建的灵魂，是数据存储、组织关系设计的蓝图。

分层架构是对数据进行逻辑上的梳理，按照不同来源、不同使用目的、不同颗粒度等进行区分，使数据使用者在使用数据的时候更方便和容易理解，使数据管理者在管理数据的时候更高效和具有条理。我们推荐的分层架构是：

维度建模是Kimball在《数据仓库工具箱》中所倡导的数据建模方法，也是目前在大数据场景下我们推荐使用的建模方法。因为维度建模以分析决策的需求出发来构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

维度建模的核心步骤如下：

选择业务过程：对业务生命周期中的活动过程进行分析
声明粒度：选择事实表的数据粒度
维度设计：确定维度字段，确定维度表的信息
事实设计：基于粒度和维度，将业务过程度量

设计原则：

易用性：冗余存储换性能，公共计算下沉，明细汇总并存
高内聚低耦合：核心与扩展分离，业务过程合并，考虑产出时间
数据隔离：业务与数据系统隔离，建设与使用隔离
一致性：业务口径一致，主要实体一致，命名规范一致
中性原则：弱业务属性，数据驱动

三、标签类目

标签，是数据资产的逻辑载体。数据资产，指的是能够给业务带来经济效益的数据。所以，标签类目的建设在整个数据中心的建设过程中具有核心地位。

标签的设计需要结合数据情况和业务需求，因为标签值就是数据字段值，同时标签是要服务于业务的，需要具备业务意义。假如，标签的设计仅基于业务方以往的经验得出，那么最终开发出来的标签值可能会失去标签的使用意义，比如值档次分布不均、有值的覆盖率低等。

基于标签开发方式，我们将标签分为以下三类：

基础标签：直接对应的业务表字段，如性别、城市等
统计标签：标签定义含有常规的统计逻辑，开发时需要通过简易规则进行加工，如年增长率、月平均收益率等
算法标签：标签定义含有复杂的统计逻辑，开发时需要通过算法模型进行加工，如企业信用分、预测年销量等

基于标签应用场景，我们将标签分为以下二类：

后台标签：开发场景下，面向开发人员，不涉及业务场景，聚焦标签设计、开发、管理。
前台标签：应用场景下，面向业务人员，结合业务场景，聚焦对后台标签的直接使用或组合使用。

随着大量的标签产生，为了更好的管理和使用，我们需要将标签进行分类。所有的事物都可以归类于三类对象：人、物、关系，所以我们可以对标签按照人、物、关系来划分一级类目，再按照业务特性对每个一级类目进行二级、三级的拆分，通常我们建议将标签类目划分到三级。

四、开发实施

经过前期调研、数据建模、标签设计之后，接着会进入到开发阶段，开发实施的关键环节由以下几部分组成：

同步汇聚
清洗加工
测试校验
调度配置
发布上线

工欲善其事，必先利其器。一个好的开发工具对开发进度、成本、质量等具有举足轻重的影响。目前市面上很多开源，如Kettle、Azkaban、Hue等多多少少具有部分功能，但是要形成一个从端到端的数据自动化生产，需要将多个开源工具进行组合并通过复杂甚至人工方式进行衔接，整个过程复杂、低效和可靠性低。数栖云一站式离线开发平台，就是为了解决上述问题而生的。

开发落地，规范先行，遵守一套标准规范是整个开发质量和效率的保障。该套数据开发规范应该具备以下几个核心内容：