数据治理核心保障数据质量监控开源项目Apache Griffin分享

这篇具有很好参考价值的文章主要介绍了数据治理核心保障数据质量监控开源项目Apache Griffin分享。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

@

目录
  • 概述
    • 定义
    • 为何要做数据质量监控
    • 基本概念
    • 特性
    • 架构
  • 安装
    • Docker部署
    • Docker 镜像批处理使用
    • Docker 镜像流处理使用
    • UI界面操作

概述

定义

Apache Griffin 官网地址 https://griffin.apache.org/ 源码release最新版本0.6.0

Apache Griffin 官网文档地址 https://griffin.apache.org/docs/quickstart.html

Apache Griffin 源码地址 https://github.com/apache/griffin

Apache Griffin是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。

Apache Griffin提供了一套定义良好的数据质量领域模型,涵盖了一般情况下的大多数数据质量问题。它还定义了一组数据质量DSL来帮助用户定义他们的质量标准。通过扩展DSL甚至可以在Apache Griffin中实现自定义的特定特性/功能。

数据质量(DQ)是物联网、机器学习等许多数据消费者的关键标准,但如何确定“好”数据没有标准协议。Apache Griffin是一个模型驱动的数据质量服务平台,可以在其中按需检查数据。它提供了一个标准流程来定义数据质量度量、执行和报告,允许跨多个数据系统进行这些检查;当不信任自己的数据或者担心数据会对关键决策产生负面影响时则可以使用Apache Griffin来确保数据质量。

Apache Griffin支持两种类型的数据源:

  • batch数据:通过数据连接器从Hadoop平台收集数据。
  • streaming数据:可以连接到诸如Kafka之类的消息系统来做近似实时数据分析。

为何要做数据质量监控

  • 当数据从不同的数据源流向不同的应用系统的时候,缺少端到端的统一视图来追踪数据沿袭(Data Lineage)。这也就导致了在识别和解决数据质量问题上要花费许多不必要的时间。
  • 缺少一个实时的数据质量检测系统。从数据资产(Data Asset)注册,数据质量模型定义,数据质量结果可视化、可监控,当检测到问题时,可以及时发出警报。
  • 缺乏一个共享平台和API服务,让每个项目组无需维护自己的软硬件环境就能解决常见的数据质量问题。

基本概念

  • DQC:Data Quality Control,数据质量检测/数据质量控制,一般称为数据质量监控。

  • SLA:Service Level Agreement,也就是服务等级协议,指的是系统服务提供者(Provider)对客户(Costomer)的一个服务承诺,通常称为数据产出分级运维服务。

由定义可知,DQC关注数据口径,负责数据准不准的监测,而SLA关注产出及时性和稳定性,这两者有机结合共同保障了数据质量。在需求场景上DQC主要负责对数据资产质量和波动的监控,SLA主要负责对数据产出和任务调度结果和时长的监控。

特性

  • 度量:精确度、完整性、及时性、唯一性、有效性、一致性。
  • 异常监测:利用预先设定的规则,检测出不符合预期的数据,提供不符合规则数据的下载。
  • 异常告警:通过邮件或门户报告数据质量问题。
  • 可视化监测:利用控制面板来展现数据质量的状态。
  • 实时性:可以实时进行数据质量检测,能够及时发现问题。
  • 可扩展性:可用于多个数据系统仓库的数据校验。
  • 自助服务:Griffin提供了一个简洁易用的用户界面,可以管理数据资产和数据质量规则;同时用户可以通过控制面板查看数据质量结果和自定义显示内容。

架构

数据治理核心保障数据质量监控开源项目Apache Griffin分享

Apache Griffin通过3个步骤来处理数据质量问题,步骤如下:

  • 定义数据质量:数据科学家/分析师定义他们的数据质量要求,如准确性、完整性、及时性、唯一性、有效性、一致性和分析等。
  • 测量数据质量:源数据将被摄取到Apache Griffin计算集群中,Apache Griffin将根据数据质量需求启动数据质量测量。
  • 度量结果:作为度量的数据质量报告将被发送到指定的地方。

此外Apache Griffin还为用户提供了一个前端层,用户可以轻松地将任何新的数据质量需求装载到Apache Griffin平台中,并编写全面的逻辑来定义他们的数据质量。

在Griffin的架构中,主要分为Define、Measure和Analyze三个部分

数据治理核心保障数据质量监控开源项目Apache Griffin分享

各部分的职责如下:

  • Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)。
  • Measure:主要负责执行统计任务,生成统计结果。
  • Analyze:主要负责保存与展示统计结果。

安装

Docker部署

Griffin docker镜像是预先构建在docker hub上的,可以通过docker方式试用体验Apache Griffin。

# 国外地址镜像下载安装
docker pull apachegriffin/griffin_spark2:0.3.0
docker pull apachegriffin/elasticsearch
docker pull apachegriffin/kafka
docker pull zookeeper:3.5
# 中国地址镜像下载安装
docker pull registry.docker-cn.com/apachegriffin/griffin_spark2:0.3.0
docker pull registry.docker-cn.com/apachegriffin/elasticsearch
docker pull registry.docker-cn.com/apachegriffin/kafka
docker pull zookeeper:3.5

docker映像是Apache Griffin环境映像,各镜像包含内容如下:

  • apachegriffin/griffin_spark2:该镜像包含mysql、hadoop、 hive、 spark、 livy、Apache Griffin服务、Apache Griffin度量,以及一些准备好的demo数据,它作为一个单节点spark集群,提供spark引擎和Apache Griffin服务。
  • apachegriffin/elasticsearch:此镜像基于官方的elasticsearch,添加了一些配置以启用cors请求,为指标持久化提供elasticsearch服务。
  • apachegriffin/kafka:此镜像包含kafka 0.8,以及一些演示流数据,以流模式提供流数据源。
  • zookeeper:3.5:此镜像为官方zookeeper,以流媒体模式提供zookeeper服务。

Docker 镜像批处理使用

  • 下载获取源码中docker/compose/docker-compose-batch.yml文件,Griffin源码目录主要包括griffin-doc、measure、service和ui四个模块
    • griffin-doc负责存放Griffin的文档
    • measure采用scala语言编写,负责与spark交互,执行统计任务
    • service采用java的SpringBoot作为服务实现,负责给ui模块提供交互所需的restful api,保存统计任务,展示统计结果。

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 通过docker-compose启动
# 启动
docker-compose -f docker-compose-batch.yml up -d
# 查看容器
docker container ls

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 可以通过使用任何http客户端来尝试Apache Griffin api,这里以postman为例,官方源码中准备了两个postman的json配置文件。

数据治理核心保障数据质量监控开源项目Apache Griffin分享

在postman以文件导入上面两个json配置文件,在Griffin Environment配置BASE_PATH环境变量,端口为上面docker容器暴露的38080

数据治理核心保障数据质量监控开源项目Apache Griffin分享

先通过调用api (Basic -> Get griffin version)以确保Apache Griffin服务已经启动。

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 通过api Measures -> Add measure添加一个精度度量,在Apache Griffin中创建一个度量。

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 通过api jobs -> Add job添加一个作业来调度一个作业来执行度量。在本例中,调度间隔为4分钟,measure.id填写为上一步返回的id值。

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 几分钟后,可以从elasticsearch获得度量
curl -XGET 'hadoop2:39200/griffin/accuracy/_search?pretty&filter_path=hits.hits._source' -d '{"query":{"match_all":{}},  "sort": [{"tmst": {"order": "asc"}}]}'
{
  "hits" : {
    "hits" : [
      {
        "_source" : {
          "name" : "metricName",
          "tmst" : 1509599811123,
          "value" : {
            "__tmst" : 1509599811123,
            "miss" : 11,
            "total" : 125000,
            "matched" : 124989
          }
        }
      },
      {
        "_source" : {
          "name" : "metricName",
          "tmst" : 1509599811123,
          "value" : {
            "__tmst" : 1509599811123,
            "miss" : 11,
            "total" : 125000,
            "matched" : 124989
          }
        }
      }
    ]
  }
}

Docker 镜像流处理使用

  • 下载获取源码中docker/compose/docker-compose-streaming.yml文件。
  • 通过docker-compose启动
# 启动
docker-compose -f docker-compose-streaming.yml up -d
# 查看容器
docker container ls

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 执行流测试
# 进入griffin容器
docker exec -it griffin bash
# 切换到measure目录
cd ~/measure
# 执行脚本进行流精度测量
./streaming-accu.sh
# 跟踪日志
tail -f streaming-accu.log
  • 执行流分析测量
# 先杀死上面进行进程
kill -9 `ps -ef | awk '/griffin-measure/{print $2}'`
# 然后清除上次流作业的检查点目录和其他相关目录
./clear.sh
# 执行脚本进行流分析度量
./streaming-prof.sh
# 跟踪日志
tail -f streaming-prof.log

UI界面操作

  • 访问UI http://hadoop2:38080,默认用户密码为griffin/griffin

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 总体业务流程

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 当前docker镜像中默认有创建两个数据资产demo_src和demo_tgt可供测试。
# 进入griffin容器
docker exec -it griffin bash
# 进入hive命令行
hive

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 创建度量标准

    数据治理核心保障数据质量监控开源项目Apache Griffin分享

    • 选择数据源,单一的真实来源与目标进行数据质量比较,目前只能从一个模式中选择属性。

    数据治理核心保障数据质量监控开源项目Apache Griffin分享

    • 选择目标,以便与源进行数据质量比较。

    数据治理核心保障数据质量监控开源项目Apache Griffin分享

    • 将目标数据字段映射到源字段

    数据治理核心保障数据质量监控开源项目Apache Griffin分享

    • 完成demo_src和demo_tgt的分区配置

    数据治理核心保障数据质量监控开源项目Apache Griffin分享

    • 填写度量的必要信息

    数据治理核心保障数据质量监控开源项目Apache Griffin分享

    • 确保度量配置并保存

    数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 创建作业来定期处理度量,度量名称选择上面my_accuracy_measure,设置每五分钟执行任务,点击提交按钮确认信息再点击保存按钮

数据治理核心保障数据质量监控开源项目Apache Griffin分享

  • 热图和仪表板将显示度量的数据图。数据验证度量和分析任务都已配置完成,还可根据指标设置邮件告警等监控信息,等过一段时间后就可以在控制面板上监控的数据质量了。可以在Jobs中查看某个job的Metric可视化展示,也可以直接查看DQ Metrics和My Dashboard。

数据治理核心保障数据质量监控开源项目Apache Griffin分享文章来源地址https://www.toymoban.com/news/detail-467626.html

  • 本人博客网站IT小神 www.itxiaoshen.com

到了这里,关于数据治理核心保障数据质量监控开源项目Apache Griffin分享的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 毕业设计 基于单片机的睡眠质量监控系统(源码+硬件+论文)

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年02月05日
    浏览(82)
  • 运维平台介绍:视频智能运维平台的视频质量诊断分析和监控中心

    目            录 一、概述 二、框架图 1、图像过亮检测: 2、图像模糊检测: 3、画面冻结检测: 4、信号缺失检测: 5、图像偏色检测: 6、噪声干扰检测: 7、条纹干扰检测: 三、监控中心模块 (一)主页面介绍 (二)视频质量诊断分析结果展示 (三)工单上报 1、工单

    2024年01月18日
    浏览(44)
  • 数据治理-数据质量篇

    按照国际数据管理协会的《数据管理知识手册》中规定,数据质量(DQ)是“ 既指与数据有关的特征,也指用于衡量或改进数据质量的过程。 ”但要深入理解数据质量,需要切分不同层次或维度。 数据无处不在。随着数据创建的数量、来源和速度的增加,企业正在努力解决

    2024年02月02日
    浏览(33)
  • 数据治理:数据质量评价体系

    数据质量人人有责,这不仅仅只是一句口号,更是数据工作者的生命线。数据质量的好坏直接决定着数据价值高低。 数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高

    2024年02月08日
    浏览(40)
  • 银行数据治理:数据质量管理实践

    现代商业银行日常经营活动中积累了大量数据,这些数据除了支持银行前台业务流程运转之外,越来越多地被用于决策支持领域,风险控制、产品定价、绩效考核等管理决策过程也都需要大量高质量数据支持。银行日常经营决策过程的背后,实质是数据的生产、传递和利用过

    2024年02月09日
    浏览(49)
  • 数仓数据质量保障方法

    1、数据链路介绍 首先介绍有赞的数据总体架构图: 自顶向下可以大致划分为应用服务层、数据网关层、应用存储层、数据仓库,并且作业开发、元数据管理等平台为数据计算、任务调度以及数据查询提供了基础能力。 以上对整体架构做了初步的介绍,对于质量把控来说,最

    2024年02月09日
    浏览(38)
  • 数据治理:银行如何确保数据质量与安全

    在数字化时代,数据已经成为银行的重要资产,而数据治理则是确保数据质量、安全性和可用性的关键。那么,什么是银行数据治理?为什么我们需要银行数据治理?又如何进行有效的银行数据治理呢?又有哪些数据治理技术及其在银行领域的实际应用呢?本文将为您一一解

    2024年02月03日
    浏览(42)
  • 微服务 Spring Cloud 2,一文讲透微服务核心架构(注册中心、服务通信、服务监控、服务追踪、服务治理)

    大家好,我是哪吒。 疫情已经过去一年了,可是,经济貌似还没有复苏的迹象,感觉更差了, 今年是过去十年最差的一年,却可能是未来十年最好的一年? 裁员风波,一波接一波,根本没有停下来的迹象。 失业了怎么办?找工作呀~ 这么卷了吗?初级程序员就要会微服务了

    2024年02月05日
    浏览(66)
  • 软信天成:数据治理三大核心要素是什么?

    近年来,信息技术的快速发展和深入应用让数据获得了前所未有的增长,著名研究机构IDC预测:到2025年,全球数据预计增长至175ZB。随着数据价值的日益凸显,无数企业开始布局数字化战略转型,如何从庞杂的企业数据体现出业务价值已经被越来越多的企业所重视。 企业数据

    2024年02月05日
    浏览(51)
  • 开源元数据治理平台Datahub部署指南(小白版)

    datahub是做什么的,这里就不展开描述了, 如果想了解更多请自行阅读DataHub官网文档, 这里主要教大家如何一步一步安装然后100%部署完成。一般开源产品的文档都是被大家吐槽的最多的,部署步骤写的非常简单,重要关键的配置有时候基本都是不提的,很多人想入门, 但是

    2024年02月03日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包