开源元数据治理平台Datahub部署指南(小白版)

这篇具有很好参考价值的文章主要介绍了开源元数据治理平台Datahub部署指南(小白版)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.引言

datahub是做什么的,这里就不展开描述了, 如果想了解更多请自行阅读DataHub官网文档, 这里主要教大家如何一步一步安装然后100%部署完成。一般开源产品的文档都是被大家吐槽的最多的,部署步骤写的非常简单,重要关键的配置有时候基本都是不提的,很多人想入门, 但是安装部署就会把大多数人拒之门外,很多没耐心的同学一旦掉到坑里爬不出来, 立马就放弃了, 本篇文章的主要目的就在于帮助大家把这一步跨过去,文章对你有帮助,请点赞关注, 不喜勿喷~

2.软件版本要求

  • CentOS == 7.6.18-x86-64
  • datahub == 0.12.0
  • python == 3.8.18
  • docker == 24.0.7
  • docker-compose == 2.20.3

3. 安装过程详解

3.1 Docker安装

请参考我之前的文章进行安装,传送门戳这里 docker的3种常用的安装部署方式介绍演示

考虑docker离线安装的问题, 后续写一篇docker离线部署的文章给大家。

3.2 docker-compose安装

下载并安装, 如果下载不下来, 可以先下载到本地再上传到服务器

curl -SL https://github.com/docker/compose/releases/download/v2.20.3/docker-compose-linux-x86_64 -o /usr/local/bin/docker-compose

修改脚本操作权限

chmod 755 /usr/local/bin/docker-compose

检查docker-compose是否安装成功

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

3.3 python3安装

因为datahub0.12.0安装依赖python3, 但是CentOS默认的python版本是python2.7.5,这里需要安装python3,我这里安装的python版本是3.8.18, 下面演示编译安装的整个过程:

1)安装系统依赖

yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel epel-release gcc gcc-c++ xz-devel readline-devel gdbm-devel sqlite-devel tk-devel db4-devel libpcap-devel libffi-devel

2)首先创建python3的安装目录:

mkdir -p /usr/local/python3

3)下载Python3.8.18的安装包

mkdir -p /opt/packages

cd /opt/packages

wget https://registry.npmmirror.com/-/binary/python/3.8.18/Python-3.8.18.tgz

4)解压安装包

tar -zxf /opt/packages/Python-3.8.18.tgz

5)编译安装

cd /opt/packages/Python-3.8.18

./configure --prefix=/usr/local/python3

make && make install

执行完毕, /usr/local/python3目录如下图:

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
6)配置系统环境变量

ln -s /usr/local/python3/bin/python3.8 /usr/local/bin/python3

ln -s /usr/local/python3/bin/pip3 /usr/local/bin/pip3

如下图:
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

检查系统环境变量是否生效, 如下图则成功。

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

python3 -m pip install --upgrade pip

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

3.4 datahub安装

执行安装命令, 如下

python3 -m pip install acryl-datahub==0.12.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

检查datahub是否安装成功

python3 -m pip datahub version

出现如下报错:

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

解决方法:urllib3库版本太高了, 降版本, 重新安装urllib3的1.25.11版本

python3 -m pip install urllib3==1.25.11 -i https://pypi.tuna.tsinghua.edu.cn/simple
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

再次检查datahub是否安装成功,

python3 -m pip datahub version

如下图, 说明安装成功

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

3.4 datahub镜像下载安装

首先我们从github的datahub仓库下载DataHubv0.12.0版本源代码,解压找到一下docker-compose的编排脚本文件
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
docker-compose-without-neo4j.quickstart.yml脚本上传到服务器的/usr/local/python3/datahub-docker-scripts目录下,如果没有这个路径请自行创建, 创建命令mkdir -p /usr/local/python3/datahub-docker-scripts

进入到/usr/local/python3/datahub-docker-scripts目录下, 执行以下命令:

python3 -m datahub docker quickstart --quickstart-compose-file ./docker-compose-without-neo4j.quickstart.yml

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
经过漫长的镜像下载拉取之后,容器运行成功之后, 整个安装流程完毕如下图:
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

访问http://10.10.3.14:9002,出现如下页面, 说明DataHub安装成功,默认的账号密码如下:

用户名:datahub  

密码:  datahub

开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据

4.服务管理及使用的常见指令

1)一键启动Datahub

docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml up -

2)一键停止Datahub

docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml stop

3)查看Datahub插件列表

python3 -m datahub check plugins --verbose

4)安装Datahub插件

pip3 install 'acryl-datahub[数据源]'

举例, 现在需要管理MySQL数据源的元数据, 需要先集成mysql的数据源插件

pip3 install acryl-datahub[mysql]

5.使用演示

配置元数据源集成
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
创建新的元数据源
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
选择数据源类型,配置数据源连接参数,设置采集任务调度, 然后保存即可。
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
点击"RUN"运行采集任务
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
开源元数据治理平台Datahub部署指南(小白版),大数据,开源,元数据,数据治理,大数据
好了,本篇文章到此结束,如果安装过程中遇到问题,欢迎留言讨论哈,最后点赞关注,送你一朵小红花,谢谢~~~。文章来源地址https://www.toymoban.com/news/detail-775304.html

到了这里,关于开源元数据治理平台Datahub部署指南(小白版)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册

    官网文档连接 DataHub Quickstart Guide | DataHub (datahubproject.io) 本文所选择的Python的版本为3.8.16,Docker版本为20.10.0,Datahub为0.10.5版本 python必须为3.7以上的版本。0.10.5不支持以下的版本 如果要使用web上的 添加数据源  直接调用的python和pip命令 需要把环境变量设置过去。不能用pyth

    2024年02月07日
    浏览(31)
  • 开源任务调度平台dolphinscheduler部署及使用指南(未完)

    目录 一 dolphinsheduler调研 支持的任务类型: 1.1 dolphinsheduler集群部署 1.1.1 需要的环境 1.1.2 dolphinsheduler安装 可能的报错:zk正常,master或worker一段时间后挂掉 问题原因 解决办法 1.1.3 资源中心配置 1.2 参数 1.2.1 任务中可能出现的所有参数 1.2.2 内置参数 1.2.3 全局参数 1.2.4 本地参

    2023年04月19日
    浏览(35)
  • 元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

    大家好,我是独孤风。元数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下。要了解元数据管理平台,先要从架构说起。 下面介绍元数据管理的架构实现,不同的架构都对应了不同的开源实现。 下图描述

    2024年02月03日
    浏览(32)
  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(41)
  • 数据治理:数据的分类分级指南

    — 01  —    什么是数据分类分级? 数据分类分级是数据安全治理领域的一个专业名词,从名字上就能看出这个名词其实包含了两部分的内容: 第一,数据分类 数据分类是数据资产管理的第一步 ,不论是对数据资产进行编目、标准化,还是数据的确权、管理,亦或是提供数

    2024年02月15日
    浏览(35)
  • Ambari+Bigtop大数据平台安装部署指南(Centos7)一

    安装部署分为以下五个大步骤 1.资源准备 2.操作系统配置 3.数据库配置 4.ambari配置 5.bigtop组件安装 all 表示全部主机都要执行 server表示ambari-server安装的主机执行 ${key}表示需要根据实际情况修改的变量,例如 $ {server.ip} 应替换成server所在主机的ip,所有变量均会标红 需要准备

    2024年02月07日
    浏览(31)
  • 数据治理管理平台——数据资产管理

    数据治理 中的资产管理是一切治理活动的起点,在数据治理活动中,占据首要地位,只有将数据真正地资产化,才能有序进行后续的深入挖掘与研究。 数据资产管理作为数据治理的重要组成部分,有效地将数据规范管理和数据处理进行能力整合,实现对具体数据的元数据描

    2024年02月15日
    浏览(31)
  • 一个平台搞定数据治理,让数据资产发挥价值

    根据北京研精毕智信息咨询发布的调查报告,2018-2021年,全球数据存储量由30ZB上升至55ZB左右,年平均增长率约为27.8%。到2022年,数据总存储量进一步增加至65ZB以上,较2021年同期新增了约10ZB,同比增长18.2%。各市场主体对数据的重视程度不断提升,数据应用逐步由批量处理向

    2024年02月06日
    浏览(37)
  • SeaTunnel及SeaTunnel Web部署指南(小白版)

    现在你能搜索到的SeaTunnel的安装。部署基本都有坑,官网的文档也是见到到相当于没有,基本很难找到一个适合新手小白第一次上手就能成功安装部署的版本,于是就有了这个部署指南的分享,小主已经把可能遇到的坑都填过了,希望大家都能安安稳稳上路,不掉坑,话不多

    2024年02月05日
    浏览(28)
  • Apache SeaTunnel 及 Web 功能部署指南(小白版)

    在大数据处理领域,Apache SeaTunnel 已成为一款备受青睐的开源数据集成平台,它不仅可以基于Apache Spark和Flink,而且还有社区单独开发专属数据集成的Zeta引擎,提供了强大的数据处理能力。随着SeaTunnel Web的推出,用户界面(UI)操作变得更加友好,项目部署和管理更加便捷。 本

    2024年03月09日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包