元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册

这篇具有很好参考价值的文章主要介绍了元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

官网文档连接

DataHub Quickstart Guide | DataHub (datahubproject.io)

本文所选择的Python的版本为3.8.16,Docker版本为20.10.0,Datahub为0.10.5版本

python必须为3.7以上的版本。0.10.5不支持以下的版本

如果要使用web上的 添加数据源  直接调用的python和pip命令 需要把环境变量设置过去。不能用python3

安装python3

需要注意的一点是datahub需要openssl1.11以上。所以在安装python3的时候就提前配置好,可以看下这个文档

python报错:ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1_Mumunu-的博客-CSDN博客

下载,并解压Python3安装包

wget https://www.python.org/ftp/python/3.8.16/Python-3.8.16.tgz
tar -zxvf Python-3.8.11.tgz

下载一堆依赖

yum install -y zlib-devel bzip2-devel \
openssl-devel ncurses-devel epel-release gcc gcc-c++ xz-devel readline-devel \
gdbm-devel sqlite-devel tk-devel db4-devel libpcap-devel libffi-devel

进行Python3的编译

mkdir /usr/local/python3
cd Python-3.8.16
./configure --prefix=/usr/local/python3
make && make install

然后部署docker

#下载docker-20.10.0包
https://download.docker.com/linux/static/stable/x86_64/docker-20.10.0.tgz
#下载docker-compose对应系统的包
curl -SL https://github.com/docker/compose/releases/download/v2.20.3/docker-compose-linux-x86_64 -o /usr/local/bin/docker-compose

chmod +x /usr/local/bin/docker-compose
tar -zxvf docker-20.10.0.tgz
#将解压出来的docker文件内容移动到 /usr/bin/ 目录下
cp docker/* /usr/bin/
#查看docker版本
docker version
#查看docker信息
docker info

配置docker

配置Docker开机自启动服务
#添加docker.service文件
vi /etc/systemd/system/docker.service
#按i插入模式,复制如下内容:
[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
After=network-online.target firewalld.service
Wants=network-online.target
[Service]
Type=notify
# the default is not to use systemd for cgroups because the delegate issues still
# exists and systemd currently does not support the cgroup feature set required
# for containers run by docker
ExecStart=/usr/bin/dockerd
ExecReload=/bin/kill -s HUP $MAINPID
# Having non-zero Limit*s causes performance problems due to accounting overhead
# in the kernel. We recommend using cgroups to do container-local accounting.
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
# Uncomment TasksMax if your systemd version supports it.
# Only systemd 226 and above support this version.
#TasksMax=infinity
TimeoutStartSec=0
# set delegate yes so that systemd does not reset the cgroups of docker containers
Delegate=yes
# kill only the docker process, not all processes in the cgroup
KillMode=process
# restart the docker process if it exits prematurely
Restart=on-failure
StartLimitBurst=3
StartLimitInterval=60s
[Install]
WantedBy=multi-user.target
#添加文件可执行权限
chmod +x /etc/systemd/system/docker.service
#重新加载配置文件
systemctl daemon-reload
#启动Docker
systemctl start docker
#查看docker启动状态
systemctl status docker
#查看启动容器
docker ps
#设置开机自启动
systemctl enable docker.service
#查看docker开机启动状态 enabled:开启, disabled:关闭
systemctl is-enabled docker.service

安装Datahub

pip3 install acryl-datahub==0.10.5

查看版本情况。

python3 -m datahub version

 接下来是下载镜像,镜像较大,一共十几个GB,需要耐心下载

我们选择本地读配置文件启动

python3 -m datahub docker quickstart --quickstart-compose-file ./docker-compose.consumers-without-neo4j.quickstart.yml
docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml up -

这个文件从https://github.com/datahub-project/datahub/tree/master/docker/quickstart
下载

执行命令后,如果没有报错证明没有问题。

元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册,hive,hadoop,数据仓库

确认一下有没有启动这么多容器。没有就重启一次

元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册,hive,hadoop,数据仓库

访问IP:9002,启动成功

一些基本命令

#启动
docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml up -
#停止
docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml stop

查看有哪些插件
python3 -m datahub check plugins --verbose

缺少插件的时候安装对应插件
pip3 install 'acryl-datahub[数据源]'
例如
pip3 install 'acryl-datahub[mysql]'

导入hive元数据

首先把部署datahub的机器上添加keyberos客户端环境

安装kerberos客户端
yum -y install krb5-libs krb5-workstation
 
同步KDC配置
scp hadoop102:/etc/krb5.conf /etc/krb5.conf
scp hadoop102:/etc/security/keytab/ranger_all_publc.keytab /etc/security/keytab/
 
验证能否连接到服务
kinit -kt /etc/security/keytab/ranger_all_publc.keytab  hadoop/hadoop102@ZHT.COM

 配置hive数据源就不使用web界面配置了,不然会报错在kerberos数据库没有相应的授权,猜测应该是在datahub的docker环境中没有相应的授权

 
安装sasl 不然后边会报错少这个包
yum install cyrus-sasl  cyrus-sasl-lib  cyrus-sasl-plain cyrus-sasl-devel cyrus-sasl-gssapi  cyrus-sasl-md5
 
pip install sasl
 
安装hive插件
pip install 'acryl-datahub[hive]'
 
 
配置hive相应的yml 并保存成 hive.yml
 
 

source:
  type: hive
  config:
    host_port: xxxx:10000
    database: test 
    username: hive
    options:
      connect_args:
        auth: KERBEROS
        kerberos_service_name: hive
        scheme: 'hive+https'
sink:
  type: "datahub-rest"
  config:
    server: 'http://IP:8080'
    token: 如果有就写


 
之后导入python -m  datahub --debug ingest -c hive.yml
也可以把debug去掉 。不然日志太多
 
脚本定时导入hive数据
 
 
import os
import subprocess
 
yml_files = [f for f in os.listdir('/root/datalineage') if f.endswith('.yml')]
 
 
for file in yml_files:
    cmd = f"python3 -m datahub ingest -c {file}"   
    subprocess.run(cmd, shell=True, check=True)

导入mysql元数据

安装hive插件
pip install 'acryl-datahub[mysql]'
 
 
配置相应的yml 并保存成 mysql.yml
  
source:
  type: mysql
  config:
    # Coordinates
    host_port: master:3306
    database: dolphinscheduler
    # Credentials
    username: root
    password: lovol
    # If you need to use SSL with MySQL:
    # options:
    #   connect_args:
    #     ssl_ca: "path_to/server-ca.pem"
    #     ssl_cert: "path_to/client-cert.pem"
    #     ssl_key: "path_to/client-key.pem"
sink:
  # sink configs
  type: datahub-rest
  config:
    server: http://slave1:8080


 
之后导入python -m  datahub --debug ingest -c mysql.yml
 

不过我用这个没导入成功。我用的web 界面

 元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册,hive,hadoop,数据仓库元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册,hive,hadoop,数据仓库

选择mysql 填入基本信息。都是字面意思。无坑 next 就好了。开始执行的时候可以看看日志。查一下是不是有什么问题。注意web直接调用的python和pip命令 需要把环境变量设置过去。不能用python3文章来源地址https://www.toymoban.com/news/detail-732528.html

到了这里,关于元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据治理之关键环节元数据管理开源项目datahub探索

    @ 目录 概述 定义 核心功能 概念 元数据应用 其他开源 架构 概览 组件 元数据摄取架构 服务体系结构 本地部署 环境要求 安装 摄取样例 摄取入门 介绍 核心概念 命令行MySQL摄取示例 配置ClickHouse摄取示例 datahub 官网地址 https://datahubproject.io/ 最新版本v0.10.2 datahub 官网文档地址

    2024年02月04日
    浏览(45)
  • 基于DataHub元数据血缘管理实施方案

    目录 1. 元数据管理实施方案总览 2. 元数据分类 2.1 技术元数据 2.2 业务元数据 3. 元数据标签体系  基础标签  数仓标签  业务标签 潜在标签 4. 表元数据 4.1  基于pull机制抽取元数据 web端ui方式 cli端yml方式 yml解析 yml模板 4.2. RESET-API方式 API-MEDTADA人工构建模板 5. 血缘元数据

    2024年02月08日
    浏览(35)
  • 前端页面性能优化,性能测试算法优化,MeterSphere开源持续测试平台v2.10.5 LTS版本发布

    2023年8月7日,MeterSphere一站式开源持续测试平台正式发布v2.10.5 LTS版本。自2023年5月发布v2.10 LTS版本后,MeterSphere开源项目组坚持每两周发布小版本,持续进行问题的修复更新,并针对部分功能进行优化。 本次发布的MeterSphere v2.10.5 LTS版本在前端页面性能、性能测试算法、后端

    2024年02月14日
    浏览(29)
  • 数据治理管理平台——数据资产管理

    数据治理 中的资产管理是一切治理活动的起点,在数据治理活动中,占据首要地位,只有将数据真正地资产化,才能有序进行后续的深入挖掘与研究。 数据资产管理作为数据治理的重要组成部分,有效地将数据规范管理和数据处理进行能力整合,实现对具体数据的元数据描

    2024年02月15日
    浏览(31)
  • 开源大数据管理平台

              目前两大开源大数据平台CDH和HDP已闭源,国内也涌现出了一些开源的大数据平台,比如:apache bigtop 和 DataSophon。当前这两个产品都是完全开源的,并且这两个项目提供了源码和编译文档自助可控。 一、apache bigtop 项目地址:https://bigtop.apache.org         Ap

    2024年02月22日
    浏览(31)
  • 数据管理平台

    业务1-登录验证 功能: 完成验证码登录,后端设置验证码默认为:246810 代码步骤: 在utils/request.js配置 axios 请求 基地址 ,提取公共前缀地址,配置后axios请求时都会baseURL + url。 收集手机号码验证数据 基于axios调用验证码登录接口 使用Bootstrap的Alert警告框反馈结果给用户.

    2024年02月12日
    浏览(36)
  • 开源数据资产(元数据)管理平台选型对比

    尽管数据行业的新词热度,由大数据平台-数据治理-数据中台-数字化转型(现代数据技术栈)转换,做为这些新词的基础组成部分,数据资产管理平台/元数据管理平台/数据目录管理平台等技术方案,依旧处于Gartner曲线的爬升恢复期,相关平台百花齐放,一统江湖的开源平台

    2024年01月24日
    浏览(35)
  • 开源大数据管理平台选型

    随着CDH和HDP的闭源,还有国内信创需求,经过前期调研和后期实践,目前主要有两个产品满足要求:apache bigtop 和 DataSophon 符合要求。因为这两个产品都是完全开源的,自助可控。 项目地址:https://bigtop.apache.org Apache Bigtop 是一个开源项目,旨在提供一套完整的开源软件栈,用

    2024年02月21日
    浏览(31)
  • 全平台数据(数据库)管理工具 DataCap 管理 Rainbond 上的所有数据库

    DataCap是用于数据转换、集成和可视化的集成软件,支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。通过该 DataCap 可以实现对多个数据源的管理,对数据源下的数据进行各种操作转换,制作数据图表,监控数据源等功能。 安装 Rainbond,可通过一条

    2023年04月21日
    浏览(40)
  • AJAX——黑马头条-数据管理平台项目

    功能: 登录和权限判断 查看文章内容列表(筛选,分页) 编辑文章(数据回显) 删除文章 发布文章(图片上传,富文本编辑器) 技术: 基于Bootstrap搭建网站标签和样式 集成wangEditor插件实现富文本编辑器 使用原生JS完成增删改查等业务 基于axios与黑马头条线上接口交互

    2024年04月27日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包