pentaho(keetle)数据同步实践

这篇具有很好参考价值的文章主要介绍了pentaho(keetle)数据同步实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

pentaho(keetle)数据同步实践

1 pentaho简介

pentaho可读作“彭塔湖”,在keetle被pentaho公司收购后改名而来。

pentaho是一款开源ETL工具,纯java编写的C/S模式的工具,可绿色免安装,开箱即用。支持Windows、macOS、Linux平台。

pentaho有2个核心设计,即转换作业

转换是一个包含输入、逻辑处理、输出的完整过程,即ETL。

作业是一个提供定时执行转换的机制,即定时服务调度。

pentaho官网下载链接:Pentaho Community Edition Download | Hitachi Vantara

pentaho由主要四部分组成

  • Spoon.bat/Spoon.sh :勺子,是一个图形化界面,可图形化操作转换和作业
  • Pan.bat/Pan.sh : 煎锅,可用命令行方式调用转换
  • Kitchen.bat/Kitchen.sh : 厨房,可用命令行方式调用作业
  • Carte.bat/Carte.sh : 菜单,是一个轻量级web容器,可建立专用、远程的ETL Server

2 pentaho安装

由于是纯java编写,依赖jdk环境。所以需要先配置jdk环境,这里省略。

从官网下载pentaho安装包后,直接解压。

重点目录以及执行文件说明

  • lib目录 : 这是依赖库目录,例如各个数据库的jdbc驱动,都放在此目录下
  • logs目录 :这是转换和作业运行的默认日志输出目录
  • simple-jndi目录 :这是各个数据库的JNDI连接信息的全局配置
  • Spoon.bat/Spoon.sh :勺子,是一个图形化界面,可图形化操作转换和作业
  • Pan.bat/Pan.sh : 煎锅,可用命令行方式调用转换
  • Kitchen.bat/Kitchen.sh : 厨房,可用命令行方式调用作业
  • Carte.bat/Carte.sh : 菜单,是一个轻量级web容器,可建立专用、远程的ETL Server

3 数据同步案例

这里使用sqlserverpostgresql同步。在Windows平台上操作。

3.1 执行Spoon.bat文件,启动图形化界面

可以看到左侧只有作业转换

3.2 创建一个转换,右键,新建

左侧是一些转换插件。

3.3 创建一个数据源输入,展开输入,选择表输入

切换到主对象树,选择DB连接,连接数据源。

由于我这里是sqlserver同步到postgresql,所以需要创建sqlserver和postgresql的DB连接

创建连接前,需要先下载sqlserver的 jdbc驱动mssql-jdbc-12.2.0.jre8.jar 和 postgresql的jdbc驱动postgresql-42.6.0.jar,我这里直接选的最新版。

sqlserver的连接

​ sqlserver的连接,如果选择JNDI则无法连接,目前猜测可能是驱动版本问题

postgresql的连接

点击测试,如果连接成功,则会弹框提示

3.4 编辑表输入

先选择数据库连接

点击获取SQL查询语句,获取数据表

选择一个数据表后,会提示是否选择全部字段,选择是

点击确定,一个表输入就做好了。

3.5 创建一个数据源输出

如果是全表覆盖同步,则选择表输出,因为这里是需要根据主键判断是否重复,重复则更新,否则就插入,因此这里选择 插入/更新

展开输出节点,选择 插入/更新,并将其拖入到右侧图形界面中,然后将表输入连线到当前节点,按住shift+鼠标左键

这里如果不先连线的话,在配置映射字段时,就无法获取源表字段,需要自行输入

双击进行编辑

点击确定后,一个转换就完成了

点击左上角的运行按钮,即可执行同步了。


Q1:这是一个单表转换,那如果需要一次同步多个表呢?

A1:那就继续按此步骤进行配置,多表转换配置完成后如下

Q2:那表数量很多,这么配置很费时间,有什么更好的办法么?

A2:有。可以编写脚本,正在学习中……


Q3: 前面的转换已经配置完成了,但是只能手动点击运行,能否定时自动运行?

A3:可以。继续看第4节。


4 定时服务

选择文件–>新建–>作业,即可创建一个作业。

在作业窗口,选择核心对象,展开通用,选择Start、转换、成功,分别拖入图形界面中,并按顺序连线

双击转换就,进行编辑,选择转换文件

无论转换、还是作业,都是以xml文件形式保存在本地

此时一个作业即配置完成,但是注意,还没达到定时运行的目的,继续配置

双击Start,对作业进行配置

配置完后点击确定,然后点击图形界面的运行按钮,定时服务即启动了

在日志输出窗口,可看到服务运行日志

至此,pentaho的定时数据同步已完成。


Q4: 定时服务开启后,这个程序窗口被关了或者说程序退出了,服务还运行吗?

A4:不会。由于是C/S模式,客户端服务端一体,进程退出即服务停止


Q5:那有类似后台服务的方式,悄悄运行呢,不被这个界面退出所终止服务?

A5:有。请看第5节。


5 以后台方式运行作业

在介绍中提到,有个Kitchen.bat/Kitchen.sh(厨房)的执行文件,它的作用就是用命令方式调用作业。由于是在Windows平台,所以选择Kitchen.bat执行文件。

打开控制台窗口,进入pentaho安装目录,即Kitchen.bat所在目录,执行如下命令

kitchen /file:{job file path} /level:Basic>>{log file path}

说明:

/file 参数指定 job文件

/level 参数指定日志级别,并写入指定的文件

指定日志文件后,控制台界面就不会输出日志,否则日志会在控制台输出,像下面这样


Q6:总开着一个控制台黑框,也不太好,窗口被关了,服务不也停止了吗?有什么更好的方式吗?

A6:是的。有。可以隐藏掉黑窗口,那么继续往下看。


5.1 隐藏控制台窗口

在Kitchen.bat同级目录下创建一个txt文本文件,输入如下内容

@echo off 
if "%1" == "h" goto begin 
mshta vbscript:createobject("wscript.shell").run("%~nx0 h",0)(window.close)&&exit 
:begin
kitchen /file:"替换为job文件路径" /level:Basic>>"替换为日志文件路径"

然后以ANSI编码方式另存为.bat文件。用ANSI编码,是防止文件路径有中文出现乱码。

至此,一个完成的pentaho定时数据同步作业服务就完成了。文章来源地址https://www.toymoban.com/news/detail-637739.html

到了这里,关于pentaho(keetle)数据同步实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • !!!!建议收藏 Rsync项目实践:数据备份 (文件同步到服务器)

    基本备份要求 准备三台服务器,两台web服务器、一台rsync备份服务器 主机名分别为web01、web02、backup [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rLf7EhNj-1666099690586)(…/…/图片/image-20221018164708556.png)] 客户端需求 1.客户端每天凌晨01点在服务器本地

    2023年04月08日
    浏览(76)
  • MySQL与ES数据同步的四种方案及实践演示

    也就是同步调用,这是一种最为简单的方式,在将数据写到mysql时,同时将数据写到ES。 1.业务逻辑简单 2实时性高 1.硬编码,有需要写入mysql的地方都需要添加写入ES的代码 2.业务强耦合 3.存在双写失败丢数据风险 4.性能较差:本来mysql的性能不是很高,再加一个ES,系统的性

    2024年02月09日
    浏览(44)
  • DolphinScheduler 调度 DataX 实现 MySQL To ElasticSearch 增量数据同步实践

    基于SQL查询的 CDC(Change Data Capture): 离线调度查询作业,批处理。把一张表同步到其他系统,每次通过查询去获取表中最新的数据。也就是我们说的基于SQL查询抽取; 无法保障数据一致性,查的过程中有可能数据已经发生了多次变更; 不保障实时性,基于离线调度存在天然的

    2024年02月03日
    浏览(44)
  • ApacheStreamPark2.1.0部署及执行flink-cdc任务同步mysql表的数据到es的实践

    ApacheStreamPark是流处理极速开发框架,流批一体 湖仓一体的云原生平台,一站式流处理计算平台。   特性中的简单易用和文档详尽这两点我也是深有体会的,部署一点都不简单,照着官方文档都不一定能搞出来,下面部署环节慢慢来吐槽吧。   之前我们写 Flink SQL 基本上

    2024年02月11日
    浏览(48)
  • ETL工具-pentaho企业实战部署

    📢📢📢📣📣📣 哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】!😜😜😜 中国DBA联盟(ACDU)成员,目前服务于工业互联网 擅长主流Oracle、MySQL、PG、高斯及GP 运维开发,备份恢复,安装迁移,性能优化、

    2023年04月13日
    浏览(35)
  • canal实现MySQL和ES同步实践

    canal是阿里开源的数据同步工具,基于binlog可以将数据库同步到其他各类数据库中,目标数据库支持mysql,postgresql,oracle,redis,MQ,ES等。 MySQL的主从复制是依赖于binlog,也就是记录MySQL上所有操作的逻辑日志保存在磁盘上。主从复制就是将binlog中的数据从主库传输到从库上,一般这

    2024年04月14日
    浏览(54)
  • 【网易云信】音画同步测试方法的研究与实践

    随着移动互联网的普及和网络带宽的提高,音视频通话越来越成为人们生活和工作中不可或缺的一部分。音画同步是音视频体验的一个重要指标,在音视频传输过程中,由于不同的传输策略因为网络的干扰,音频和视频往往难以同时到达,即使在网络层面对齐后在设备侧音频

    2024年02月09日
    浏览(37)
  • Qt5.14.2 Qt多线程实战演练,全面掌握线程同步和线程池最佳实践

    多线程编程是每个开发者必须掌握的基本能力之一。在上一篇文章中,我们学习了Qt多线程编程的理论知识。本文将切入实战,提供多个案例代码,帮助你彻底掌握Qt的多线程编程实践技巧。 案例1: 使用QThread执行耗时任务 这个案例演示了如何通过继承QThread和重写run()函数,在

    2024年03月20日
    浏览(41)
  • AutoSAR配置与实践(深入篇)7.5 NVM架构、存储形式及隐式显式同步

    -返回总目录- NvM 处于BSW中的Service层,具体的Memory Service协议栈分层如下 Memory Service(NvM) Memory Hardware Abstraction(Memory If和Fee/Ea) Memory Driver(Fls/Eep驱动) NvM模块与其他模块主要交互业务简介: 模块简介: NVM: 全称NVRAM Manager ,存储服务管理模块。主要提供抽象数据存储,在上

    2024年02月09日
    浏览(54)
  • Go-Ldap-Admin | openLDAP 同步钉钉、企业微信、飞书组织架构实践和部分小坑

    目录 一、Docker-compose快速拉起demo测试环境 二、原生部署流程 安装MySQL:5.7数据库 安装openLDAP 修改域名,新增con.ldif 创建一个组织 安装OpenResty 下载后端 下载前端 部署后端 部署前端 三、管理动态字段 钉钉 企业微信 飞书 四、部分报错 Go-Ldap-Admin官网:Go-Ldap-Admin 本文用于记

    2024年02月07日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包