kettle的下载安装以及问题点

这篇具有很好参考价值的文章主要介绍了kettle的下载安装以及问题点。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、kettle下载以安装

1)kettle的官网下载地址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net

2)如果需要下载其他版本:

直接点击对应的版本Name(8.0以下的是在Data Integration文件夹里面)进去,再选择client-tools点击进去,最后选择pdi-ce-xxx.zip进行下载。

kettle下载,kettle,大数据,大数据​ 

3)安装

不管是windows和linux环境下安装都是直接解压即可,再配置jdk环境。同步数据时,需要在lib加入对应的数据库驱动包


2、Kettle的注意点与问题点

【Kettle-201】${Internal.Entry.Current.Directory},该参数要求ktr文件和job文件必须放到同一目录下。

当然,可以给他加后缀设置不一样的路径,或者直接把对应文件的路径放进去

【Kettle-202】 输入和输出的字段格式不一致

以ElasticSearch为输入源,数据库为输出为例,es可能是驼峰命名字段,数据库可能是下划线命名。处理时可以在idea通过camelBar插件进行辅助转换。(快捷键:Alt+Shift+U 或者通过Edit-->camelBar)

【Kettle-203】hive相关问题,如果是同步到hive,默认情况下表输出是比较慢的,需要修改big-data-plugin插件源码。

异常原因:在kettle的big-data-plugin插件的源码中把批量提交的方法关闭了,所以其只能单挑插入,效率就非常低。

解决办法:

1)下载big-data-plugin插件源码(github上面直接搜索),选择与当前kettle版本对应的源码版本,如cdh510;
2)kettle官网下载kettle程序(暂且称为安装版);
3)在Idea上新建一个Java Project,把下载的插件源码解压,src下的文件拷贝到工程目录src下,工程中新建lib目录,把kettle安装版目录/lib下的kettle-core-版本号.jar、kettle-dbdialog-版本号.jar、kettle-engine-版本号.jar、kettle-ui-版本号.jar 四个jar包拷贝到工程lib目录并buildpath;
4)把工程src下除了org.pentaho.di.core.database 包之外的其他包都删除(这里只用hive2数据库连接,所以其他大数据插件就不要了,个人可以根据自身需求而定。);
5)修改Hive2DatabaseMeta类中的 public boolean supportsBatchUpdates()方法,把返回值由false改为true;
6)把工程达成jar包,名称参考安装版 plugins/pentaho-big-data-plugin/下的pentaho-big-data-plugin-版本号.jar的名字,然后替换安装版这个jar包为工程导出的jar包,重启kettle,DB连接的HadoopHive2连接的特征列表的supportsBatchUpdate已经是Y了,实际转换中的表输出速度也提高到几千条每秒。后台spark界面看提交的sql语句也变成batchinsert而不是之前的insert。

参考文章:https://download.csdn.net/download/weixin_43861380/11166617?utm_source=bbsseo

【Kettle-204】kettle连接不上hive

异常原因:如果使用kettle版本过高,hive版本过低,可能会导致连接不上hive。

解决方案:① 可以通过修改源码来解决。

② 也可以直接下载个低版本的kettle,修改plugin.properties配置文件(active.hadoop.configuration=),指定对应的CDH的版本(假设使用使用cdh)

data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations可以看到对应的大数据一些组件版本。

【Kettle-205】Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException: Column 'id' cannot be null

异常原因:① 如果目标表有主键,过来的数据为空,也会报主键不能为空的问题。② 如果是通过REST client就可能是查询条件出问题。

解决方案:① 确保同步同步过来的数据不为空

② 检查查询语句是否有异常

【Kettle-206】Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x9A\x80WZ...' for column

 异常原因:通常情况,Mysql数据编码格式为“utf-8”,对于汉字来说足够;Mysql中utf8占3个字节,但是,3个字节对于表情符号是不够的,需4个字节;此时使用utf8,会出现‘\xF0\x9F\x8D\x83\xF0\x9F’的问题。

utf8mb4编码是utf8编码的超集,兼容utf8,并且能存储4字节的表情字符。

解决方案:

① 设置kettle的数据库连接的配置(这种设置后可能连接不上数据库,数据库那边可能还要调整)

kettle下载,kettle,大数据,大数据

② 针对字段修改编码格式为utf8mb4(推荐使用)

ALTER TABLE table_name CHANGE field_name field_name VARCHAR(64) CHARACTER SET utf8mb4 ; 

③ 修改数据库表的编码格式,修改为utf8mb4;修改Mysql配置文件my.cnf(windows下为my.ini),然后重启数据库 。

[client]
default-character-set = utf8mb4
[mysql]
default-character-set = utf8mb4
[mysqld]
character-set-server = utf8mb4

参考文章:解决Mysql:Incorrect string value: '\xF0\x9F\x8D\x83\xF0\x9F...' for column_春风化作秋雨的博客-CSDN博客_incorrect string value:

【Kettle-207】目标表新增字段,kettle同步的时候无法显示的问题 

异常原因:主要是kettle缓存问题导致的

解决方案:直接在最后的输出步骤里,点击下方的SQL进行缓存清理。

kettle下载,kettle,大数据,大数据


 3、kettle启动停止工具脚本

#!/bin/sh
# @date 2023-01-03
# kettle启动停止工具脚本

KJB_NAME=$2
## kettle的父路径
KETTLE_PATH='/opt/module/kettle/pdi-ce-8.2.0.0-342'

## 使用说明,用来提示输入参数
usage(){
    echo "Usage: sh 脚本名.sh [start|stop|restart|status|tail] [KJB_NAME]"
    exit 1
}

## 检查执行的文件是否存在
is_exist(){
    if [[ ! -e ${KETTLE_PATH}/jobs/${KJB_NAME}.kjb ]]; then
        echo "该${KJB_NAME}.kjb在${KETTLE_PATH}/jobs/下不存在!"
        exit 1
    fi
}

## 检查程序是否在运行
is_running(){
    pid=`ps -ef|grep ${KJB_NAME}.kjb|grep -v grep|awk '{print $2}'`
}

## 启动方法
start(){
    is_exist
    is_running
    echo "pid=${pid}"
    if [[ -z "${pid}" ]]; then
        nohup ${KETTLE_PATH}/data-integration/kitchen.sh -file=${KETTLE_PATH}/jobs/${KJB_NAME}.kjb >> ${KETTLE_PATH}/logs/${KJB_NAME}.log 2>&1 &
        echo "${KJB_NAME} start success!"
    else
        echo "${KJB_NAME} is already running."
    fi
}

## 关闭方法
stop(){
    is_running
    if [[ -z "${pid}" ]]; then
        echo "${KJB_NAME} is not running!"
    else
        echo "${KJB_NAME}, Trying to kill the pid=${pid}."
        kill -9 ${pid}
        echo "${KJB_NAME} stop success!"
    fi
}

## 重启方法
restart(){
     stop
     start
}

## 启动方法
status(){
    is_exist
    is_running
    echo "pid=${pid}"
    if [[ -z "${pid}" ]]; then
        nohup ${KETTLE_PATH}/data-integration/kitchen.sh -file=${KETTLE_PATH}/jobs/${KJB_NAME}.kjb >> ${KETTLE_PATH}/logs/${KJB_NAME}.log 2>&1 &
        echo "${KJB_NAME} start success!"
    else
        echo "${KJB_NAME} is already running."
    fi
}

if [[ $# -lt 2 ]]; then
	usage
fi

case $1 in
	"start")
		echo "=================== start kettle_kjb ==================="
		start
	;;
	"stop")
		echo "=================== stop kettle_kjb ==================="
		stop
	;;
	"restart")
		echo "=================== restart kettle_kjb ==================="
		restart
	;;
	"status")
		echo "=================== status kettle_kjb ==================="
		ps -ef|grep ${KJB_NAME}.kjb|grep -v grep
	;;
	"tail")
		echo "=================== tail kettle_kjb ==================="
		tail -60f ${KETTLE_PATH}/logs/${KJB_NAME}.log
	;;
	*)
		echo "Input Args Error..."
	;;
esac

参考文章:https://www.cnblogs.com/hls-code/p/16282329.html


 文章来源地址https://www.toymoban.com/news/detail-821924.html

到了这里,关于kettle的下载安装以及问题点的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一百五十三、Kettle——Linux上安装的kettle9.3启动后说缺少libwebkitgtk-1.0(真是坑爹啊,刚龟速下载又忍痛卸载)

    在kettle9.3可以在本地连接hive312后,在Linux中安装了kettle9.3,结果启动时报错WARNING:  no libwebkitgtk-1.0 detected, some features will be unavailable 而且如果直接下载libwebkitgtk的话也没有用 [root@hurys22 data-integration]# yum install install libwebkitgtk   [root@hurys22 data-integration]# wget ftp://ftp.pbone.net/mirr

    2024年02月13日
    浏览(49)
  • 一百四十九、Kettle——Linux上安装的kettle8.2创建共享资源库时遇到的问题(持续更新中)

    在kettle8.2在Linux上安装好可以启动界面、并且可以连接MySQL、Hive、ClickHouse等数据库后开始创建共享资源库,但是遇到了一些问题 1、报错详情 2023/08/10 13:57:21 - Spoon - Caused by: java.lang.UnsatisfiedLinkError: Could not load SWT library. Reasons:  2023/08/10 13:57:21 - Spoon -     no swt-mozilla-gtk-4335 i

    2024年02月13日
    浏览(67)
  • 神器抓包工具 HTTP Analyzer v7.5 的下载,安装,使用,破解说明以及可能遇到的问题

    A1: HTTP Analyzer 是一款抓取网络数据包的软件,能够对抓取的数据包进行分析。 A2:下载链接:http://pan.baidu.com/s/1bG7KU6。 A3:解压刚刚下载好的软件,选择如下图所示的setup.exe点击安装,一路next即可完成。 完成后桌面会生成一个相应的图标: A4:(1)双击刚刚的桌面图标,

    2024年02月08日
    浏览(62)
  • 解决pycharm中CV2库的下载问题,以及Miniconda的安装和在pycharm中的配置

    本文是我在学习图像处理与机器视觉时,采用pycharm进行图像处理时遇到的问题,水平有限,如有不对的地方欢迎大家批评指正,共同探讨。本文使用的pycharm版本为2021.3中文版。 在学习图像处理与机器视觉时,使用到了pycharm对图像进行采样和量化。在pycharm中输入import CV2时,

    2024年02月02日
    浏览(69)
  • MySQL 8.0.35数据库的下载安装以及环境变量的配置

    记录数据库的下载安装方法,供初学者学习。 1.在mysql官网MySQL点击下载跳转页面。 2.选择社区版MySQL Community (GPL) Downloads »下载。 3.选择对应的版本,这里我选择的是windows的MySQL Installer for Windows。 4.跳转至以下页面后,蓝色箭头对应网页版本安装,红色箭头对于本地安装,我

    2024年02月05日
    浏览(65)
  • SQL Server Management Studio (SSMS)下载,安装以及连接数据库配置

    目录 (一)前言 (二)下载与安装 1. 下载 (1)下载地址 (2)SSMS对操作系统的要求 2. 安装 (1)存放下载好的安装包 (2) 双击进入安装 3. SSMS的简单使用 (1)打开SSMS (2)SSMS登录配置框填写 (3)删除登录界面上的记录 (三)卸载SSMS 1. 进入控制面板 2.  找到卸载软件

    2024年02月03日
    浏览(38)
  • MySQL 5.7详细下载安装配置以及C# MySQL数据库操作教程

    MySQL 5.7详细下载安装配置以及C# MySQL数据库操作教程 最近有个项目使用MySQL5.7,在安装MySQL的时候会遇到很多问题,博客上其实也有很多解决问题的办法,在这里我操作记录一下,方便后续使用时查看。 以下MySQL 5.7.43 详细下载安装配置教程。 访问官方网站:https://www.mysql.co

    2024年02月09日
    浏览(48)
  • 一百四十七、Kettle——Linux上安装的kettle8.2连接ClickHouse数据库

    kettle8.2在Linux安装好后,需要与ClickHouse数据库建立连接 https://pan.baidu.com/s/1iqGyXsTaQSCHEbjj7yX7AA 提取码: mvzd   注意 : clickhouse-plugins文件里就是自定义的驱动jar包 注意: 要知道Linux系统架构是64位还是32位, 它们所属的Linux文件夹不同 到这里,Linux安装的kettle8.2就可以与ClickHou

    2024年02月13日
    浏览(61)
  • kettle安装、MySQL数据库连接、报错处理

      目录 1.环境配置  2.安装kettle 3.连接数据库 4.连接数据库报错处理 报错一   报错二 前言:跟kettle斗智斗勇的一下午,下面是我踩过的一些坑,希望对大家在安装配置kettle时有所帮助,首先放一张我成功的截图:   在安装使用kettle时需要配置Java环境; jdk官网下载连接如下

    2024年02月07日
    浏览(54)
  • 一百五十六、Kettle——Linux上安装的Kettle9.3连接ClickHouse数据库(亲测,附流程截图)

    kettle9.3在Linux上安装好后,需要与ClickHouse数据库建立连接 1、kettle版本是9.3 2、ClickHouse版本是21.9.5.16   https://pan.baidu.com/s/1iqGyXsTaQSCHEbjj7yX7AA 提取码: mvzd 注意 : clickhouse-plugins文件里就是自定义的clickhouse驱动jar包    注意 : 要区分Linux系统架构是64位还是32位, 它们所属的L

    2024年02月12日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包