二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year)

这篇具有很好参考价值的文章主要介绍了二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、目的

对于以month、year为分区字段的数据,不是像day字段分区那样每天增量插入更新即可,而是要以部分字段查询、部分字段更新,但是ClickHouse数据库并不适合更新操作,直接使用Kettle的插入更新控件会导致问题,必须曲线实现这个功能

二、Hive的DWS层建表语句和ClickHouse的ADS建表语句

(一) Hive的DWS层建表语句

create  table  if not exists  dws_avg_volume_day_month(
    scene_name             string      comment '场景名称',
    device_direction       string      comment '雷达朝向',
    sum_volume_month       int         comment '每月总流量',
    count_day              int         comment '每月总天数',
    avg_volume_day_month   int         comment '月均维度的日平均流量'
)
comment '月均维度的日平均流量表'
partitioned by (month string)
stored as orc
;

(二)ClickHouse的ADS建表语句

create  table  if not exists  hurys_dc_ads.ads_avg_volume_day_month(
    scene_name             String      comment '场景名称',
    device_direction       String      comment '雷达朝向',
    sum_volume_month       int         comment '每月总流量',
    count_day              int         comment '每月总天数',
    avg_volume_day_month   int         comment '月均维度的日平均流量',
    month                  String      comment '月份'
)ENGINE = MergeTree
PARTITION BY (month)
PRIMARY KEY month
order by month
SETTINGS index_granularity = 8192;

对于这类表,每天执行任务时scene_name、device_direction、month等String字段基本并不需要变,只有sum_volume_month、count_day、avg_volume_day_month等Int字段需要每日更新

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

三、对于插入更新这种需求,一般使用Kettle的增量插入更新

(一)似MySQL关系型数据库

如果似MySQL这种关系型数据库,适合增删改查等事务性操作,那么可以直接用Kettle的插入更新控件

1、Kettle的插入更新任务步骤(样例直接全量插入更新)

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(1)关键是插入更新控件配置

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

2、在MySQL中直接修改表中数据

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

3、再次运行Kettle任务

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

4、在MySQL目标表中验证数据

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

数据量并没增加,只是发生更新

(二)类ClickHouse列式存储数据库

但是,对于ClickHouse这种列式存储数据库,不适合删除、修改等事务性操作,则没法直接使用Kettle的插入更新控件

1、Kettle的插入更新任务步骤

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(1)关键是插入更新控件配置

用来查询的关键字是不需要基本不需要变更的字段,一般是主键,如果没有主键则几个字段组合成主键

更新字段是所有字段,不能把更新N,否则相关字段只能插入不能更新

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

2、用Kettle插入更新控件实现增量插入更新后,如果数据没有更改则运行没有问题

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

3、但是如果更改部分字段的数据,则会报错

(1)先在Hive中增加一天数据以增加DWS层表中数据

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(2)再次运行Kettle任务,则会报错

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

所以,对于相同的插入更新控件配置,导入MySQL插入更新可以,导入ClickHouse插入更新则失败!

四、对于从Hive到ClickHouse,要实现插入更新的功能,只能先删除ClickHouse表数据再导入数据

(一)删除ClickHouse数据方式

删除ClickHouse数据虽然有几种方法,可以delete,也可以删除分区,也可以truncate,也可以TTL设置保存时间,还可以删除数据文件,但是对这种需要即时删除ClickHouse表中最新的分区数据,无法用delete、TTL等方式实现,而删除分区又太麻烦,刚好这几张表的数据量较少,因此先采用truncate方式,先删除表数据,再全量导入即可

(二)truncate方式实现方法

1、SQL运行

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

2、在表输出控件中勾选✔剪裁表

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

这两种方式都试过,都可以!

但是为了避免勾选✔剪裁表后面可能导致问题,还是实现SQL实现稳妥些

五、Kettle任务步骤

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(一)执行SQL脚本

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(二)hive输入

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(三)字段选择

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(四)clickhouse输出

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(五)保存后运行kettle任务

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(六)查看ClickHouse中表数据

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

六、验证是否实现插入更新功能

(一)删除Hive中1天的数据

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(二)运行Kettle任务

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

(三)查看ClickHouse中表数据

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),Kettle,hive,clickhouse,kettle

数据量不变,只是2月份的数据发生改变,算是实现了ClickHouse插入更新的功能!

后面如果有更好的方法就再完善,目前能用就行文章来源地址https://www.toymoban.com/news/detail-832230.html

到了这里,关于二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 第二百六十四回

    我们在上一章回中介绍了SliverPadding组件相关的内容,本章回中将介绍Sliver综合示例.闲话休提,让我们一起Talk Flutter吧。 我们在前面的章回中介绍了各种Sliver相关的组件:SliverList,SliverGrid,SliverAppBar和SliverPadding,本章回将综合使用它们。下面是示例程序的 运行效果图。不过

    2024年01月18日
    浏览(35)
  • 第一百二十七回 空安全

    我们在上一章回中介绍了级联操作符相关的内容,本章回中将介绍 空安全 .闲话休提,让我们一起Talk Flutter吧。 在编译语言中都有空指针或者空对象(null),它们会引起程序的异常。在移动开发中如果使用Java和OC开发程序,发生这类异常后会使应用程序被系统强制关闭,业内通

    2024年02月11日
    浏览(32)
  • 二百三十二、Kettle——修改MySQL中历史数据为当前系统日期并增量同步到ClickHouse中

    由于一些雷达死了但是又需要有数据进行展示,于是就把这些雷达的历史数据,修改日期为当前日期后,增量同步到ClickHouse中, 1、获取当前日期,并且修改历史数据的create_time字段的日期部分 2、如果采用增量表输出的话,还需要获取ClickHouse表中的最新时间,这样有2个变量

    2024年04月13日
    浏览(32)
  • JAVA面试题分享三百二十:ES超详细讲解

    目录 生活中的数据 先说说 Lucene 核心概念 集群(Cluster) 发现机制 节点的角色 脑裂现象 分片(Shards) 副本(Replicas) 映射(Mapping) 基本使用 安装使用 集群健康状态 机制原理 写索引原理 存储原理 分段存储 延迟写策略 段合并 性能优化 存储设备 内部索引优化 调整配置参

    2024年01月24日
    浏览(31)
  • ThinkpadP15V局域网唤醒电脑开关机(一百二十八)

    一、唤醒端各平台工具:Android/Windows/IOS   二、被唤醒端配置:ThinkpadP15V(Linux OS)

    2024年02月17日
    浏览(36)
  • 第一百二十五回 dart中List和Map的常见用法

    我们在上一章回中介绍了Flexible组件相关的内容,本章回中将介绍 dart中的List和Map .闲话休提,让我们一起Talk Flutter吧。 我们在这里介绍的List也叫列表,它表示一组相同类型变量的集合。map也叫映射或者字典,它表示键值对的组合。在高级语言中都有list和map,比如Java,Swift以及

    2024年02月10日
    浏览(29)
  • 第一百二十一天学习记录:线性代数:矩阵乘法运算(宋浩板书)

    在编程和学习数据结构的过程中,发现有些算法会用到矩阵和矩阵的乘法运算,因此先将这一个知识点学习一下。 乘法☆ 总结三条不满足

    2024年02月13日
    浏览(29)
  • 第一百二十二天学习记录:C++提高:STL-vector容器(上)(黑马教学视频)

    功能: vector数据结构和数组非常相似,也称为单端数组 vector与普通数组区别: 不同之处在于数组是静态空间,而vector可以动态扩展 动态扩展: 并不是在原空间之后续接新的空间,而是找更大的内存空间,然后将原数据拷贝新空间,释放原空间 vector容器的迭代器是支持随机

    2024年02月14日
    浏览(35)
  • 第一百二十四天学习记录:C++提高:STL-deque容器(上)(黑马教学视频)

    功能: 双端数组,可以对头端进行插入删除操作 deque与vector区别 vector对于头部的插入删除效率低,数据量越大,效率越低 deque相对而言,对头部的插入删除速度比vector快 vector访问元素的速度会比deque快,这和两者内部实现有关 deque内部工作原理: deque内部有个中控器,维护

    2024年02月13日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包