尝试开源一款mysql-es数据同步工具

这篇具有很好参考价值的文章主要介绍了尝试开源一款mysql-es数据同步工具。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

shigen坚持更新文章的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。记录成长,分享认知,留住感动。

mysql-es-synchronizer

项目介绍

mysql-es-synchronizer, 一款开源的轻量级MySQL数据增量同步到elasticsearch工具,只需简单的配置即可实现增量的数据同步。

配置文件

MySQL和elasticsearch 的配置基本和官方的 spring-boot-starter-xxx 的配置类似

spring:
  # MySQL数据库连接信息
  datasource:
    url: jdbc:mysql://shigen.com:3306/demo?characterEncoding=UTF-8&serverTimezone=Asia/Shanghai&autoReconnect=true&useSSL=false
    driver-class-name: com.mysql.cj.jdbc.Driver
    username: root
    password: xxxx
  # elasticsearch相关配置  
  elasticsearch:
    # elasticsearch集群
    uris:
      - http://localhost:9200
    # elasticsearch账号密码
    username: elastic
    password: 123456

# 同步相关配置
sync:
  # 需要同步的sql查询语句,此处的 :sql_last_value是一个固定值
  sql: select id, username, password, nickname, email, phone, gender, birthday, address, create_time, update_time from demo.user_info where update_time > :sql_last_value order by update_time asc
  # sql数据偏移量记录的文件地址
  sql_last_value_file: mysql/last_id.txt
  # 同步的定时任务
  cron: 0 * * * * *

中间件版本

  • MySQL 5.7+
  • elasticsearch 7.2.0

其它的elasticsearch版本还在陆续的测试接入中

同步原理

从文件中读取上次同步的时间,如果未读取到正确的时间,则默认从 1970-01-01 08:00:00 (东八区元年)开始。再根据数据中的字段 update_time 做为条件,查询在上次同步时间之后更新的数据。此时再将查询出的数据列表转换成json格式,批量插入到elasticsearch中。

和其它主流工具对比

特性 Canal Logstash mysql-es-synchronizer
数据同步方式 基于 MySQL binlog 实时解析 可以使用 JDBC、Logstash-input-jdbc 等插件进行实时同步 可以使用JDBC实现实时同步
支持的数据源 仅支持 MySQL 支持多种关系型数据库、NoSQL 数据库等 目前仅支持 MySQL
配置灵活性 需要配置 Canal Server 和 Destination 通过配置文件定义输入、过滤、输出等管道 需要配置配置文件
支持的数据转换功能 提供简单的字段映射和格式转换功能 支持丰富的过滤、映射、计算等功能
社区活跃度 在 MySQL 数据同步领域较为活跃 在数据同步领域有着广泛的应用和社区支持
性能 高性能,适合大规模数据同步 良好的性能,但在大规模数据同步时可能需要优化

常见问题

我的MySQL数据库没有字段 update_time 怎么办

在进行初次开发时, shigen 就考虑到了这个问题,采用的方式是 MySQL 的存储过程,下边是数据表的设计:

CREATE TABLE IF NOT EXISTS `user_info`
(
    `id`          int(11)      NOT NULL AUTO_INCREMENT COMMENT '用户 ID,主键',
    `username`    varchar(50)  NOT NULL COMMENT '用户名,唯一索引',
    `password`    varchar(255) NOT NULL COMMENT '加密后的密码',
    `nickname`    varchar(50)           DEFAULT NULL COMMENT '用户昵称',
    `email`       varchar(100)          DEFAULT NULL COMMENT '邮箱地址',
    `phone`       varchar(20)           DEFAULT NULL COMMENT '手机号码',
    `gender`      tinyint(4)   NOT NULL DEFAULT '0' COMMENT '性别:0 代表未知,1 代表男性,2 代表女性',
    `birthday`    date                  DEFAULT NULL COMMENT '出生日期',
    `address`     varchar(200)          DEFAULT NULL COMMENT '联系地址',
    `create_time` datetime     NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
    PRIMARY KEY (`id`),
    UNIQUE KEY `username` (`username`)
) ENGINE = InnoDB
  DEFAULT CHARSET = utf8mb4 COMMENT ='用户信息表';

定义存储过程

现在我们只需要在所有的表中添加字段 update_time 并设置成更新触发。在查询工具中运行创建存储过程的代码:

-- 创建存储过程
DELIMITER //
CREATE PROCEDURE add_update_time_column(
    IN dbName VARCHAR(255)
)
BEGIN
    DECLARE done INT DEFAULT FALSE;
    DECLARE tableName VARCHAR(255);
    DECLARE cur CURSOR FOR SELECT table_name FROM information_schema.tables WHERE table_schema = dbName;
    DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = TRUE;

    OPEN cur;
    read_loop: LOOP
        FETCH cur INTO tableName;
        IF done THEN
            LEAVE read_loop;
        END IF;

        SET @columnExists = (SELECT COUNT(*) FROM information_schema.columns WHERE table_schema = dbName AND table_name = tableName AND column_name = 'update_time');

        IF @columnExists = 0 THEN
            SET @alterSql = CONCAT('ALTER TABLE ', tableName, ' ADD COLUMN update_time DATETIME NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT \'更新时间\'');
            PREPARE stmt FROM @alterSql;
            EXECUTE stmt;
            DEALLOCATE PREPARE stmt;
        END IF;
    END LOOP;

    CLOSE cur;
END //
DELIMITER ;

调用

需要注意的是:存储过程我们定义成了类似于函数的形式,它的参数之一就是 dbName

call add_update_time_column('demo');

删除存储过程

DROP PROCEDURE IF EXISTS add_update_time_column; 

为什么不采用开源的ORM框架来便利数据的查询展示

其实提到这个问题,确实我们很喜欢偷懒,像 mybatis-pluseasy-es 这类的ORM框架,只需要直接调用封装好的接口,轻松实现数据的查询转换,而作者这里使用的是原生的 JDBC 。但是作为中间件,我们更在意的性能,在 shigen 的文章EasyExcel实现复杂数据导入中用到了原生的JDBC。

在后期,也会逐渐的摆脱 spring-boot-starter-jdbcspring-boot-starter-data-elasticsearch 的依赖,采用原生的方式获得数据库的连接和操作。

后期迭代的方向

封装开箱即用的自定义 starter

后期实现开箱即用的 starter ,只需要导入 starter 并在配置文件中稍微配置即可实现在项目中的使用。

支持多个SQL查询同步

对标 canallogstash ,实现多个SQL查询的数据同步。

后记

目前想到的就这么多,初次尝试开源,也希望伙伴们多多支持。您的建议我也会认真的采纳,共同推进项目的优化和开源生态的持续发展。也可关注GitHub获得更多的开源项目。


以上就是今天分享的全部内容了,觉得不错的话,记得点赞 在看 关注支持一下哈,您的鼓励和支持将是shigen坚持日更的动力。同时,shigen在多个平台都有文章的同步,也可以同步的浏览和订阅:

平台 账号 链接
CSDN shigen01 shigen的CSDN主页
知乎 gen-2019 shigen的知乎主页
掘金 shigen01 shigen的掘金主页
腾讯云开发者社区 shigen shigen的腾讯云开发者社区主页
微信公众平台 shigen 公众号名:shigen

shigen一起,每天不一样!文章来源地址https://www.toymoban.com/news/detail-782611.html

到了这里,关于尝试开源一款mysql-es数据同步工具的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Mysql和ES、Redis数据同步方案汇总_redis同步数据从mysql到es

    文章目录 前言 一、数据同步方案 1.同步双写 [2.异步双写(MQ方式)](#2MQhttpssocsdnnetsosearchqMQspm1001210130017020_53) 3.基于Mysql表定时扫描同步 [4.基于Binlog实时同步](#4BinloghttpssocsdnnetsosearchqBinlogspm1001210130017020_119) [二、数据迁移同步工具选型](#httpssocsdnnetsosearchqspm1001210130017020_141) 总结

    2024年04月23日
    浏览(26)
  • SmartSQL 一款开源的数据库文档管理工具

    建议直接蓝奏云下载安装 蓝奏云下载:https://wwoc.lanzoum.com/b04dpvcxe 蓝奏云密码:123 项目介绍 SmartSQL 是一款方便、快捷的数据库文档查询、导出工具!从最初仅支持 数据库、 CHM 文档格式开始,通过不断地探索开发、集思广益和不断改进,又陆续支持 Word 、 Excel 、 PDF 、 Htm

    2024年02月07日
    浏览(46)
  • 探索SQLiteBrowser:一款强大的开源数据库管理工具

    项目地址:https://gitcode.com/sqlitebrowser/sqlitebrowser SQLiteBrowser 是一个直观且功能丰富的开源应用程序,专为管理和编辑SQLite数据库而设计。这款项目提供了一个简洁的界面,让开发者和非开发人员都能轻松地创建、查看和修改SQLite数据库的内容。在本文中,我们将深入探讨其技术

    2024年04月22日
    浏览(48)
  • DataX-阿里开源离线同步工具在Windows上实现Sqlserver到Mysql全量同步和增量同步

    Kettle-开源的ETL工具集-实现SqlServer到Mysql表的数据同步并部署在Windows服务器上: Kettle-开源的ETL工具集-实现SqlServer到Mysql表的数据同步并部署在Windows服务器上_etl实现sqlserver报表服务器_霸道流氓气质的博客-CSDN博客 上面讲过Kettle的使用,下面记录下阿里开源异构数据源同步工具

    2024年02月08日
    浏览(33)
  • 重磅一款极具潜力的开源免费数据库管理工具!

    最近看到一个冷门的数据库管理工具: slashbase 。 这个工具是开源免费的,由于开源不久,目前才900+的Star,但用下来还是非常不错的,DD觉得这款工具还是非常有潜力的,所以给大家推荐一下。 slashbase 有几个比较亮眼的功能,比如: 它提供了两种不同的管理方式,用户可以

    2024年02月14日
    浏览(49)
  • ELK增量同步数据【MySql->ES】

            1.  linux,已经搭建好的logstash+es+kibana【系列版本7.0X】,es 的plugs中安装ik分词器 ES版本:  Logstash版本:  (以上部署,都是运维同事搞的,我不会部署,同事给力) 1、在Logstash安装目录下【/usr/share/logstash】,新建XX.sh,内容如下: 2. 在Logstash安装目录下【/usr/shar

    2024年02月11日
    浏览(33)
  • es与mysql的数据同步问题

    方案一:同步调用  缺点:1.业务耦合             2.降低整体性能             3.当一个业务出现问题则直接卡死 方案二:异步通知(解除了两个服务之间的耦合)  缺点:比较依赖与mq 方案三:监听MySQL的binlog日志  三种方式优缺点对比  方案二: 1.引入依赖 2.编写配置

    2023年04月17日
    浏览(37)
  • Logstash同步Mysql数据至ES

    官方文档 注意版本要和自己的es版本一致 下载地址:logstash 上传至服务器并进行解压。 1、通过官网下载mysql连接jar包 下载地址:mysql 连接jar包 根据自己mysql版本和系统进行选择 ​  ​   ​   ​   ​ 2、在IDEA中复制msyql连接jar包 ​   ​ 将jar包移动至/logstash/logstash-core/lib

    2024年02月10日
    浏览(31)
  • Mysql和ES数据同步方案汇总

    在实际项目开发中,我们经常将Mysql作为业务数据库,ES作为查询数据库,用来实现读写分离,缓解Mysql数据库的查询压力,应对海量数据的复杂查询。这其中有一个很重要的问题,就是如何实现Mysql数据库和ES的数据同步,今天和大家聊聊Mysql和ES数据同步的各种方案。 为什么

    2024年01月20日
    浏览(32)
  • logstash同步mysql数据到es(三、es模板问题)

     相关问题汇总: logstash同步mysql数据到es(一、es模板问题,请求返回400) logstash同步mysql数据到es(二、jdbc_driver_library问题)_(please check user and group permissions for the p-CSDN博客 logstash同步mysql数据到es(三、es模板问题)-CSDN博客 使用docker实现logstash同步mysql到es-CSDN博客 [INFO ] 2023-12-11 09

    2024年01月17日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包