基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x

这篇具有很好参考价值的文章主要介绍了基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

MySQL 数据库中,设备历史数据单表过亿,如何快速、低成本地迁移到 TDengine3.x 中?

从标题可以看出,我们使用的数据迁移/同步工具是 DataX ,数据源( Source )为传统的关系型数据库 MySQL ,目标库( Sink )为新型的具有场景特色的时序数据库 TDengine

DataX:是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。 DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

MySQL:略。。

TDengine:是一款开源、高性能、云原生的时序数据库 (Time-Series Database, TSDB)。 TDengine 能被广泛运用于物联网、工业互联网、车联网、 IT 运维、金融等领域。除核心的时序数据库功能外, TDengine 还提供缓存、数据订阅、流式计算等功能,是一极简的时序数据处理平台,最大程度的减小系统设计的复杂度,降低研发和运营成本。

MySQLTDengine3.x 进行数据迁移,即面临异构数据的迁移。首先要了解下 MySQLTDengine 的数据模型方面的区别,具体可参考涛思数据官方提供的一个关于电表数据的模型对比:写给MySQL开发者的 TDengine入门指南。

数据模型

以水库水位监测的案例说明,在 MySQL 中我们会有1张设备信息表(设备编号、厂家、型号等信息)和1张设备数据表(传感器采集的时序数据)。

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x

针对 MySQL 中的2张表,以 TDengine 的设计思想来建模:在迁移到 TDengine 后会变成1张超级表+N(设备的数量)张子表,且每张子表的名称对应 MySQL 设备信息表中的每个设备编码。具体地来说, TDengine 中的数据模型如下:

create database if not exists sensor;
create stable if not exists sensor.water(ts timestamp, level float, status int) tags(district_code nchar(6), unit_id nchar(36), sensor_code int);

这里仅创建了1张超级表,具体的子表会在进行数据迁移时,根据 MySQL 设备信息表中的设备编码自动创建。

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x

准备迁移工具

一开始我直接从https://github.com/taosdata/DataX的README中的:Download DataX下载地址下载的,但是后来才发现没有 TDengine3.x 版本的writer;然后直接下载https://github.com/taosdata/DataX的源码,本地编译生成了 jar 包,放到了 DataXplugin 目录中。

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x
Note:本地源码 mvn clean package -Dmaven.test.skip=true 构建生成 tdengine30writer-0.0.1-SNAPSHOT.jar 后,在 \datax\plugin\writer 下复制 tdenginewriter 目录,重命名为 tdengine30writer ,对应修改了其中的 plugin.jsonplugin_job_template.json ,以及 libs 目录下的 taos-jdbcdriver-3.0.2.jar

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x
至此,工具就准备好了,剩下的就是编写数据迁移的配置脚本了。

迁移设备信息表

job-water.json :迁移配置脚本分两部分:一个是数据源,一个是目标库。迁移设备信息表这一步的结果就是创建了所有的子表:一个设备一张表。

  • 数据源
    “name”: “mysqlreader”, 迁移设备信息表时,对设备编码起别名为 tbnameTDengine 自动会将其作为子表的名称进行创建。

Note:这里在设备编码前加了一个字母d,因为在 TDengine 中表名不可以为数字。

  • 目标库

“name”: “tdengine30writer”, 在 column 部分罗列出数据源中查询出的列名,与 MySQL 数据源中的顺序和名称一一对应,表名 table 处直接写超级表的名称。

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "your-password",
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai"
                                ],
                                "querySql": [
                                    "select concat('d', code) as tbname, create_time as ts, sensor_code, district_code, unit_id from b_device WHERE sensor_code=2;"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "tdengine30writer",
                    "parameter": {
                        "username": "root",
                        "password": "taosdata",
                        "column": [
                            "tbname",
                            "ts",
                            "sensor_code",
                            "district_code",
                            "unit_id"
                        ],
                        "connection": [
                            {
                                "table": [
                                    "water"
                                ],
                                "jdbcUrl": "jdbc:TAOS-RS://192.168.44.158:6041/sensor"
                            }
                        ],
                        "batchSize": 1000,
                        "ignoreTagsUnmatched": true
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": 1
            }
        }
    }
}
  • 执行迁移/同步脚本
D:\datax\bin>datax.py ../job/job-water.json

迁移设备数据表

job-water-data.json :迁移配置脚本分两部分:一个是数据源,一个是目标库。迁移设备数据表这一步的结果便会将传感器数据根据设备编号写入对应的子表中。

  • 数据源

迁移设备数据表时,查询传感器采集的字段,同样对设备编码起别名为 tbnameTDengine 自动会将数据写入对应的子表。

  • 目标库

column 部分罗列出数据源中查询出的列名,与 MySQL 数据源中的顺序和名称一一对应,配置设备数据表时,需要注意,表名 table 处要写所有子表的名称。

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "your-password",
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai&net_write_timeout=600"
                                ],
                                "querySql": [
                                    "select concat('d', code) as tbname, create_time as ts, value as level, status from sensor_water;"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "tdengine30writer",
                    "parameter": {
                        "username": "root",
                        "password": "taosdata",
                        "column": [
                            "tbname",
                            "ts",
                            "level",
                            "status"
                        ],
                        "connection": [
                            {
                                "table": [
                                    "d66057408201830",
                                    "d66057408063030",
                                    "d66057408027630",
                                    "d66057408208130",
                                    "d66057408009630",
                                    "d66057408000530",
                                    "d66057408067330",
                                    "d66057408025430"
                                ],
                                "jdbcUrl": "jdbc:TAOS-RS://192.168.44.158:6041/sensor"
                            }
                        ],
                        "encoding": "UTF-8",
                        "batchSize": 1000,
                        "ignoreTagsUnmatched": true
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": 1
            }
        }
    }
}
  • 执行迁移/同步脚本
D:\datax\bin>datax.py ../job/job-water-data.json

使用DataX可能遇到的问题

DataX中文乱码

执行 D:\datax\bin>datax.py ../job/job.json 后,控制台上的中文输出乱码。

  • Solution:直接输入CHCP 65001回车,直到打开新窗口出现Active code page: 65001,再次执行job命令,中文正常显示。

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x

插件加载失败, 未完成指定插件加载:[mysqlreader, tdengine20writer]

  • Solution:使用的插件名称要写正确

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-00], Description:[parameter value is missing]. - The parameter [username] is not set.

  • Solution:TDengine2.0和3.0的配置项不一样,因为我一开始是采用的TDengine2.0的配置来迁移的,根据3.0的文档修改参数即可。

java.lang. ClassCastException: java.lang. String cannot be cast to java.util. List

  • Solution:mysql的reader读取部分的jdbcUrl和querySql的值需要使用“[]”括起来,是jdbc固定的模板。

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-02], Description:[runtime exception]. - No suitable driver found for [“jdbc: TAOS-RS://192.168.44.158:6041/sensor”]

  • Solution:writer这边的"jdbcUrl": “jdbc: TAOS-RS://192.168.44.158:6041/sensor”,使用字符串而不是数组。

空指针错误:ERROR WriterRunner - Writer Runner Received Exceptions:

java.lang.NullPointerException: null
        at com.taosdata.jdbc.rs.RestfulDriver.connect(RestfulDriver.java:111) ~[taos-jdbcdriver-2.0.37.jar:na]
        at java.sql.DriverManager.getConnection(Unknown Source) ~[na:1.8.0_311]
        at java.sql.DriverManager.getConnection(Unknown Source) ~[na:1.8.0_311]
        at com.alibaba.datax.plugin.writer.tdenginewriter.DefaultDataHandler.handle(DefaultDataHandler.java:75) ~[tdenginewriter-0.0.1-SNAPSHOT.jar:na]
  • Solution:看到taos-jdbcdriver用的是2.0的jar包,下载DataX源码,编译生成tdengine30writer-0.0.1-SNAPSHOT.jar,并拷贝tdenginewriter文件夹为tdengine30writer,将tdengine30writer-0.0.1-SNAPSHOT.jar放到tdengine30writer中,删除tdenginewriter\libs其中taos-jdbcdriver-2.0.37.jar,添加taos-jdbcdriver-3.0.2.jar。

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-02], Description:[运行时异常]. - TDengine ERROR (2600): sql: describe 66057408201830, desc: syntax error near “66057408201830”

  • Solution:表名不可以为数字,我在编号前加了个字母d。

com.mysql.jdbc.exceptions.jdbc4. CommunicationsException: Application was streaming results when the connection failed. Consider raising value of ‘net_write_timeout’ on the server.

  • Solution:在数据源URL的连接上增加该参数,net_write_timeout/net_read_timeout设置稍微大一些,默认60s。
    例如: jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai&net_write_timeout=600

MySQL 中查看变量值: SHOW VARIABLES LIKE "net%"

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x

小总结

以上便是基于 DataX 完成从 MySQLTDengine3.x 的时序数据迁移实战记录,借助 DataX 工具,通过配置文件驱动的方式完成了海量时序数据的快速迁移。

实际的迁移测试结果是,3000+个水库水位传感设备,历史数据单表1亿+,半天时间迁移了5000万+。

Reference

  • https://github.com/taosdata/DataX
  • MysqlReader插件文档
  • DataX TDengineWriter插件文档
  • https://developer.aliyun.com/ask/430332
  • 基于 DataX 的 TDengine 2.* 版本数据迁移工具

If you have any questions or any bugs are found, please feel free to contact me.

Your comments and suggestions are welcome!文章来源地址https://www.toymoban.com/news/detail-462378.html

到了这里,关于基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)

    1.1 DataX概述 源码地址:https://github.com/alibaba/DataX 1.2 DataX支持的数据源 DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图。 2.1 DataX设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星

    2024年02月11日
    浏览(58)
  • Python-基于长短期记忆网络(LSTM)的SP500的股票价格预测 股价预测 Python数据分析实战 数据可视化 时序数据预测 变种RNN 股票预测

    Python-基于长短期记忆网络(LSTM)的SP500的股票价格预测 股价预测 Python数据分析实战 数据可视化 时序数据预测 变种RNN 股票预测 近些年,随着计算机技术的不断发展,神经网络在预测方面的应用愈加广泛,尤其是长短期记忆人工神经网络(Long Short-Term Memory,LSTM)在各领域、各

    2024年02月03日
    浏览(51)
  • DataX实现Mysql与ElasticSearch(ES)数据同步

    jdk1.8及以上 python2 查看是否安装成功 查看python版本号,判断是否安装成功 在datax/job下,json格式,具体内容及主要配置含义如下 mysqlreader为读取mysql数据部分,配置mysql相关信息 username,password为数据库账号密码 querySql:需要查询数据的sql,也可通过colums指定需要查找的字段(

    2024年02月05日
    浏览(60)
  • mysql 海量数据设计:对数据库存储有深入研究

    索引: 聚簇索引 二级索引 联合索引:最左匹配原则、自动优化顺序 索引优化方向: 存储空间 主键选择:自增主键、随机主键、业务主键 如何设计一个雪花算法: 正数 + 时间戳 + 机器id(固定) + 服务id + 序号 雪花算法优点: 高并发分布式环境下生成不重复 id,每秒可生成百

    2023年04月24日
    浏览(42)
  • Redis 实战篇:巧用 Bitmap 实现亿级海量数据统计

    在移动应用的业务场景中,我们需要保存这样的信息:一个 key 关联了一个数据集合。 常见的场景如下: 给一个 userId ,判断用户登陆状态; 显示用户某个月的签到次数和首次签到时间; 两亿用户最近 7 天的签到情况,统计 7 天内连续签到的用户总数; 通常情况下,我们面

    2024年02月02日
    浏览(57)
  • 使用DataX实现mysql与hive数据互相导入导出

             DataX 是 阿里巴巴开源 的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等 各种异构数据源之间稳定高效的数据同步 功能。          为了解决异构数据源同步问题,DataX 将复杂的 网状 的同步链路变成了

    2024年02月08日
    浏览(39)
  • 深度学习pytorch实战五:基于ResNet34迁移学习的方法图像分类篇自建花数据集图像分类(5类)超详细代码

    1.数据集简介 2.模型相关知识 3.split_data.py——训练集与测试集划分 4.model.py——定义ResNet34网络模型 5.train.py——加载数据集并训练,训练集计算损失值loss,测试集计算accuracy,保存训练好的网络参数 6.predict.py——利用训练好的网络参数后,用自己找的图像进行分类测试 1.自建

    2024年02月09日
    浏览(60)
  • 使用DataX实现mysql与hive数据互相导入导出 一、概论

             DataX 是 阿里巴巴开源 的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等 各种异构数据源之间稳定高效的数据同步 功能。          为了解决异构数据源同步问题,DataX 将复杂的 网状 的同步链路变成了

    2024年02月14日
    浏览(44)
  • 阿里巴巴开源DataX全量同步多个MySQL数据库

    上次 写了阿里巴巴高效的离线数据同步工具DataX: https://mp.weixin.qq.com/s/_ZXqA3H__Kwk-9O-9dKyOQ 安装DataX这个开源工具,并且同步备份了几张数据表。但是发现一个问题,就是每张表都需要单独写一个 job。如果数据表有几百张是不是要写几百个,这个不太现实了。 正当一筹莫展之际

    2024年02月02日
    浏览(70)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包