datax的使用以及参数解释,快速入门版

这篇具有很好参考价值的文章主要介绍了datax的使用以及参数解释,快速入门版。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

datax的使用以及参数解释



前言

本文我们介绍一下datax的基础用法,让初学者能够实现快速入门,即刻应用


一、datax是什么?

首先,来了解一下datax是什么,datax简单可以理解为数据同步的一个工具,将一个系统中存储的数据存储到另一个系统中。
举例来说,我们将数据存储到了HDFS中,但是现在我们想要使用这些数据来进行可视化分析,那么我们就要用到datax,将HDFS中的数据同步到MYSQL中,便于可视化的使用。

二、文件配置说明

文件安装我们就不多赘述了,直接开始讲解datax如何使用。

1.查看配置文件

{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            }
        },
        "content": [
            {
                "reader": {
                    "name": "hdfsreader",
                    "parameter": {
                        "path": "/user/spark_design/output/user_anaylse/",
                        "defaultFS": "hdfs://master:9000",
                        "column": [
                               {
                                "index": 0,
                                "type": "string"
                               },
                               {
                                "index": 1,
                                "type": "long"
                               }
                            
                        ],
                        "fileType": "text",
                        "encoding": "UTF-8",
                        "fieldDelimiter": ","
                    }

                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "root",
                        "password": "123456",
                        "column": [
                            "province",
                            "number"
                        ],
                        "preSql": [
                            "delete from user_anaylse"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://127.0.0.1:3306/spark_design?useUnicode=true&characterEncoding=UTF-8",
                                "table": [
                                    "user_anaylse"
                                ]
                            }
                        ]
                    }
                }


            }
        ]
    }
}

2. 配置参数解释

上面的部分的代码是datax使用必须配置的json文件,没有这个文件datax是不能使用的,这个文件规定了数据的来源和同步位置。

首先channel这个数据,规定的是异步的线程数,快速入门的化可以先不管这个参数。

我们主要看content中的reader和writer部分

3. reader参数解释

首先我们要知道,这个配置文件是一个简单的从HDFS中将数据同步到MySQL的json文件

reader部分:顾名思义,reader就是数据原本的位置。

name–起个名字即可

path–就是文件在HDFS中存储的位置,需要的化直接将这个json文件中的路径改为自己文件在HDFS中的路径即可

defaultFS–就是Hadoop主节点的ip+端口

column–就是数据存储的文件中的列数,列数从0开始,在规定列的位置的同时需要规定好该列的数据类型
datax 使用教程,spark,hadoop,hdfs,java
filetype–数据文件的类型,虽然由csv文件这个选项,时间上我们将csv文件进行同步时选择text类型,将fieldDelimiter设置为”,“ 即可即可。

encoding–文件编码格式,就UTF-8即可,无需更改。

fieldDelimiter–数据中的分隔符,类似于hive中的field delimited
datax 使用教程,spark,hadoop,hdfs,java

4. writer参数解释

name–一样。起个名字即可

writeMode–控制写入数据到目标表采用 insert into 或者 replace into 或者 ON DUPLICATE KEY UPDATE 语句

username–数据库的用户名

password–数据库的密码

column–数据库表中的列名以及数据类型,这个数据类型按照MySQL中的数据类型即可(由于这个的writer的目标是MySQL)

preSql–数据插入之前执行的SQL语句

jdbcUrl–数据库的连接信息

table–要插入的表


总结

本文仅限于datax的快速入门,简单理解为,零时抱佛脚系列文章
具体学习还是看datax官网: 点我跳转文章来源地址https://www.toymoban.com/news/detail-662386.html

到了这里,关于datax的使用以及参数解释,快速入门版的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark连接快速入门

    文章最前 : 我是Octopus,这个名字来源于我的中文名--章鱼;我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ;这博客是记录我学习的点点滴滴,如果您对 Python、Java、AI、算法有兴趣,可以关注我的动态,一起学习,共同进步。 Spark Connect 为 Spark 引入了解耦的

    2024年01月25日
    浏览(36)
  • Spark SQL快速入门

    Spark SQL是spark的一个模块,用于处理海量的 结构化数据。 特点: Spark SQL支持读取和写入多种格式的数据源,包括Parquet、JSON、CSV、JDBC等。 Spark SQL支持标准的SQL语言,包括SELECT、JOIN、GROUP BY等,还支持用户自定义函数(UDF)和窗口函数(Window Function)等高级功能。 Spark SQL支持

    2024年02月15日
    浏览(44)
  • JMeter基础使用教程及使用技巧(快速入门)

    本篇内容为JMeter的简单使用介绍,是基础的使用技巧,希望能帮到各位,不足之处还望多多包涵,最后感谢您的阅览。 Jmeter是由Apache公司开发的一个纯Java的开源项目,即可以用于做接口测试也可以用于做性能测试。 可以Apache Jmeter官网下载,地址:http://jmeter.apache.org/downloa

    2024年02月08日
    浏览(47)
  • Postman工具使用一篇快速入门教程

    Postman 是一个用于构建和使用 API 的 API 平台,Postman 简化了 API 生命周期的每个步骤并简化了协作,可以更快地创建更好的 API。 版本说明: Postman官网下载链接:https://www.postman.com/,根据自己的操作系统选择。 找到下载到的目录直接双击.exe文件,会默认安装在C盘,安装完会

    2024年02月03日
    浏览(58)
  • 【Linux系统基础快速入门详解】Linux核心find命令原理详解和每个命令使用场景以及实例

    鱼弦:CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者(go-zero源码二次开发、游戏后端架构 https://github.com/Peakchen) find 命令是在 Linux 操作系统中用于搜索文件和目录的命令行工具。它可以根据不同的条件来搜索特定的文件和目录,这些条件可以是文

    2024年02月07日
    浏览(61)
  • 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境)】

    视频地址: 尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】 尚硅谷大数据技术Spark教程-笔记03【SparkSQL(概述、核心编程、

    2023年04月15日
    浏览(51)
  • 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址: 尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】 尚硅谷大数据技术Spark教程-笔记03【SparkSQL(概述、核心编程、

    2023年04月21日
    浏览(46)
  • Aanconda安装python以及Pycharm配置Python解释器详细教程

    Anaconda即是管理python的一个平台,可以利用Anaconda创建虚拟环境,更好的管理自己的项目以及第三方库。安装了这之后不需要再下载python解释器!!! anaconda下载链接   1. 在 d盘 目录下新建一个文件夹 , 命名为Anaconda ,这个目录很重要,一定要记得他,以后的虚拟环境就在

    2024年04月11日
    浏览(69)
  • spark入门案例以及sbt安装与打包(Linux环境)

    创作初衷:由于在这上面翻过太多的烂文章(博主自己都没搞懂就“写作抄袭”),才写下此文(已从重装系统做过3次测试,没有问题才下笔),文章属于保姆级别。 ~~~~~~~~~~~~~~~~~~~~~~~~~创作不易,转载请说明~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 本文相关的版本信息(没部署Hadoop,本文环境

    2024年02月01日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包