DATAX的架构和运行原理-Toy模板网

这篇具有很好参考价值的文章主要介绍了DATAX的架构和运行原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一.概念

DATAX呢就是把各个不同构的数据库进行同步的过程，具体有hdfs hive Oracle 等等吧。

显而易见从强连通图到星形图，大大的简化了工作量。

DATAX的架构和运行原理,架构

2.框架设计，变成了FrameWork和plugin的形式，以读者写者的方式（reader writer）进行数据的同步吧。

DATAX的架构和运行原理,架构

DataX在设计之初就将同步理念抽象成框架+插件的形式.框架负责内部的序列化传输，缓冲，并发，转换等而核心技术问题，数据的采集(Reader)和落地(Writer)完全交给插件执行。

DATAX的架构和运行原理,架构文章来源地址https://www.toymoban.com/news/detail-817276.html

Job 完成单个数据同步的作业称之为job。DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。负责数据清理，子任务划分，TaskGroup监控管理。
Task 由Job切分而来，是DataX作业的最小单元，每个Task负责一部分数据的同步工作。
Schedule 将Task组成TaskGroup，默认单个任务组的并发数量为5。
TaskGroup 负责启动Task。
DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务.