部署SeaTunnel分布式集群-Toy模板网

这篇具有很好参考价值的文章主要介绍了部署SeaTunnel分布式集群。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

深入理解SeaTunnel：易用、高性能、支持实时流式和离线批处理的海量数据集成平台

一、部署SeaTunnel引擎

SeaTunnel Engine 是 SeaTunnel 的默认引擎。SeaTunnel的安装包中已经包含了SeaTunnel Engine的所有内容。

二、配置环境变量

在/etc/profile.d/seatunnel.sh中配置环境变量

export SEATUNNEL_HOME=${seatunnel install path}
export PATH=$PATH:$SEATUNNEL_HOME/bin

三、配置 SeaTunnel Engine JVM

SeaTunnel Engine 支持两种设置 jvm 选项的方式。

将 JVM 选项添加到$SEATUNNEL_HOME/bin/seatunnel-cluster.sh第一行

JAVA_OPTS="-Xms2G -Xmx2G"

启动 SeaTunnel 引擎时添加 JVM 选项。例如seatunnel-cluster.sh -DJvmOption=“-Xms2G -Xmx2G”

四、配置SeaTunnel

SeaTunnel Engine提供了很多功能，需要在seatunnel.yaml中进行配置。

1.备份

SeaTunnel Engine 基于Hazelcast IMDG实现集群管理。集群的状态数据（作业运行状态，资源状态）存储在Hazelcast IMap中。Hazelcast IMap 中保存的数据将分布存储在集群的所有节点中。Hazelcast 会对存储在 Imap 中的数据进行分区。每个分区可以指定备份的数量。因此，SeaTunnel Engine可以在不使用其他服务（例如zookeeper）的情况下实现集群HA。

用于backup count定义同步备份的数量。例如，如果设置为 1，分区的备份将放在另外一个成员上。如果是2，就会放在另外两个成员身上。

我们建议的backup-count值为min(1, max(5, N/2))。N是集群节点的编号。

seatunnel:
    engine:
        backup-count: 1
        # other config

2.Slots

Slots的数量决定了集群节点可以并行运行的TaskGroups的数量。SeaTunnel Engine是一个数据同步引擎，大部分作业都是IO密集型的。

建议使用动态插槽。

seatunnel:
    engine:
        slot-service:
            dynamic-slot: true
        # other config

3.检查点

与 Flink 一样，SeaTunnel Engine 支持 Chandy–Lamport 算法。因此，SeaTunnel Engine可以实现数据同步，不丢失数据，不重复数据。

间隔：

两个检查点之间的间隔，单位是毫秒。如果在作业配置文件checkpoint.interval中配置了该参数env，则此处设置的值将被覆盖。

暂停：

检查点超时。如果在超时期限内无法完成检查点，则会触发检查点故障。

最大并发：

最多可以同时执行多少个检查点。

可容忍的失败

检查点失败后的最大重试次数。

seatunnel:
    engine:
        backup-count: 1
        print-execution-info-interval: 10
        slot-service:
            dynamic-slot: true
        checkpoint:
            interval: 300000
            timeout: 10000
            max-concurrent: 1
            tolerable-failure: 2

五、配置SeaTunnel引擎

文件中的所有 SeaTunnel 引擎服务器配置hazelcast.yaml。

SeaTunnel Engine 节点使用集群名称来判断对方是否与自己是一个集群。如果两个节点之间的集群名称不同，SeaTunnel Engine 将拒绝服务请求。

基于Hazelcast，SeaTunnel Engine 集群是运行 SeaTunnel Engine Server 的集群成员网络。集群成员自动连接在一起形成一个集群。这种自动加入是通过集群成员用来相互查找的各种发现机制进行的。

请注意，集群形成后，无论使用何种发现机制，集群成员之间的通信始终通过 TCP/IP。

SeaTunnel Engine 使用以下发现机制。可以将 SeaTunnel Engine 配置为完整的 TCP/IP 集群。

hazelcast:
  cluster-name: seatunnel
  network:
    join:
      tcp-ip:
        enabled: true
        member-list:
          - hostname1
    port:
      auto-increment: false
      port: 5801
  properties:
    hazelcast.logging.type: log4j2

TCP 是我们在独立 SeaTunnel Engine 集群中的建议方式。

类型

imap 持久化的类型，目前只支持hdfs.

命名空间

用于区分不同业务的数据存储位置，如OSS bucket名称。

集群名称

这个参数主要是用来做集群隔离的，我们可以用这个来区分不同的集群，比如cluster1，cluster2，这个也用来区分不同的业务

fs.defaultFS

我们使用hdfs api读写文件，所以使用这个存储需要提供hdfs配置

如果你使用 HDFS，你可以这样配置：

map:
    engine*:
       map-store:
         enabled: true
         initial-mode: EAGER
         factory-class-name: org.apache.seatunnel.engine.server.persistence.FileMapStoreFactory
         properties:
           type: hdfs
           namespace: /tmp/seatunnel/imap
           clusterName: seatunnel-cluster
           fs.defaultFS: hdfs://localhost:9000

如果没有 HDFS 并且您的集群只有一个节点，您可以像这样配置使用本地文件：

map:
    engine*:
       map-store:
         enabled: true
         initial-mode: EAGER
         factory-class-name: org.apache.seatunnel.engine.server.persistence.FileMapStoreFactory
         properties:
           type: hdfs
           namespace: /tmp/seatunnel/imap
           clusterName: seatunnel-cluster
           fs.defaultFS: file:///

六、配置 SeaTunnel 引擎服务器

cluster-name客户端必须与 SeaTunnel Engine相同。否则，SeaTunnel Engine 将拒绝客户端请求。

集群成员

所有SeaTunnel Engine Server Node地址都需要添加到这里。

hazelcast-client:
  cluster-name: seatunnel
  properties:
      hazelcast.logging.type: log4j2
  network:
    cluster-members:
      - hostname1:5801

启动SeaTunnel Engine Server

mkdir -p $SEATUNNEL_HOME/logs
nohup bin/seatunnel-cluster.sh 2>&1 &

日志将写入$SEATUNNEL_HOME/logs/seatunnel-engine-server.log

只需要将$SEATUNNEL_HOMESeaTunnel Engine节点上的目录复制到Client节点，并配置SEATUNNEL_HOME类似的SeaTunnel Engine Server节点即可。

七、部署SeaTunnel分布式集群

这是在生产环境中最推荐使用 SeaTunnel Engine 的方式。该模式支持SeaTunnel Engine的全部功能，集群模式的性能和稳定性会更好。

集群模式下，需要先部署SeaTunnel Engine集群，客户端将作业提交给SeaTunnel Engine集群运行。

提交命令

$SEATUNNEL_HOME/bin/seatunnel.sh --config $SEATUNNEL_HOME/config/v2.batch.config.template

八、检查点存储

Checkpoint是一种容错恢复机制。这种机制保证了程序运行时，即使突然遇到异常，也能自行恢复。

检查点
Checkpoint Storage是一种存储检查点数据的存储机制。

SeaTunnel Engine 支持以下检查点存储类型：

HDFS（OSS、S3、HDFS、本地文件）
LocalFile（本机），（已弃用：改用 Hdfs(LocalFile)。

我们使用微内核设计模式将检查点存储模块与引擎分离。这允许用户实现自己的检查点存储模块。

checkpoint-storage-api是checkpoint存储模块API，定义了checkpoint存储模块的接口。

如果要实现自己的checkpoint存储模块，需要实现CheckpointStorage并提供相应的CheckpointStorageFactory实现。

检查点存储
模块的配置seatunnel-server在seatunnel.yaml文件中。


seatunnel:
    engine:
        checkpoint:
            storage:
                type: hdfs #plugin name of checkpoint storage, we support hdfs(S3, local, hdfs), localfile (native local file) is the default, but this plugin is de
              # plugin configuration
                plugin-config: 
                  namespace: #checkpoint storage parent path, the default value is /seatunnel/checkpoint/
                  K1: V1 # plugin other configuration
                  K2: V2 # plugin other configuration

注意：命名空间必须以“/”结尾。

如果你使用 HDFS，你可以这样配置：

seatunnel:
  engine:
    checkpoint:
      storage:
        type: hdfs
        max-retained: 3
        plugin-config:
          storage.type: hdfs
          fs.defaultFS: hdfs://localhost:9000
          // if you used kerberos, you can config like this:
          kerberosPrincipal: your-kerberos-principal
          kerberosKeytab: your-kerberos-keytab

seatunnel:
  engine:
    checkpoint:
      interval: 6000
      timeout: 7000
      max-concurrent: 5
      tolerable-failure: 2
      storage:
        type: hdfs
        max-retained: 3
        plugin-config:
          storage.type: hdfs
          fs.defaultFS: file:/// # Ensure that the directory has written permission

九、TCP

TCP网络
如果多播不是您环境的首选发现方式，那么您可以将 SeaTunnel Engine 配置为完整的 TCP/IP 集群。当您将 SeaTunnel Engine 配置为通过 TCP/IP 发现成员时，您必须将所有或部分成员的主机名和/或 IP 地址列为集群成员。您不必列出所有这些集群成员，但当新成员加入时，至少有一个列出的成员必须在集群中处于活动状态。

要将 Hazelcast 配置为完整的 TCP/IP 集群，请设置以下配置元素。有关 TCP/IP 发现配置元素的完整描述，请参阅 tcp-ip 元素部分。

将 tcp-ip 元素的 enabled 属性设置为 true。
在 tcp-ip 元素中提供您的成员元素。

以下是示例声明性配置。

hazelcast:
  network:
    join:
      tcp-ip:
        enabled: true
        member-list:
          - machine1
          - machine2
          - machine3:5799
          - 192.168.1.0-7
          - 192.168.1.21

如上所示，您可以为成员元素提供 IP 地址或主机名。您还可以提供 IP 地址范围，例如192.168.1.0-7.

除了如上所示逐行提供成员，您还可以选择使用成员元素并编写以逗号分隔的 IP 地址，如下所示。

192.168.1.0-7,192.168.1.21

如果您不为成员提供端口，Hazelcast 会自动尝试端口5701，5702依此类推。文章来源地址https://www.toymoban.com/news/detail-484584.html

到了这里，关于部署SeaTunnel分布式集群的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！