Apache SeaTunnel 及 Web 功能部署指南(小白版)

这篇具有很好参考价值的文章主要介绍了Apache SeaTunnel 及 Web 功能部署指南(小白版)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在大数据处理领域,Apache SeaTunnel 已成为一款备受青睐的开源数据集成平台,它不仅可以基于Apache Spark和Flink,而且还有社区单独开发专属数据集成的Zeta引擎,提供了强大的数据处理能力。随着SeaTunnel Web的推出,用户界面(UI)操作变得更加友好,项目部署和管理更加便捷。

本指南旨在提供一个简明扼要的步骤,帮助用户成功部署SeaTunnel及其Web界面。小主已经把可能遇到的坑都填过了,希望大家都能安安稳稳上路,不掉坑,话不多说,走起~

1.预置环境

1.1.所需软件包及版本要求

  • CentOS 7.6.18_x86_64

  • JDK >= 1.8.151

  • Maven >= 3.6.3

  • Apache Seatunnel ==2.3.3

  • Apache Seatunnel Web == 1.0.0

  • MySQL >= 5.7.28

1.2.下载地址

官网下载入口: 下载入口

apache-seatunnel-2.3.3: apache-seatunnel-2.3.3-bin.tar.gz

apache-seatunnel-web-1.0.0: apache-seatunnel-web-1.0.0

1.3.准备工作

1.3.1.安装JDK

安装及配置系统环境变量略过,自行百度

1.3.2.安装Maven

安装及配置系统环境变量、配置阿里云仓库镜像, 略过,自行百度

1.3.3.创建安装软件目录

创建SeaTunnel后端服务安装目录

mkdir -p /opt/bigdata/seatunnel-2.3.3/backend

创建SeaTunnel前端服务安装目录

mkdir -p /opt/bigdata/seatunnel-2.3.3/web

1.3.4.下载或者本地上传安装包

下载apache-seatunnel-2.3.3-bin.tar.gz

进入1.3.2中创建好的安装目录

cd /opt/bigdata/seatunnel-2.3.3/backend

下载安装包

wget https://dlcdn.apache.org/seatunnel/2.3.3/apache-seatunnel-2.3.3-bin.tar.gz

下载[apache-seatunnel-web-1.0.0.tar.gz

进入1.3.2中创建好的安装目录

cd /opt/bigdata/seatunnel-2.3.3/web

下载安装包

wget https://dlcdn.apache.org/seatunnel/seatunnel-web/1.0.0/apache-seatunnel-web-1.0.0-bin.tar.gz

如果你已经将安装包下载到本地, 可通过FTP工具上传安装包到前后端各自的安装目录。

2.安装Apache Seatunnel

2.1.解压安装包

解压后端安装包

tar -zxf /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3-bin.tar.gz

重命名安装包

mv apache-seatunnel-2.3.3-bin apache-seatunnel-2.3.3

解压前端安装包

tar -zxf /opt/bigdata/seatunnel-2.3.3/web/apache-seatunnel-web-1.0.0-bin.tar.gz

重命名安装包

mv apache-seatunnel-web-1.0.0-bin apache-seatunnel-web-1.0.0

2.2.配置环境变量

/etc/profile中配置环境变量

让修改配置立即生效

source /etc/profile

2.3.下载JAR包

2.3.1.创建目录

mkdir -p /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/connectors/flink

mkdir -p /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/connectors/flink-sql

mkdir -p /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/connectors/spark

mkdir -p /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/connectors/seatunnel

2.3.2.修改下载脚本

下载脚本的位置

/opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/bin

修改install-plugin.sh之前请先备份

mvn加速下载seatunnel相关jar包

安装seatunnel过程中,解压文件后官方默认提供的connector的jar包只有2个,要想连接mysql,oracle,SqlServer,hive,kafka,clickhouse,doris等时,还需下载对应的jar包。

使用本地Maven加速下载connector相关jar包

seatunnel下载connector的jar时,使用mvnw来下载jar包,默认是从https://repo.maven.apache.org 下载,速度及其缓慢。我们可以改成自己在linux系统上安装的mvn,配置阿里云远程仓库地址,从阿里云mvn源下载会快很多, 下面教大家如何进行修改。

修改其安装插件相关脚本,复制bin目录下install-plugin.sh重命名为install-plugin.sh.bak

替换脚本中的${SEATUNNEL_HOME}/mvnw为mvn,即可使用本地mvn,配合阿里云的mvn源,可加速下载。

2.3.3.执行下载

自动下载

执行命令即可,一般不推荐,因为从官网下载速度太慢,可以通过修改相关的代码进行手动加速下载。

系统默认自动下载时会下载所有的连接器JAR, 如果暂时不需要使用, 可以在执行下载脚本执行之前先在/opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/config/pulgun_config配置中注释掉不需要的连接器

shell
sh /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/bin/install-plugin.sh

自动下载完成之后, 将/opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/connectors/seatunnel下所有的jar包都拷贝到/opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/lib目录下

手动下载

修改代码,通过阿里云的mvn源快速下载,然后将相关jar包复制到对应目录即可。

seatunnel-connectors下载地址

注意:下载jar复制到两个文件夹,一个是lib文件夹,一个是connectors/seatunnel文件夹。

2.3.4.测试验证

进入安装目录

cd /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3

启动服务

./bin/seatunnel.sh --config ./config/v2.batch.config.template -e local



2.4.启动服务

进入安装目录

cd /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3

启动服务

nohup sh bin/seatunnel-cluster.sh 2>&1 &

在seatunnel的安装目录下查看日志

tail -f logs/seatunnel-engine-server.log 有以下类似信息打印出,说明启动成功。

必须保证Apache SeaTunnel的Server正常运行,Web端服务才能正常运行。

3.安装Apache Seatunnel Web

3.1.安装配置Seatunnel引擎集群

在SeaTunnel的Web端机器上需要安装SeaTunnel客户端,如果服务端与Web端在同一台机器,则可直接跳过这个步骤。

本文档的安装过程中,Seatunnel服务端和web是安装在同一台机器上, 所以直接跳过此步安装步骤。

这里所说的Seatunnel引擎客户端其实就是我们章2中安装的Seatunnel服务端, 下面讲解一下如何进行Seatunnel集群的安装配置

3.1.1.准备服务器节点

我们现在需要搭建Seatunnel引擎集群,需要准备n台服务器节点, 我这里使用了3台服务器。比如, 已知我们的3台服务器的IP分别是

192.168.1.110

192.168.1.111

192.168.1.112

我们直接在章2中已经安装部署好的Seatunnel单节点中进行集群的配置,主要的配置修改包含以下几项:

3.1.2.修改JVM参数

在seatunnel的安装目录,找到$SEATUNNEL_HOME/bin/seatunnel-cluster.sh

将 JVM 选项添加到$SEATUNNEL_HOME/bin/seatunnel-cluster.sh第一行

JAVA_OPTS=“-Xms2G -Xmx2G”

如果不想这样进行修改,也可以, 不过需要在进行集群启动时,自行增加JVM参数进行启动, 启动命令如下:

nohup sh $SEATUNNEL_HOME/bin/seatunnel-cluster.sh -DJvmOption="-Xms2G -Xmx2G" 2>&1 &

3.1.3.SeaTunnel Engine配置

SeaTunnel Engine Server配置是在sh $SEATUNNEL_HOME/config/seatunnel.yaml .

详细配置想可参考官方文档4. Config SeaTunnel Engine,这里不赘述

3.1.4.SeaTunnel Engine Server配置

SeaTunnel Engine Server配置是在sh $SEATUNNEL_HOME/config/hazelcast.yaml .

集群名称配置

SeaTunnel Engine 节点使用集群名称来确定对方是否与自己是一个集群。 如果两个节点之间的集群名称不同,SeaTunnel 引擎将拒绝服务请求。

网络配置

SeaTunnel Engine 集群基于 Hazelcast,是运行 SeaTunnel Engine Server 的集群成员的网络。 集群成员自动连接在一起形成集群。 这种自动加入是通过集群成员用来查找彼此的各种发现机制来实现的。

请注意,集群形成后,集群成员之间的通信始终通过 TCP/IP 进行,无论使用何种发现机制。

SeaTunnel 引擎使用以下发现机制。

TCP

您可以将 SeaTunnel Engine 配置为完整的 TCP/IP 集群。 有关配置详细信息,请参阅通过 TCP 发现成员部分。

hazelcast.yaml配置示例如下:

hazelcast:
  cluster-name: seatunnel
  network:
    join:
      tcp-ip:
        enabled: true
        member-list:
          - hostname1
    port:
      auto-increment: false
      port: 5801
  properties:
    hazelcast.logging.type: log4j2

在独立 SeaTunnel 引擎集群中我们建议使用TCP方式。

另一方面,Hazelcast 提供了一些其他的服务发现方法。 详情请参考hazelcast网

3.1.4.3 Map配置
  • type

imap持久化类型,目前仅支持hdfs。

  • namespace

命令空间用于区分不同业务的数据存储位置,例如OSS的桶名。

  • clusterName

这个参数主要用于集群隔离,我们可以通过这个来区分不同的集群,比如cluster1、cluster2,这个也可以用来区分不同的业务

  • fs.defaultFS

We used hdfs api read/write file, so used this storage need provide hdfs configuration

if you used HDFS, you can config like this:

map:
    engine*:
       map-store:
         enabled: true
         initial-mode: EAGER
         factory-class-name: org.apache.seatunnel.engine.server.persistence.FileMapStoreFactory
         properties:
           type: hdfs
           namespace: /tmp/seatunnel/imap
           clusterName: seatunnel-cluster
           storage.type: hdfs
           fs.defaultFS: hdfs://localhost:9000

如果没有 HDFS 并且您的集群只有一个节点,您可以配置为使用本地文件,如下所示:

map:
    engine*:
       map-store:
         enabled: true
         initial-mode: EAGER
         factory-class-name: org.apache.seatunnel.engine.server.persistence.FileMapStoreFactory
         properties:
           type: hdfs
           namespace: /tmp/seatunnel/imap
           clusterName: seatunnel-cluster
           storage.type: hdfs
           fs.defaultFS: file:///

如果你使用OSS,你可以这样配置:

map:
    engine*:
       map-store:
         enabled: true
         initial-mode: EAGER
         factory-class-name: org.apache.seatunnel.engine.server.persistence.FileMapStoreFactory
         properties:
           type: hdfs
           namespace: /tmp/seatunnel/imap
           clusterName: seatunnel-cluster
           storage.type: oss
           block.size: block size(bytes)
           oss.bucket: oss://bucket name/
           fs.oss.accessKeyId: OSS access key id
           fs.oss.accessKeySecret: OSS access key secret
           fs.oss.endpoint: OSS endpoint
           fs.oss.credentials.provider: org.apache.hadoop.fs.aliyun.oss.AliyunCredentialsProvider

3.1.5.SeaTunnel Engine Client配置

SeaTunnel Engine Client配置是在sh $SEATUNNEL_HOME/config/hazelcast-client.yaml .

集群名称配置

客户端必须与 SeaTunnel 引擎具有相同的集群名称。 否则,SeaTunnel 引擎将拒绝客户端请求。

网络配置

cluster-members

所有 SeaTunnel 引擎服务器节点地址都需要添加到此处。

hazelcast-client:
  cluster-name: seatunnel
  properties:
      hazelcast.logging.type: log4j2
  network:
    cluster-members:
      - hostname1:5801

3.1.6.启动Seatunnel引擎服务端节点

mkdir -p $SEATUNNEL_HOME/logs

cd $SEATUNNEL_HOME

./bin/seatunnel-cluster.sh -d

如果集群存在多台节点, 需要启动所有节点上的Seatunnel引擎服务。

3.1.7.安装Seatunnel引擎客户端并启动

您只需将SeaTunnel引擎节点上的安装目录目录复制到客户端节点主机的相同安装目录下,并像SeaTunnel引擎服务器节点一样配置SEATUNNEL_HOME,之后启动服务即可。

3.2.配置Seatunnel Web服务

3.2.1.数据库初始化

修改数据库连接配置

script/seatunnel_server_env.sh相关配置改为你的对应的数据库信息

以上截图中原始文件中配置的是HOSTNAME,PORT,USERNAME,PASSWORD等,但是因为的机器上有全局配置文件也用了这几个变量名,但是链接的数据库信息和seatunnel连接的数据库不是一个数据库, 因为名称冲突导致在启动web服务时连接数据哭失败,

所以我这里修改了seatunnel_server_env.shinit_sql.sh脚本中的HOSTNAME,PORT,USERNAME,PASSWORD可以加上前缀SEATUNNEL_,变成了

SEATUNNEL_HOSTNAME,SEATUNNEL_PORT,SEATUNNEL_USERNAME,SEATUNNEL_PASSWORD

一定要记住, 如果你按照文档修改了seatunnel_server_env.sh脚本的变量名, 一定要将init_sql.sh脚本中对应的变量名称进行同步修改,如下图:

执行初始化数据库命令

进入seatunnel-web的安装目录,然后执行命令sh init_sql.sh,无异常则执行成功。

3.2.2.配置WEB后端服务

修改后端基础配置

web后端服务的配置文件都在${web安装目录}/conf

vim conf/application.yml修改端口号和数据源连接信息

配置client信息

将seatunnel引擎服务节点的安装目录下的config目录下的关于引擎客户端的配置文件拷贝到seatunnel-web安装目录下的conf目录下

同一台机器下部署直接使用以下拷贝命令(注意修改服务的安装目录为你自己的安装目录)

sudo cp /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/config/hazelcast-client.yaml /opt/bigdata/seatunnel-2.3.3/web/apache-seatunnel-web-1.0.0/conf

如果不在同一台机器上, 可以使用scp命令或者下载下来然后上传到web服务的安装主机的安装目录下的conf目录下即可。

配置支持的插件信息

将seatunnel引擎服务节点的安装目录下的connectors目录下的plugin-mapping.properties配置文件拷贝到seatunnel-web安装目录下的conf目录下

sudo cp /opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/connectors/plugin-mapping.properties /opt/bigdata/seatunnel-2.3.3/web/apache-seatunnel-web-1.0.0/conf

同一台机器下部署直接使用以下拷贝命令(注意修改服务的安装目录为你自己的安装目录)如果不在同一台机器上, 可以使用scp命令或者下载下来然后上传到web服务的安装主机的安装目录下的conf目录下即可。

3.2.3.下载配置数据源JAR包

这一步非常关键, 这一步如果没有配置好, 即使你正常启动了web应用,可能也会遇到下列问题:

  • 数据源类型选择页面为空, 我这里因为正常配置, 所以正常显示
  • 没有Source或者Sink进行选择
  • 任务无法正常执行
获取下载脚本

数据源JAR包的下载脚本在seatunnel-web的源码包中存在,它的目录在:

修改配置文件如下:

执行脚本,下载数据源JAR包

正在下载

成功下载下所有的datasourceJAR包

上传到Seatunnel-Web项目的libs目录

将以上所有jar包复制到/opt/bigdata/seatunnel-2.3.3/web/apache-seatunnel-web-1.0.0/libs目录下

上传到Seatunnel引擎服务的lib目录

将以上所有jar包复制到/opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/lib目录下

3.2.4.配置元数据MySQL的驱动JAR包

MySQL的驱动包mysql-connector-java-8.0.20.jar自行下载

上传到SeaTunnel引擎服务的lib目录

mysql-connector-java-8.0.20.jar包复制到/opt/bigdata/seatunnel-2.3.3/backend/apache-seatunnel-2.3.3/lib

3.2.5.启动WEB服务

这一步也很容易出错,很多人都配置对了,但是最后启动起来,发现无法通过浏览访问, 查看日志打印如下:

造成这样的问题就是你执行启动命令的位置不对, 注意web服务安装之后的目录结构如下图:

所以启动服务必须要保证服务可以访问到ui目录下的index.html文件才可以,因为项目启动前端的项目路径默认添加了/ui的前缀,所以后端项目的启动路径必须在ui目录的父级目录才可以,所以这里需要再web服务的安装目录下执行启动脚本,举例:

我这里的安装目录是/opt/bigdata/seatunnel-2.3.3/web/apache-seatunnel-web-1.0.0, 所以我这里直接切换到该目录下,执行以下启动命令:

#进入web服务的安装目录
cd /opt/bigdata/seatunnel-2.3.3/web/apache-seatunnel-web-1.0.0
#执行启动脚本
sudo sh bin/seatunnel-backend-daemon.sh start

访问http://主机IP:12306 (此端口为conf/application.yml中配置的端口), 页面自动跳转到http://主机IP:12306/ui

默认登录的用户名和密码:

username:admin

password:admin

OK, 至此所有的搭建流程就结束了。

4.资源链接

这里面有些资源的下载特别慢, 这里将整个配置好的前后端的项目资源打包存放到百度网盘,地址如下:

Seatunnel引擎及Web服务一键安装包

提取码rryz

下载下来之后,修改所有涉及数据库连接的配置文件为你自己的连接配置信息, 然后执行3.2.1小节的初始化数据库命令, 然后依次启动SeaTunnel引擎服务、Web服务即可。

通过遵循上述步骤,你应该能够成功部署SeaTunnel及其Web界面。这将为你的大数据处理任务提供一个强大的工具,同时享受到基于Web的界面带来的便利。如果在部署过程中遇到任何问题,不要犹豫,查阅SeaTunnel官方文档或加入社区寻求帮助。

创作不易,对您有帮助,点个赞呗,感谢~~~~

本文由 白鲸开源 提供发布支持!文章来源地址https://www.toymoban.com/news/detail-837647.html

到了这里,关于Apache SeaTunnel 及 Web 功能部署指南(小白版)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 解读重要功能特性:新手入门 Apache SeaTunnel CDC

    点亮 ⭐️ Star · 照亮开源之路 https://github.com/apache/incubator-seatunnel 为什么说 CDC 是SeaTunnel平台中的一个重要功能特性?今天这篇文章跟大家分享一下 CDC 是什么?目前市面上的 CDC 工具现有的痛点有哪些?SeaTunnel面对这些痛点设计的架构目标是什么?另外包括社区的展望和目前

    2024年02月09日
    浏览(56)
  • 曝光!Apache SeaTunnel Catalog 功能设计为何能大大简化用户启用步骤?

    Catalog(目录)提供了关于数据库、表格和访问数据所需的信息的元数据,以及统一的 API 来管理元数据,验证连接,让元数据对 Sources(数据源)、Sinks(数据汇)和 Web 可访问。 Catalog 让用户能够引用其数据系统中的现有元数据,并自动映射到 SeaTunnel 的对应元数据。总之,

    2024年02月09日
    浏览(44)
  • 【源码编译】Apache SeaTunnel-Web 适配最新2.3.4版本教程

    Apache SeaTunnel新版本已经发布,感兴趣的小伙伴可以看之前版本发布的文章 本文主要给大家介绍为使用2.3.4版本的新特性,需要对Apache SeaTunnel-Web依赖的版本进行升级,而SeaTunnel2.3.4版本部分API跟之前 版本不兼容 ,所以需要对 SeaTunnel-Web的 源码进行修改 适配。 克隆SeaYunnel-We

    2024年04月14日
    浏览(33)
  • Seatunnel及web安装搭建部署流程

    本博客记录了seatunnel安装部署的流程,相关注意事项也有提示,关于jar包问题有相关单独的文章,点击链接即可。 seatunnel及web安装常见问题与解决方法_seatunnel web-CSDN博客 要求java8或者java11,并设置JAVA_HOME,如果JAVA_HOME无效,需要设置为有效状态。 echo ${JAVA_HOME} sudo mkdir -p /

    2024年02月04日
    浏览(33)
  • 01 - Apache Seatunnel 源码调试

    选择 seatunnel-examples ├── seatunnel-engine-examples ├── seatunnel-flink-connector-v2-example ├── seatunnel-spark-connector-v2-example 注意:需要调试哪些数据库,使用相应 connector ,就要在 pom 文件中添加。 如果需要其他的,自己补充即可

    2024年02月09日
    浏览(41)
  • # Apache SeaTunnel 究竟是什么?

    作者 | Shawn Gordon 翻译 | Debra Chen 原文链接 | What the Heck is Apache SeaTunnel? 我在2023年初开始注意到Apache SeaTunnel的相关讨论,一直低调地关注着。该项目始于2017年,最初名为Waterdrop,在Apache DolphinScheduler的创建者的贡献下发展起来,后者支持SeaTunnel作为任务插件。 我最初对于SeaT

    2024年04月08日
    浏览(100)
  • 开源元数据治理平台Datahub部署指南(小白版)

    datahub是做什么的,这里就不展开描述了, 如果想了解更多请自行阅读DataHub官网文档, 这里主要教大家如何一步一步安装然后100%部署完成。一般开源产品的文档都是被大家吐槽的最多的,部署步骤写的非常简单,重要关键的配置有时候基本都是不提的,很多人想入门, 但是

    2024年02月03日
    浏览(46)
  • Apache SeaTunnel 社区 3 月月报

    各位热爱 SeaTunnel 的小伙伴们,SeaTunnel 社区 3 月月报来啦!这里将记录 SeaTunnel 社区每个月的重要更新,并评选出月度之星,欢迎关注。 感谢以下小伙伴 3 月为 Apache SeaTunnel 做的精彩贡献(排名不分先后): @Carl-Zhou-CN,@ilsl1007,@loveyang1990,@dailai,@liugddx,@CheneyYin,@litiliu,@ShaunWuu,@

    2024年04月11日
    浏览(36)
  • apache seatunnel支持hive jdbc

    上传hive jdbc包HiveJDBC42.jar到seatunel lib安装目录 原因是cloudera 实现了add batch方法 创建seatunnel任务文件mysql2hivejdbc.conf

    2024年02月06日
    浏览(34)
  • Apache Seatunnel本地源码构建编译运行调试

    Apache Seatunnel本地源码构建编译运行调试   本文使用的是windows10-64位专业版的电脑,需要安装环境如下   jdk=1.8 - 64 位的jdk、   使用的是idea自带的maven,最好是安装一个方便源码编译构建,使用idea自带的maven无法执行mvnw,但是可以复制mvnw后面的在idea的maven中的run mave

    2024年01月16日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包