CDH 6.3.2 Parcel 包安装 Apache Flink 1.10.2

这篇具有很好参考价值的文章主要介绍了CDH 6.3.2 Parcel 包安装 Apache Flink 1.10.2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文档材料

  • 官方文档 01:https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/resource-providers/yarn/
  • 官方文档 02:https://nightlies.apache.org/flink/flink-docs-release-1.12/deployment/resource-providers/yarn.html
  • CSDN 文档:https://blog.csdn.net/qq_31454379/article/details/110440037

介质路径

  • Flink Shaded 10.0 包:https://archive.apache.org/dist/flink/flink-shaded-10.0/flink-shaded-10.0-src.tgz
  • Flink 1.10.2 源码包:https://archive.apache.org/dist/flink/flink-1.10.2/flink-1.10.2-src.tgz
  • Flink 1.10.2 bin包:https://archive.apache.org/dist/flink/flink-1.10.2/flink-1.10.2-bin-scala_2.12.tgz
  • Flink Parcel GitHub 项目:https://github.com/pkeropen/flink-parcel.git

调整 Maven 配置文件

# 备份原始文件
cp /data/maven/apache-maven-3.6.3/conf/settings.xml /data/maven/apache-maven-3.6.3/conf/settings.xml.orig

# 添加镜像路径
# 在 159 行的 "</mirrors>" 前,添加如下配置
<!-- flink 源码编译-->
<mirror>
    <id>alimaven</id>
    <mirrorOf>central</mirrorOf>
    <name>aliyun maven</name>
    <url>http://maven.aliyun.com/nexus/content/repositories/central/</url>
</mirror>
<mirror>
    <id>alimaven</id>
    <name>aliyun maven</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
    <mirrorOf>central</mirrorOf>
</mirror>
<mirror>
    <id>central</id>
    <name>Maven Repository Switchboard</name>
    <url>http://repo1.maven.org/maven2/</url>
    <mirrorOf>central</mirrorOf>
</mirror>
<mirror>
    <id>repo2</id>
    <mirrorOf>central</mirrorOf>
    <name>Human Readable Name for this Mirror.</name>
    <url>http://repo2.maven.org/maven2/</url>
</mirror>
<mirror>
    <id>ibiblio</id>
    <mirrorOf>central</mirrorOf>
    <name>Human Readable Name for this Mirror.</name>
    <url>http://mirrors.ibiblio.org/pub/mirrors/maven2/</url>
</mirror>
<mirror>
    <id>jboss-public-repository-group</id>
    <mirrorOf>central</mirrorOf>
    <name>JBoss Public Repository Group</name>
    <url>http://repository.jboss.org/nexus/content/groups/public</url>
</mirror>
<mirror>
    <id>google-maven-central</id>
    <name>Google Maven Central</name>
    <url>https://maven-central.storage.googleapis.com
    </url>
    <mirrorOf>central</mirrorOf>
</mirror>
<!-- 中央仓库在中国的镜像 -->
<mirror>
    <id>maven.net.cn</id>
    <name>oneof the central mirrors in china</name>
    <url>http://maven.net.cn/content/groups/public/</url>
    <mirrorOf>central</mirrorOf>
</mirror>

编译 Flink

1. 创建服务目录

mkdir -p /data/flink

2. 下载介质

wget https://archive.apache.org/dist/flink/flink-shaded-10.0/flink-shaded-10.0-src.tgz -P /data/flink
wget https://archive.apache.org/dist/flink/flink-1.10.2/flink-1.10.2-bin-scala_2.12.tgz -P /data/flink

3. 编译 Flink Shaded

# 解压 Flink Shaded 压缩包
tar -xzf /data/flink/flink-shaded-10.0-src.tgz -C /data/flink

# 备份初始配置文件
cp /data/flink/flink-shaded-10.0/pom.xml /data/flink/flink-shaded-10.0/pom.xml.orig

# 修改配置文件
# 在 170 行的 "</profiles>" 前,添加如下配置
<profile>
    <id>java11</id>
    <activation>
        <jdk>11</jdk>
    </activation>
    <id>vendor-repos</id>
    <activation>
        <property>
            <name>vendor-repos</name>
        </property>
    </activation>
    <!-- Add vendor maven repositories -->
    <repositories>
        <!-- Cloudera -->
        <repository>
            <id>cloudera-releases</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
            <releases>
                <enabled>true</enabled>
            </releases>
            <snapshots>
                <enabled>false</enabled>
            </snapshots>
        </repository>
        <!-- Hortonworks -->
        <repository>
            <id>HDPReleases</id>
            <name>HDP Releases</name>
            <url>https://repo.hortonworks.com/content/repositories/releases/</url>
            <snapshots><enabled>false</enabled></snapshots>
            <releases><enabled>true</enabled></releases>
        </repository>
        <repository>
            <id>HortonworksJettyHadoop</id>
            <name>HDP Jetty</name>
            <url>https://repo.hortonworks.com/content/repositories/jetty-hadoop</url>
            <snapshots><enabled>false</enabled></snapshots>
            <releases><enabled>true</enabled></releases>
        </repository>
        <!-- MapR -->
        <repository>
            <id>mapr-releases</id>
            <url>https://repository.mapr.com/maven/</url>
            <snapshots><enabled>false</enabled></snapshots>
            <releases><enabled>true</enabled></releases>
        </repository>
    </repositories>
</profile>

# 编译 Flink Shaded
# - clean: 在构建项目之前,清理先前生成的文件。它会删除 target 目录
# - install: 将构建的项目文件安装到本地 Maven 仓库中。其他项目可以从本地仓库中引用这个项目
# - DskipTests: 在构建期间跳过运行测试
# - Pvendor-repos: 激活 Maven profile 为 vendor-repos
# - Dhadoop.version=3.0.0-cdh6.3.2: 指定 Hadoop 版本为 3.0.0-cdh6.3.2 
# - Dscala-2.12: 指定 Scala 版本为 2.12
# - Drat.skip=true: 跳过 "Release Audit Tool"(RAT)检查。RAT 用于检查项目是否符合 Apache 许可证要求
# - T10C: 启用并行构建,线程数为 10,C 表示以类的方式执行构建
cd /data/flink/flink-shaded-10.0/ && mvn clean install -DskipTests -Pvendor-repos -Dhadoop.version=3.0.0-cdh6.3.2 -Dscala-2.12 -Drat.skip=true -T10C

制作 Pacel 包

# 下载介质
git clone https://github.com/pkeropen/flink-parcel.git

# 将 flink-1.10.2-bin-scala_2.12.tgz 存入指定路径
cp /data/flink/flink-1.10.2-bin-scala_2.12.tgz /data/flink/flink-parcel/

# 备份原始配置文件
cp /data/flink/flink-parcel/flink-parcel.properties /data/flink/flink-parcel/flink-parcel.properties.orig

# 修改配置文件
cat > /data/flink/flink-parcel/flink-parcel.properties << EOF
# FLINK 下载地址
FLINK_URL=https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.10.2/flink-1.10.2-bin-scala_2.12.tgz

# Flink 版本号
FLINK_VERSION=1.10.2

# 扩展版本号
EXTENS_VERSION=BIN-SCALA_2.12

# 操作系统版本,以centos为例
OS_VERSION=7

# CDH 小版本
CDH_MIN_FULL=5.2
CDH_MAX_FULL=6.3.3

# CDH大版本
CDH_MIN=5
CDH_MAX=6
EOF

# 增加 build.sh 权限
chmod +x build.sh

# 编译 Flink Parcel
sh build.sh parcel

# 生成 csd 文件
# On YARN
sh build.sh csd_on_yarn

# StandAlone
sh build.sh csd_standalone

# 查看是否已生成所需文件
ll /data/flink/flink-parcel
-rwxr-xr-x 1 root root      5863 Nov 27 14:50 build.sh
drwxr-xr-x 6 root root       142 Nov 27 15:03 cm_ext
drwxr-xr-x 4 root root        29 Nov 27 15:31 FLINK-1.10.2-BIN-SCALA_2.12
drwxr-xr-x 2 root root       123 Nov 27 15:31 FLINK-1.10.2-BIN-SCALA_2.12_build
-rw-r--r-- 1 root root 280626150 Nov 27 14:52 flink-1.10.2-bin-scala_2.12.tgz
-rw-r--r-- 1 root root      7737 Nov 27 15:40 FLINK-1.10.2.jar
drwxr-xr-x 5 root root        53 Nov 27 15:40 flink_csd_build
drwxr-xr-x 5 root root        53 Nov 27 14:50 flink-csd-on-yarn-src
drwxr-xr-x 5 root root        53 Nov 27 14:50 flink-csd-standalone-src
-rw-r--r-- 1 root root      8260 Nov 27 15:40 FLINK_ON_YARN-1.10.2.jar
-rw-r--r-- 1 root root       350 Nov 27 14:55 flink-parcel.properties
-rw-r--r-- 1 root root       346 Nov 27 14:53 flink-parcel.properties.orig
drwxr-xr-x 3 root root        85 Nov 27 14:50 flink-parcel-src
-rw-r--r-- 1 root root     11357 Nov 27 14:50 LICENSE
-rw-r--r-- 1 root root      4334 Nov 27 14:50 README.md

配置 Flink Parcel

1. 节点配置

# 将 csd 文件存入 cloudera-scm-server 节点的 /opt/cloudera/csd 目录下
scp FLINK-1.10.2.jar FLINK_ON_YARN-1.10.2.jar root@cloudera-scm-server:/opt/cloudera/csd

# 配置 Httpd 服务,外发 Flink Parcel 配置及介质
ln -s /data/flink/flink-parcel/FLINK-1.10.2-BIN-SCALA_2.12_build /var/www/html/flink1.10.2

# 查看外发 Flink Parcel 配置及介质
ll /var/www/html/flink1.10.2/
-rw-r--r-- 1 root root 280629521 Nov 27 15:47 FLINK-1.10.2-BIN-SCALA_2.12-el7.parcel
-rw-r--r-- 1 root root        41 Nov 27 15:47 FLINK-1.10.2-BIN-SCALA_2.12-el7.parcel.sha
-rw-r--r-- 1 root root       583 Nov 27 15:47 manifest.json

# 备份原文件
cp /etc/httpd/conf/httpd.conf /etc/httpd/conf/httpd.conf.orig

# 调整配置文件
# 将 284 行更改为如下配置
AddType application/x-gzip .gz .tgz .parcel

# 重启服务使其生效
systemctl restart httpd

# 查看外发状态
curl http://${httpd_server_ip}/flink1.10.

2. CM Web UI,选择 Parcel 配置,添加 http://${httpd_server_ip}/flink1.10.2

3. Parcel 中将会识别 Flink Parcel 包

4. 下载 => 分配 => 激活 Parcel 包

部署 Flink 服务

1. 重启 cloudera-scm-server 服务

systemctl restart cloudera-scm-server

2. 将 Flink Shaded 存入指定路径

# 所有 cloudera-scm-agent 都需进行如下操作
cp /data/flink/flink-shaded-10.0/flink-shaded-hadoop-2-parent/flink-shaded-hadoop-2-uber/target/flink-shaded-hadoop-2-uber-3.0.0-cdh6.3.2-10.0.jar /opt/cloudera/parcels/FLINK/lib/flink/lib/

3. 按流程完成 Flink 部署(若未配置 kerberos,需将两项 kerberos 配置清空)

验证 Flink 服务

1. 查看 YARN 应用程序,存在驻留任务 “Flink session cluster”

2. 通过此任务信息,跳转至 Flink Dashbord

文章来源地址https://www.toymoban.com/news/detail-836677.html

到了这里,关于CDH 6.3.2 Parcel 包安装 Apache Flink 1.10.2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 流数据湖平台Apache Paimon(二)集成 Flink 引擎

    Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。 环境准备 2.1.1 安装 Flink 1)上传并解压Flink安装包 tar -zxvf flink-1.17.0-bin-scala_2.12.tgz -C /opt/module/ 2)配置环境变量 2.1.2 上传 jar 包 1)下载并上传Paimon的jar包 jar包下载地址:https://repository.apache.org/snapshots/org/apache/pa

    2024年02月09日
    浏览(33)
  • 【大数据】深入浅出 Apache Flink:架构、案例和优势

    Apache Flink 是一个强大的开源流处理框架,近年来在大数据社区大受欢迎。它允许用户实时处理和分析大量流式数据,使其成为 欺诈检测 、 股市分析 和 机器学习 等现代应用的理想选择。 在本文中,我们将详细介绍什么是 Apache Flink 以及如何使用它来为您的业务带来益处。

    2024年01月17日
    浏览(33)
  • 【Apache-StreamPark】Flink 开发利器 StreamPark 的介绍、安装、使用

    StreamPark 核心由 streampark-core 和 streampark-console 组成 之前我们写 Flink SQL 基本上都是使用 Java 包装 SQL,打 jar 包,提交到服务器上。通过命令行方式提交代码,但这种方式始终不友好,流程繁琐,开发和运维成本太大。我们希望能够进一步简化流程,将 Flink TableEnvironment 抽象出

    2024年02月02日
    浏览(26)
  • Apache Hudi初探(三)(与flink的结合)--flink写hudi的操作(真正的写数据)

    在之前的文章中Apache Hudi初探(二)(与flink的结合)–flink写hudi的操作(JobManager端的提交操作) 有说到写hudi数据会涉及到 写hudi真实数据 以及 写hudi元数据 ,这篇文章来说一下具体的实现 这里的操作就是在 HoodieFlinkWriteClient.upsert 方法: initTable 初始化HoodieFlinkTable preWrite 在这里几乎没

    2024年02月10日
    浏览(26)
  • 怎么使用 Flink 向 Apache Doris 表中写 Bitmap 类型的数据

    Bitmap是一种经典的数据结构,用于高效地对大量的二进制数据进行压缩存储和快速查询。Doris支持bitmap数据类型,在Flink计算场景中,可以结合Flink doris Connector对bitmap数据做计算。 社区里很多小伙伴在是Doris Flink Connector的时候,不知道怎么写Bitmap类型的数据,本文将介绍如何

    2024年02月07日
    浏览(48)
  • Kudu与Apache Flink的集成:实时数据处理的新方法

    随着数据的增长,实时数据处理变得越来越重要。传统的批处理系统已经不能满足现在的需求。因此,实时数据处理技术逐渐成为了研究的热点。Kudu和Apache Flink是两个非常重要的实时数据处理系统,它们各自具有独特的优势。Kudu是一个高性能的列式存储系统,适用于实时数

    2024年02月21日
    浏览(36)
  • 使用 Flink CDC 实现 MySQL 数据,表结构实时入 Apache Doris

    现有数据库:mysql 数据:库表较多,每个企业用户一个分库,每个企业下的表均不同,无法做到聚合,且表可以被用户随意改动,增删改列等,增加表 分析:用户自定义分析,通过拖拽定义图卡,要求实时,点击确认即出现相应结果,其中有无法预判的过滤 问题:随业务增长

    2023年04月08日
    浏览(48)
  • 重磅!flink-table-store将作为独立数据湖项目重入apache

    数据湖是大数据近年来的网红项目,大家熟知的开源数据湖三剑客 Apache hudi、Apache iceberg 、Databricks delta 近年来野蛮生长,目前各自背后也都有商业公司支持,投入了大量的人力物力去做研发和宣传。然而今天我们要讲的是数据湖界的后起之秀 —— flink-table-store。 熟悉 Flin

    2024年02月08日
    浏览(33)
  • Apache Flink 和 Apache Kafka 两者之间的集成架构 Flink and Apache Kafka: A Winning Partnership

    作者:禅与计算机程序设计艺术 Apache Flink 和 Apache Kafka 是构建可靠、高吞吐量和低延迟的数据管道(data pipeline)的两个著名的开源项目。2019年4月,两者宣布合作共赢。在这次合作中,Apache Kafka 将提供强大的消息存储能力、Flink 将作为一个分布式数据流处理平台来对其进行

    2024年02月11日
    浏览(40)
  • 【跟小嘉学 Apache Flink】二、Flink 快速上手

    【跟小嘉学 Apache Flink】一、Apache Flink 介绍 【跟小嘉学 Apache Flink】二、Flink 快速上手 创建 maven 工程 并且添加如下依赖 在 resource 目录下创建 log4j.properties 文件,写入如下内容 实际上在 Flink 里面已经做到流批处理统一,官方推荐使用 DateStream API,在跳任务时通过执行模式设

    2024年02月09日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包