CDH整合Flink(CDH6.3.0+Flink1.12.1)

这篇具有很好参考价值的文章主要介绍了CDH整合Flink(CDH6.3.0+Flink1.12.1)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

CDH整合Flink(CDH6.3.0+Flink1.12.1)

1 准备环境

Linux版本:CENTOS 7.7.1908 在自己的虚拟机上提前准备好,版本建议高点
JAVA版本: jdk1.8.0_181-cloudera 使用CDH带的JDK1.181版本即可,解压,配置环境变量
​
export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera
export PATH=$PATH:$JAVA_HOME/bin
​
MAVEN版本:apache-maven-3.6.3 解压,配置环境变量,配置国内源
tar -zxvf apache-maven-3.6.3-bin.tar.gz -C .
​
export MVN_HOME=/home/data/apache-maven-3.6.3
export PATH=$PATH:$JAVA_HOME/bin:$MVN_HOME/bin
​
配置镜像
    <!-- 阿里云仓库 -->
    <mirror>
      <id>alimaven</id>
      <name>aliyun maven</name>
      <url>http://maven.aliyun.com/nexus/content/repositories/central/</url>
      <mirrorOf>central</mirrorOf>
    </mirror>
    <mirror>
      <id>nexus-aliyun</id>
      <name>aliyun maven</name>
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
      <mirrorOf>central</mirrorOf>
    </mirror>
    <!-- Maven中央仓库中国镜像 -->
    <mirror>
      <id>maven cn repo</id>
      <name>oneof the central mirrors in china</name>
      <url>http://maven.net.cn/content/groups/public/</url>
      <mirrorOf>central</mirrorOf>
    </mirror>
    <mirror>
      <id>maven repo</id>
      <name>Maven Repository Switchboard</name>
      <url>http://repo1.maven.org/maven2/</url>
      <mirrorOf>central</mirrorOf>
    </mirror>
    <mirror>
      <id>maven repo2</id>
      <mirrorOf>central</mirrorOf>
      <name>Human Readable Name for this Mirror.</name>
      <url>http://repo2.maven.org/maven2/</url>
    </mirror>
​
git版本:1.8.3.1-23.el7_8
yum install -y wget git

2 FLINK相关准备

下载

flink下载地址:https://archive.apache.org/dist/flink/flink-1.12.1/flink-1.12.1-bin-scala_2.12.tgz
parcel制作工具下载地址:https://github.com/pkeropen/flink-parcel.git(github提供的工具包)
使用:git clone https://github.com/pkeropen/flink-parcel.git 下载

准备FLINK1.12.1包

在`/var/www/html`目录下创建flinktar1.12目录,将`flink-1.12.1-bin-scala_2.12.tgz`置于该目录下
通过 http://cdhnode01/flinktar1.12 可以查看到

准备paecel环境

修改配置文件

vim flink-parcel.properties
​
#FLINK 下载地址
#FLINK_URL=https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.9.1/flink-1.9.1-bin-scala_2.12.tgz
FLINK_URL=http://cdhnode01/flinktar1.12/flink-1.12.1-bin-scala_2.12.tgz
​
#flink版本号
#FLINK_VERSION=1.9.1
FLINK_VERSION=1.12.1
​
#扩展版本号
#EXTENS_VERSION=BIN-SCALA_2.12
EXTENS_VERSION=BIN-SCALA_2.12
​
#操作系统版本,以centos为例
#OS_VERSION=7
OS_VERSION=7
​
#CDH 小版本
#CDH_MIN_FULL=5.2
CDH_MIN_FULL=5.2
#CDH_MAX_FULL=5.15
CDH_MAX_FULL=6.3.3
​
#CDH大版本
#CDH_MIN=5
CDH_MIN=5
#CDH_MAX=5
CDH_MAX=6

3 编译

执行 bash build.sh parcel
​
报错如下:
​
git clone https://github.com/cloudera/cm_ext.git
Cloning into 'cm_ext'...
fatal: unable to access 'https://github.com/cloudera/cm_ext.git/': Failed connect to github.com:443; Connection timed out
​
修改如下:
​
git clone https://github.com/cloudera/cm_ext.git  改为 git clone git://github.com/cloudera/cm_ext.git
​
再次执行

执行这部分操作需要稍等一会,打包结束后执行另外一个操作

bash build.sh csd_on_yarn
​
执行完成后会生成FLINK_ON_YARN-1.12.1.jar

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

生成这俩包为:FLINK-1.12.1-BIN-SCALA_2.12.tar FLINK_ON_YARN-1.12.1.jar

4 编译flink-shaded

由于Flink1.12版本编译后确实没有flink-shaded-hadoop-2-uber 3.0.0-cdh6.3.0-10.0文件,但是flink-shaded-10.0也适配flink1.12环境,于是改用官网提供的flink-shaded-10.0-src.tgz进行编译,编译步骤类似。

flink-shaded-10.0目录下进行编译,首先修改pom.xml文件

<profile>
    <id>vendor-repos</id>
    <activation>
        <property>
            <name>vendor-repos</name>
        </property>
    </activation>
    <!-- Add vendor maven repositories -->
    <repositories>
        <!-- Cloudera -->
        <repository>
            <id>cloudera-releases</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
            <releases>
                <enabled>true</enabled>
            </releases>
            <snapshots>
                <enabled>false</enabled>
            </snapshots>
        </repository>
        <!-- Hortonworks -->
        <repository>
            <id>HDPReleases</id>
            <name>HDP Releases</name>
            <url>https://repo.hortonworks.com/content/repositories/releases/</url>
            <snapshots><enabled>false</enabled></snapshots>
            <releases><enabled>true</enabled></releases>
        </repository>
        <repository>
            <id>HortonworksJettyHadoop</id>
            <name>HDP Jetty</name>
            <url>https://repo.hortonworks.com/content/repositories/jetty-hadoop</url>
            <snapshots><enabled>false</enabled></snapshots>
            <releases><enabled>true</enabled></releases>
        </repository>
        <!-- MapR -->
        <repository>
            <id>mapr-releases</id>
            <url>https://repository.mapr.com/maven/</url>
            <snapshots><enabled>false</enabled></snapshots>
            <releases><enabled>true</enabled></releases>
        </repository>
    </repositories>
</profile>

执行:mvn clean install -DskipTests -Pvendor-repos -Dhadoop.version=3.0.0-cdh6.3.0 -Dscala-2.12 -Drat.skip=true -T10C

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

编译成功后已经有目标文件,目标文件位置

/home/data/flink-shaded-10.0/flink-shaded-hadoop-2-parent/flink-shaded-hadoop-2-uber/target

5 集成CDH

将编译好的flink-1.12.1-bin-scala_2.12.tar解压到/var/www/html并重命名为flink1.12

将FLINK_ON_YARN-1.12.1.jar放到CM所在的/opt/cloudera/csd/目录下

重启CM

systemctl stop cloudera-scm-server

systemctl start cloudera-scm-server

会发现添加服务中多了FLINK_ONYARN的服务

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

配置pacel,将FLINK1.12.1的服务添加进去

CM页面—>主机—> parcel —> 配置,添加上传的parcel的位置

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

检查新Parcel ,然后下载—>分配—>激活

这时候会出现一个问题

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

此时我们需要多做一步

先对比文件hash值是否一致,如果不一致就修改一致

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

查看发现hash码一致,下载仍然报错,需要修改httpd配置文件 文件在/etc/httpd/conf/httpd.conf

重启httpd服务 systemctl restart httpd

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

再次进行上次操作,发现已经激活成功了。

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

6 启动FLINK服务

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

启动发现第一个报错

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

去看这个目录下的日志得到 /var/log/flink下找日志,第一步将有认证的去掉,还是报错,发现错误如下:

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

在这块配置过了HADOOP_CLASSPATH=hadoop classpath 但是问题没有解决。需要将我们打的1.10的包放到/opt/cloudera/parcels/FLINK-1.12.1-BIN-SCALA_2.12/lib/flink/lib,再次启动。

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

按照下面这个图片去解决问题

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

su - hdfs -s /bin/bash

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

在这一块进行权限的赋予,以前的CDH部署过FLINK1.9是会有影响的。集群启动成功

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

但是一会又挂了,接着查找日志

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

发现以前装的FLINK1.9确实有有影响,把/user/flink删除重新按照上面的图片创建,再次重启即可。

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

CDH整合Flink(CDH6.3.0+Flink1.12.1),Flink,flink,大数据

可以看到yarn上有FLINK启动起来,整体搭建基本完成。文章来源地址https://www.toymoban.com/news/detail-817576.html

到了这里,关于CDH整合Flink(CDH6.3.0+Flink1.12.1)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 1、Flink1.12.7或1.13.5详细介绍及本地安装部署、验证

    一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列 本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。 3、

    2024年02月05日
    浏览(24)
  • 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】 视频地址:尚硅谷大数据Flink1.17实战教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】 尚硅谷大数据Flink1.17实

    2024年02月09日
    浏览(34)
  • 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】 视频地址:尚硅谷大数据Flink1.17实战教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】 尚硅谷大数据Flink1.17实

    2024年02月11日
    浏览(28)
  • Flink1.17.0数据流

    官网介绍 Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。 1.无限流有一个开始,但没有定义的结束。它们不会在生成数据时终止并提供数据。必须连续处

    2024年02月11日
    浏览(42)
  • 尚硅谷大数据Flink1.17实战教程-笔记03【Flink运行时架构】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】 视频地址:尚硅谷大数据Flink1.17实战教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】 尚硅谷大数据Flink1.17实

    2024年02月16日
    浏览(37)
  • 尚硅谷大数据Flink1.17实战教程-笔记02【部署】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】 视频地址:尚硅谷大数据Flink1.17实战教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】 尚硅谷大数据Flink1.17实

    2024年02月09日
    浏览(33)
  • CDH6.3.2,不互通的cdh平台互导hive数据

    1、先导出所有建表语句,在源CDH服务器命令行输入下面命令,该库下所有建表语句保存至hive目录中的tables.sql文件中,不知道具体路径可以全局搜索一下,拿到源库hive的建表语句后,稍微处理一下,去目标库把表建好。 附加:我自己需要导很多个库,所以写了一行python代码

    2024年01月19日
    浏览(33)
  • Flink1.17.1消费kafka3.5中的数据出现问题Failed to get metadata for topics [flink].

    问题呈现 Failed to get metadata for topics [flink]. at org.apache.flink.connector.kafka.source.enumerator.subscriber.KafkaSubscriberUtils.getTopicMetadata(KafkaSubscriberUtils.java:47) at org.apache.flink.connector.kafka.source.enumerator.subscriber.TopicListSubscriber.getSubscribedTopicPartitions(TopicListSubscriber.java:52) at org.apache.flink.connecto

    2024年02月11日
    浏览(43)
  • flink1.18.0 flink维表join新思路

    弊端:         虽然缓存可以减轻维表负担,但是如果事实表数据量很大,每秒千万条,维度表只有百万条,也就是说 你会看到大量的无法关联的数据仍然需要查询维度表.  cache缓存千万数据量内存压力又比较大, 那么怎么减轻维表数据库压力,还能做到低延迟. 以往双流join ; a joi

    2024年01月24日
    浏览(31)
  • flink1.17安装

    官网地址: https://nightlies.apache.org/flink/flink-docs-release-1.17/zh//docs/try-flink/local_installation/ ps:只能安装openjdk11,昨天安装的oracle jdk17,结果怎么也运行不起来。 创建安装的目录,我是安装在/opt/software下,可以自己选择 web地址 :http://localhost:8081/ 查看

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包