大数据组件配置--Flink

这篇具有很好参考价值的文章主要介绍了大数据组件配置--Flink。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

系统环境为 CentOS 7.5 版本。

  • 安装 Java 8。

  • 安装 Hadoop 集群,Hadoop 建议选择 Hadoop 2.7.5 以上版本。

  • 配置集群节点服务器间时间同步以及免密登录,关闭防火墙。

  • flink版本flink-1.14.0。

  • Scala版本scala_2.12。

flink安装包:flink-1.14.0-bin-scala_2.12.tgz

安装包位置:/opt/software/flink-1.14.0-bin-scala_2.12.tgz

解压位置:/opt/module/

单节点模式(不推荐)

解压压缩包

最简单的启动方式,其实是不搭建集群,直接本地启动。本地部署非常简单,直接解压安装包就可以使用,不用进行任何配置;一般用来做一些简单的测试
tar -zxvf /opt/software/flink-1.14.0-bin-scala_2.12.tgz -C /opt/module/

进入解压目录

cd /opt/module/flink-1.14.0/

启动/关闭集群

启动Hadoop集群

dfs-start.sh
yarn-start.sh

启动/停止flink集群

./bin/start-cluster.sh
./bin/stop-cluster.sh

查看集群运行结果:

[root@bigdata1 flink-1.14.0]# jps
1992 StandaloneSessionClusterEntrypoint
2269 TaskManagerRunner
2381 Jps

 访问web页面

https://bigdata1:8081

节点位于bigdata1

默认端口号为8081

大数据组件配置--Flink,大数据,flink

集群模式(不推荐)

Flink 是典型的 Master-Slave 架构的分布式数据处理框架,其中 Master 角色对应着JobManager,Slave 角色则对应 TaskManager

集群角色分配:

节点服务器 bigdata1 bigdata2 bigdata3
角色 JobManager TaskManager TaskManager

 解压压缩包

tar -zxvf /opt/software/flink-1.14.0-bin-scala_2.12.tgz -C /opt/module/

进入解压目录

cd /opt/module/flink-1.14.0/

修改配置文件

flink-conf.yaml

vim /flink-1.14.0/conf/flink-conf.yaml

33行修改为主节点

jobmanager.rpc.address: bigdata1

workers

vim /flink-1.14.0/conf/workers

删除原有内容

bigdata2
bigdata3

masters

vim /flink-1.14.0/conf/masters

bigdata1:8081

分发安装目录

退回到flink-1.14.0/的上级目录

scp -r flink-1.14.0/ bigdata2:/opt/module/
scp -r flink-1.14.0/ bigdata3:/opt/module/

启动集群

[root@bigdata1 flink-1.14.0]# ./bin/start-cluster.sh

看看各节点启动状态

============ bigdata1 ===========
3477 StandaloneSessionClusterEntrypoint
============ bigdata2 ===========
1865 TaskManagerRunner
============ bigdata3 ===========
1868 TaskManagerRunner

访问web页面

https://bigdata1:8081

大数据组件配置--Flink,大数据,flink

Flink on Yarn模式(生产推荐)

YARN 上部署的过程是:客户端把 Flink 应用提交给 Yarn ResourceManager,
Yarn ResourceManager 会向 Yarn NodeManager 申请容器。在这些容器上, Flink 会部署
27 JobManager TaskManager 的实例,从而启动集群。 Flink 会根据运行在 JobManger 上的作业所需要的 slots 数量动态分配 TaskManager 资源。

解压压缩包

tar -zxvf /opt/software/flink-1.14.0-bin-scala_2.12.tgz -C /opt/module/

进入解压目录

cd /opt/module/flink-1.14.0/

配置环境变量

vim /etc/profile.d/my_env.sh

#FLINK_YARN
HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath`

分发配置

分发环境变量

scp /etc/profile.d/my_env.sh bigdata2:/etc/profile.d/my_env.sh
scp /etc/profile.d/my_env.sh bigdata3:/etc/profile.d/my_env.sh

分发解压包

scp -r /opt/module/flink-1.14.0/ bigdata2:/opt/module/
scp -r /opt/module/flink-1.14.0/ bigdata3:/opt/module/

使用环境变量

所有节点刷新变量

source /etc/profile

启动 Hadoop 集群

包括 HDFS 和 YARN

start-dfs.sh
start-yarn.sh

启动Flink集群

执行脚本命令向 YARN 集群申请资源,开启一个 YARN 会话,启动 Flink 集群。

bin/yarn-session.sh -nm test -d
  • -d:分离模式,如果你不想让 Flink YARN 客户端一直前台运行,可以使用这个参数,

即使关掉当前对话窗口,YARN session 也可以后台运行

  • -jm(--jobManagerMemory):配置 JobManager 所需内存,默认单位 MB。

  • -nm(--name):配置在 YARN UI 界面上显示的任务名。

  • -qu(--queue):指定 YARN 队列名。

  • -tm(--taskManager):配置每个 TaskManager 所使用内存。

运行结果:

大数据组件配置--Flink,大数据,flink

访问web页面 

复制启动后生成的web链接这里是 http://bigdata2:37096

conf文件夹中配置文件解读

vim flink-conf.yaml

#flink-1.14.0/conf/flink-conf.yaml ​

#flink-1.14.0/conf/flink-conf.yaml
​
jobmanager.rpc.address: localhost #jobmanager通用配置(主机名)

jobmanager.rpc.port: 6123 #jobmanager通用配置(端口号)
​
jobmanager.memory.process.size: 1600m #jobmanager内存分配

taskmanager.memory.process.size: 1728m #taskmanager内存分配

taskmanager.memory.flink.size: 1280m #可选taskmanager内存分配(不包括进程)不推荐与上面同时配置

​taskmanager.numberOfTaskSlots: 1 #taskmanager任务槽数量(并行执行的数量能力)

parallelism.default: 1 #并行度(真正运行数量)

vim masters

#flink-1.14.0/conf/masters
localhost:8081 #jobmanager运行端:端口号

vim workers

#flink-1.14.0/conf/workers文章来源地址https://www.toymoban.com/news/detail-767965.html

localhost #taskmanager运行端

到了这里,关于大数据组件配置--Flink的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • flink cdc多种数据源安装、配置与验证 flink cdc多种数据源安装、配置与验证

      搜索 文章目录 1. 前言 2. 数据源安装与配置 2.1 MySQL 2.1.1 安装 2.1.2 CDC 配置 2.2 Postgresql 2.2.1 安装 2.2.2 CDC 配置 2.3 Oracle 2.3.1 安装 2.3.2 CDC 配置 2.4 SQLServer 2.4.1 安装 2.4.2 CDC 配置 3. 验证 3.1 Flink版本与CDC版本的对应关系 3.2 下载相关包 3.3 添加cdc jar 至lib目录 3.4 验证 本文目录结构

    2024年02月09日
    浏览(45)
  • 【天衍系列 05】Flink集成KafkaSink组件:实现流式数据的可靠传输 & 高效协同

    Flink版本: 本文主要是基于Flink1.14.4 版本 导言: Apache Flink 作为流式处理领域的先锋,为实时数据处理提供了强大而灵活的解决方案。其中,KafkaSink 是 Flink 生态系统中的关键组件之一,扮演着将 Flink 处理的数据可靠地发送到 Kafka 主题的角色。本文将深入探讨 KafkaSink 的工作

    2024年02月20日
    浏览(63)
  • 【天衍系列 01】深入理解Flink的 FileSource 组件:实现大规模数据文件处理

    Apache Flink 是一个流式处理框架,被广泛应用于大数据领域的实时数据处理和分析任务中。在 Flink 中,FileSource 是一个重要的组件,用于从文件系统中读取数据并将其转换为 Flink 的数据流。本文将深入探讨 FileSource 的工作原理、用法以及与其他数据源的比较。 FileSource 是 Fli

    2024年02月21日
    浏览(53)
  • 大数据系统常用组件理解(Hadoop/hive/kafka/Flink/Spark/Hbase/ES)

    一.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的核心是yarn、HDFS和Mapreduce。yarn是资源管理系统,实现资源调度,yarn是Hadoop2.0中的资源管理系统,总体上是master/slave结构。对于yarn可以粗浅将其理解

    2024年02月20日
    浏览(46)
  • 【天衍系列 04】深入理解Flink的ElasticsearchSink组件:实时数据流如何无缝地流向Elasticsearch

    Flink的Elasticsearch Sink是用于将Flink数据流(DataStream)中的数据发送到Elasticsearch的组件。它是Flink的一个连接器(Connector),用于实现将实时处理的结果或数据持续地写入Elasticsearch集群中的索引中。 下面是一些关于Flink的Elasticsearch Sink的基础概念: 数据源(Source) :Flink数据流

    2024年02月20日
    浏览(54)
  • 【Flink】Flink架构及组件

    我们学习大数据知识的时候,需要知道大数据组件如何安装以及架构组件,这将帮助我们更好的了解大数据组件 对于大数据Flink,架构图图下:  整个架构图有三种关键组件 1、Client:负责作业的提交。调用程序的 main 方法,将代码转换成“数据流图“(DataflowGraph),并最终

    2024年02月11日
    浏览(41)
  • flink源码分析之功能组件(五)-高可用组件

         本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。      本文解释高可用组件,包括两项服务, 主节点选举 和 主节点变更通知 *     高可用服

    2024年02月01日
    浏览(47)
  • 【flink配置系列】FLink配置大全

    所有配置都在 conf/flink-conf.yaml 中完成,这个文件应该是一个扁平的YAML键值对集合,格式为 key: value 。配置在Flink进程启动时被解析和评估。对配置文件的更改需要重新启动相关的进程。 默认配置将使用您的默认Java安装。如果要手动覆盖Java运行时,请在 conf/flink-conf.yaml 中手

    2024年04月12日
    浏览(32)
  • Flink|《Flink 官方文档 - 部署 - 内存配置 - 配置 Flink 进程的内存》学习笔记

    学习文档:《Flink 官方文档 - 部署 - 内存配置 - 配置 Flink 进程的内存》 学习笔记如下: Flink JVM 进程的进程总内存(Total Process Memory)包含了由 Flink 应用使用的内存(Flink 总内存)以及由运行 Flink 的 JVM 使用的内存。 Flink 总内存(Total Flink Memory)包括 JVM 堆内存(Heap Memory)

    2024年01月21日
    浏览(51)
  • Flink|《Flink 官方文档 - 部署 - 内存配置 - 配置 TaskManager 内存》学习笔记

    学习文档:Flink|《Flink 官方文档 - 部署 - 内存配置 - 配置 TaskManager 内存》学习笔记 学习笔记如下: Flink JVM 进程的进程总内存(Total Process Memory)包含了由 Flink 应用使用的内存(Flink 总内存)以及由运行 Flink 的 JVM 使用的内存。其中,Flink 总内存(Total Flink Memory)包括 JV

    2024年03月15日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包