Flink-Window详细讲解-countWindow

这篇具有很好参考价值的文章主要介绍了Flink-Window详细讲解-countWindow。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一.countWindow和countWindowall区别

1.countWindow

如果您使用 countWindow(5),这意味着您将数据流划分成多个大小为 5 的窗口。划分后的窗口如下:

  • 窗口 1: [1, 2, 3, 4, 5]
  • 窗口 2: [6, 7, 8, 9, 10]

当每个窗口中的元素数量达到 5 时,将触发计算。这意味着窗口 1 中的计算会在处理 5 个元素后触发,窗口 2 中的计算会在处理 10 个元素后触发。

2.countWindowAll

假设您有一个数据流,其中的数据元素逐个增加:[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]

现在,我们使用 countWindowAll(5) 来观察这个数据流。

  1. 初始状态:当数据流中的元素数量达到 5 时,即 [1, 2, 3, 4, 5],将会触发第一次计算。

  2. 后续状态:现在,数据流中的元素数量已经超过 5 了,但由于 countWindowAll 会持续监视整个数据流,所以并不会立即触发第二次计算。数据流继续增加。

  3. 再次触发计算:当数据流中的元素数量达到 10,即 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],将会触发第二次计算。这是因为虽然数据流中的元素已经超过 5,但是 countWindowAll 是持续监视整个数据流的元素数量,只有在数据流中的元素数量从不小于 5 变为不小于 10 时,才会再次触发计算。

综上所述,countWindowAll 会持续监视整个数据流的元素数量,只有当元素数量达到阈值并且之前没有达到过,才会触发计算。这使得 countWindowAll 不仅触发一次计算,而是每次在元素数量达到阈值时都会触发计算。

二.countWindow和countWindowall代码验证

1.countWindow
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class WordCountWithCountWindow {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStream<String> text = env.socketTextStream("localhost", 9999);

        DataStream<Tuple2<String, Integer>> counts = text
            .flatMap(new Tokenizer())
            .keyBy(0)
            .countWindow(5)  // 使用 countWindow
            .sum(1);

        counts.print();

        env.execute("WordCountWithCountWindow");
    }

    public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
            String[] words = value.toLowerCase().split("\\W+");
            for (String word : words) {
                if (word.length() > 0) {
                    out.collect(new Tuple2<>(word, 1));
                }
            }
        }
    }
}

2.countWindowAll

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class WordCountWithCountWindowAll {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStream<String> text = env.socketTextStream("localhost", 9999);

        DataStream<Tuple2<String, Integer>> counts = text
            .flatMap(new Tokenizer())
            .countWindowAll(5)  // 使用 countWindowAll
            .sum(1);

        counts.print();

        env.execute("WordCountWithCountWindowAll");
    }

    public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
            String[] words = value.toLowerCase().split("\\W+");
            for (String word : words) {
                if (word.length() > 0) {
                    out.collect(new Tuple2<>(word, 1));
                }
            }
        }
    }
}

三.countWindow和countWindowall两种方式对比

countWindow

应用场景

  • 滑动窗口聚合:适用于需要对连续的数据元素进行滑动窗口聚合计算的场景,例如每处理固定数量的数据点就进行一次平均值、总和等计算。
  • 数据流分段处理:适用于将数据流划分为连续的段进行处理的场景,例如每处理一段数据就执行某种操作。
  • 实时流式处理:在实时数据流处理中,将数据分批次处理,以平稳地处理不断流入的数据。

优势

  • 更精细的控制:可以将数据流划分为多个小窗口,对每个小窗口进行独立的计算,具有更精细的控制。
  • 灵活性:窗口大小可调整,适应不同大小的数据处理需求。
  • 内存管理:每个小窗口的数据量较小,可能更适合内存管理。

劣势

  • 窗口间隔:可能需要更多的逻辑来管理不同窗口之间的数据和计算。

countWindowAll

应用场景

  • 批量数据处理:适用于需要将整个数据集视为一个窗口进行处理的场景,通常用于有限的数据集或一次性处理。
  • 实时报警与监控:适用于监控数据流,一旦累计的数据达到阈值,即触发报警或监控。
  • 小数据集处理:对于较小的数据集,将其作为一个整体进行处理可能更合适。

优势

  • 简单性:将整个数据流作为一个窗口,简化了窗口管理和数据处理逻辑。
  • 全局计算:可以在全局范围内进行计算,不需要关注窗口间隔。

劣势

  • 内存需求:对于大规模的数据流,可能需要更多内存来处理整个数据流。
  • 处理延迟:需要等待整个数据流中的数据达到一定数量才会触发计算,可能会引入一定的处理延迟。

综上所述,选择使用 countWindow 还是 countWindowAll 取决于您的数据处理需求、数据流的规模以及对计算控制和延迟的关注程度。在实际应用中,您可能会根据具体情况选择合适的窗口类型。文章来源地址https://www.toymoban.com/news/detail-706005.html

到了这里,关于Flink-Window详细讲解-countWindow的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【flink番外篇】2、flink的23种算子window join 和interval join 数据倾斜、分区介绍及详细示例(3)- 数据倾斜处理、分区示例

    一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列 本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。 3、

    2024年02月03日
    浏览(55)
  • Flink 中Window Functions

    窗口函数就是对一个窗口内的数据的操作处理。Flink的窗口函数分为两类: 窗口聚合函数:ReduceFunction和AggregateFunction,来一条聚合一条,只在窗口关闭时才会输出 全窗口处理函数:ProcessWindowFunction,来一条保存一条,只有在窗口关闭的时候才聚合或者处理,输出结果 Reduce

    2024年02月21日
    浏览(28)
  • Flink之Window窗口机制

    在大多数场景下,需要统计的数据流都是无界的,因此无法等待整个数据流终止后才进行统计。通常情况下,只需要对某个时间范围或者数量范围内的数据进行统计分析 例如: 因此,在Apache Flink中,窗口是对无界数据流进行有界处理的机制。窗口可以将无限的数据流划分为

    2024年02月06日
    浏览(43)
  • Flink窗口(2)—— Window API

    目录 窗口分配器 时间窗口 计数窗口 全局窗口 窗口函数 增量聚合函数 全窗口函数(full window functions) 增量聚合和全窗口函数的结合使用 Window API 主要由两部分构成: 窗口分配器 (Window Assigners)和 窗口函数 (Window Functions) 在window()方法中传入一个窗口分配器; 在aggreg

    2024年01月16日
    浏览(36)
  • flink作业 windowAll 转换window

    datastream 流中没有使用keyby需要使用windowAll函数,使用了keyby的需要使用window函数 windowAll的函数: 并行度只能是1,性能不高 window的函数:并行度可以任意,性能高 线上的flink作业的架构如下图所示: 1.先从rocketmq读取数据,通过windowAll类型的窗口进行10s的数据攒批; 2.攒批的数

    2024年01月18日
    浏览(32)
  • 深入理解 Flink(四)Flink Time+WaterMark+Window 深入分析

    深入理解 Flink 系列文章已完结,总共八篇文章,直达链接: 深入理解 Flink (一)Flink 架构设计原理 深入理解 Flink (二)Flink StateBackend 和 Checkpoint 容错深入分析 深入理解 Flink (三)Flink 内核基础设施源码级原理详解 深入理解 Flink (四)Flink Time+WaterMark+Window 深入分析 深入

    2024年01月24日
    浏览(44)
  • Flink window 源码分析4:WindowState

    本文源码为flink 1.18.0版本。 其他相关文章: Flink window 源码分析1:窗口整体执行流程 Flink window 源码分析2:Window 的主要组件 Flink window 源码分析3:WindowOperator Flink window 源码分析4:WindowState 主要考虑 reduce、aggregate 函数中的托管状态是在什么时候触发和使用的?使用时与Win

    2024年01月25日
    浏览(43)
  • flink的window和windowAll的区别

    在flink的窗口函数运用中,window和windowAll方法总是会引起混淆,特别是结合上GlobalWindow的组合时,更是如此,本文就来梳理下他们的区别和常见用法 window是KeyStream数据流的方法,其并行度是任意的,也就是最大可以和分组key的数量相同 windowAll是DataStream数据流的方法,其并行

    2024年01月25日
    浏览(38)
  • Flink TableAPI Window and Watermarket

    本次主要是弄清楚.批流统一 的处理方式,因为它是使用SQL来操作批流计算的.所以它怎么设置算子并行度?如何设置窗口?如何处理流式数据?等等 有很多疑问. 我还是觉得直接使用流计算的API更好.流批一体API最终也是转换成流式计算,最主要的是使用sql来设置算子或者窗口,并不直

    2024年02月12日
    浏览(36)
  • Flink window 源码分析1:窗口整体执行流程

    注:本文源码为flink 1.18.0版本。 其他相关文章: Flink window 源码分析1:窗口整体执行流程 Flink window 源码分析2:Window 的主要组件 Flink window 源码分析3:WindowOperator Flink window 源码分析4:WindowState Window 本质上就是借助状态后端缓存着一定时间段内的数据,然后在达到某些条件

    2024年01月16日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包