Flink 窗口（1）—— 基础概念-Toy模板网

这篇具有很好参考价值的文章主要介绍了Flink 窗口（1）—— 基础概念。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

窗口：将无限数据切割成有限的“数据块”进行处理，以便更高效地处理无界流

在处理无界数据流时，把无界流进行切分，每一段数据分别进行聚合，结果只输出一次。这就相当于将无界流的聚合转化为了有界数据集的聚合

Flink 窗口（1）—— 基础概念,Flink,大数据,大数据,flink,分布式,数据分析,学习,笔记

Flink “存储桶”

在 Flink 中，窗口可以把流切割成有限大小的多个“存储桶”（bucket)；每个数据都会分发到对应的桶中，当到达窗口结束时间时，就对每个桶中收集的数据进行计算处理

Flink 窗口（1）—— 基础概念,Flink,大数据,大数据,flink,分布式,数据分析,学习,笔记

窗口处理过程：

Flink 窗口（1）—— 基础概念,Flink,大数据,大数据,flink,分布式,数据分析,学习,笔记

窗口创建：

Flink 中窗口并不是静态准备好的，而是动态创建——当有落在这个窗口区间范围的数据达到时，才创建对应的窗口

驱动类型，即窗口以什么标准来开始和结束数据的截取

按照时间段截取：时间窗口

窗口大小：用结束时间减去开始时间，得到这段时间的长度，就是窗口的大小

Flink中用TimeWindow类来表示时间窗口：

Flink 窗口（1）—— 基础概念,Flink,大数据,大数据,flink,分布式,数据分析,学习,笔记

可以看到，窗口的时间范围是左闭右开的区间

按照固定的个数截取：计数窗口

计数窗口基于元素的个数来截取数据，到达固定的个数时就触发计算并关闭窗口

Flink 窗口（1）—— 基础概念,Flink,大数据,大数据,flink,分布式,数据分析,学习,笔记

滚动窗口有固定的大小，是一种对数据进行“均匀切片”的划分方式；

窗口之间没有重叠，也不会有间隔，是“首尾相接”的状态，所以每个数据都会被分配到一个窗口，而且只会属于一个窗口

Flink 窗口（1）—— 基础概念,Flink,大数据,大数据,flink,分布式,数据分析,学习,笔记

滚动窗口可以基于时间定义，也可以基于数据个数定义；需要的参数只有一个，就是窗口的大小（window size）。比如我们可以定义一个长度为 1 小时的滚动时间窗口，那么每个小时就会进行一次统计；或者定义一个长度为 10 的滚动计数窗口，就会每 10 个数进行一次统计

滑动窗口的大小也是固定的，但窗口之间并不是首尾相接的，而是可以“错开”一定的位置

参数：窗口大小和滑动步长

窗口大小是固定的，代表了两个窗口结束时间的间隔

滑动步长代表了窗口计算的频率。滑动的距离代表了下个窗口开始的时间间隔

Flink 窗口（1）—— 基础概念,Flink,大数据,大数据,flink,分布式,数据分析,学习,笔记

当滑动步长小于窗口大小时，滑动窗口就会出现重叠，这时数据也可能会被同时分配到多个窗口中；具体的个数，就由窗口大小和滑动步长的比值来决定；

比如我们定义的窗口长度为 1 小时、滑动步长为 30 分钟，那么对于 8 点 55 分的数据，应该同时属于[8 点, 9 点)和[8 点半, 9 点半)两个窗口；而对于 8 点 10 分的数据，则同时属于[8点, 9 点)和[7 点半, 8 点半)两个窗口

数据来了之后就开启一个会话窗口，如果接下来还有数据陆续到来，那么就一直保持会话；如果一段时间一直没收到数据，那就认为会话超时失效，窗口自动关闭
会话窗口只能基于时间来定义；因为“会话”终止的标志就是“隔一段时间没有数据来”
参数：会话的超时时间
会出现的问题：相邻两个数据的时间间隔 gap大于指定的 size，我们认为它们属于两个会话窗口，前一个窗口就关闭；可在数据乱序的情况下，可能会有迟到数据，它的时间戳刚好是在之前的两个数据之间的。这样一来，之前我们判断的间隔中就不是“一直没有数据”，而缩小后的间隔有可能会比 size 还要小——这代表三个数据本来应该属于同一个会话窗口
解决方法：每来一个新的数据，都会创建一个新的会话窗口；然后判断已有窗口之间的距离，如果小于给定的 size，就对它们进行合并（merge）操作

Flink 窗口（1）—— 基础概念,Flink,大数据,大数据,flink,分布式,数据分析,学习,笔记