TumblingEventTimeWindows
和TumblingProcessingTimeWindows
是 Flink 中两种不同的窗口类型.
区别如下:
-
时间类型:
TumblingEventTimeWindows
是基于事件时间的窗口类型,可以通过设置Watermark
和EventTimeCharacteristic
来确定事件时间;而TumblingProcessingTimeWindows
是基于处理时间的窗口类型,时间由 Flink 运行时系统确定。 -
窗口大小的选取:在
TumblingEventTimeWindows
中,窗口大小通常由用户设定的时间长度、Watermark
和窗口策略共同决定;而在TumblingProcessingTimeWindows
中,窗口大小通常由用户设定的时间长度和窗口策略共同决定。 -
触发器的行为:在
TumblingEventTimeWindows
中,Watermark
的到达会触发窗口计算;而在TumblingProcessingTimeWindows
中,窗口计算会根据设定的 Trigger 来触发。
二者通过assignWindows
方法就可以看出区别TumblingEventTimeWindows
的assignWindows
源码内容如下
@Override
public Collection<TimeWindow> assignWindows(
Object element, long timestamp, WindowAssignerContext context) {
if (timestamp > Long.MIN_VALUE) { // 区别1 先对事件时间时间进行判断
if (staggerOffset == null) {
staggerOffset =
windowStagger.getStaggerOffset(context.getCurrentProcessingTime(), size);
}
// Long.MIN_VALUE is currently assigned when no timestamp is present
long start =
TimeWindow.getWindowStartWithOffset(
timestamp, (globalOffset + staggerOffset) % size, size);// 区别2 以事件时间作为参数传入
return Collections.singletonList(new TimeWindow(start, start + size));
} else {
throw new RuntimeException(
"Record has Long.MIN_VALUE timestamp (= no timestamp marker). "
+ "Is the time characteristic set to 'ProcessingTime', or did you forget to call "
+ "'DataStream.assignTimestampsAndWatermarks(...)'?");
}
}
可以看到参数timestamp
在TimeWindow.getWindowStartWithOffset(timestamp, (globalOffset + staggerOffset) % size, size)
有使用到,timestamp
就是事件时间.
TumblingProcessingTimeWindows
的assignWindows
源码内容如下
@Override
public Collection<TimeWindow> assignWindows(
Object element, long timestamp, WindowAssignerContext context) {
final long now = context.getCurrentProcessingTime();
// 区别1 这里没有对事件时间进行判断,因为不需要使用到事件时间
if (staggerOffset == null) {
staggerOffset =
windowStagger.getStaggerOffset(context.getCurrentProcessingTime(), size);
}
long start =
TimeWindow.getWindowStartWithOffset(
now, (globalOffset + staggerOffset) % size, size);
return Collections.singletonList(new TimeWindow(start, start + size)); // 区别2 这里以当前时间作为参数传入
}
从这段代码可以看到timestamp
这个参数并没有进行使用在TimeWindow.getWindowStartWithOffset( now, (globalOffset + staggerOffset) % size, size);
这段代码中第一个参数换成了now
使用的当前时间,也就是处理时间.
使用场景:TumblingEventTimeWindows
适用于基于事件时间的数据流,并通常用于执行基于时间的聚合操作。例如,可以使用TumblingEventTimeWindows
来计算每小时的平均输入请求量或处理不同餐厅菜品的每月营业额。
TumblingProcessingTimeWindows
则适用于基于处理时间的数据流,并通常用于执行其他类型的基于时间的操作。例如,可以使用 TumblingProcessingTimeWindows
来检测某个服务在过去一分钟内是否超过了阈值,或者使用计时器来触发某个事件。文章来源:https://www.toymoban.com/news/detail-728016.html
根据数据流的特定需求和数据特性,选择适当的时间窗口类型非常重要。如果处理的是基于事件时间的数据流,并且需要按时间窗口对数据进行聚合,则应该选择 TumblingEventTimeWindows
;如果处理的是基于处理时间的数据流,并且需要按时间进行其它类型的操作,则适合使用TumblingProcessingTimeWindows
。文章来源地址https://www.toymoban.com/news/detail-728016.html
到了这里,关于Flink中事件时间和处理时间(TumblingEventTimeWindows TumblingProcessingTimeWindows)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!