这是最重要的时间概念,大部分流式应用都是基于事件时间来进行窗口操作和聚合的。
日志追加时间(Log Append Time):事件被写入Kafka的时间。...在流式系统中,如果生产者出现网络问题导致离线几个小时,然后大量数据涌入,这会给系统带来很大困难。因为大部分数据的事件时间已经超出我们设定的窗口范围,无法进行正常的聚合计算。...将表转为流需捕获表变更事件(insert、update、delete),如CDC解决方案发送变更到Kafka流式处理。...可通过本地状态实现,每操作一组聚合,如下图。Kafka分区确保同代码事件同分区。每个应用实例获取分配分区事件,维护一组股票代码状态。...,如Dataflow或Streams
将更新后的聚合结果直接 overwrite,使用压缩日志主题避免结果主题无限增长
事件的乱序和迟到是流处理的常见场景,但又不太适合批处理的重新计算方式。