这使得流式处理非常适用于需要实时响应的业务场景,如可疑交易警报、网络警报、实时价格调整和包裹跟踪等。
流式处理具有以下几个特征:
有序:事件流中的数据记录是按照它们发生的时间顺序排列的。...为了解决这个问题,流式系统提供了几种机制:
丢弃超出窗口的数据:简单但会导致数据损失
调整窗口:扩大窗口以包含更多数据,但窗口范围变大会影响计算精度
重发数据:生产者将离线期间的数据重新发送,系统会进行补充计算以产生正确的结果...可定义时间段内事件添加对应时间片段,如4小时内更新,否则忽略。....
----
使用本地状态
多数流处理应用聚合信息,如每天最高最低股票价和移动平均值。需维护流状态,如保存最小最大值和新值比较。可通过本地状态实现,每操作一组聚合,如下图。...规定时间窗口重排乱序事件:如3小时内事件重排,3周外事件丢弃。
重排时间窗口内乱序事件的能力:流处理与批处理不同,无“重新运行昨日作业”概念,须同时处理乱序与新事件。