数据首先通过流处理层进行实时处理,然后再通过批处理层进行离线处理,最后将两种处理结果合并起来得到最终的结果。...Hive:数据仓库工具,用于历史数据的离线分析
Spark:批处理框架,用于大数据离线计算和处理
Serving层:
HBase:列式数据库,用于在线查询和检索
Elasticsearch:搜索和分析引擎...典型技术:Kafka、Flink、Storm等
Kappa架构典型的框架和技术主要包括:
Kafka:消息队列,用于实时数据收集和传输
Flink:流批一体的计算框架,用于实时数据计算和处理
Spark...Streaming:Spark的流式计算组件,用于实时数据计算
Storm:实时流式计算框架,用于实时数据处理
Samza:流式处理框架,基于Kafka和YARN,由LinkedIn开发
Beam:统一批流处理模型...所以Kappa架构的关键技术真可以总结为:流计算框架 + Kafka
总结
Lambda架构:批处理+流处理,实时与历史数据结合
Kappa架构:全流式处理,低延迟实时计算,历史数据处理弱
适用场景: