浅谈一下实时数据仓库

原创

闫同学

发布于 2023-12-05 22:58:54

2.2K0

实时数据仓库，简称实时数仓，是一种用于集成、存储和分析大规模结构化数据与非结构化数据的数据管理系统，强调数据的易用性、可分析性和可管理性。它主要面向实时数据流，能够实时地接收、处理和存储数据，并提供实时的数据分析结果。

相对于传统的仅用于数据存储的数据库而言，实时数据仓库是一种专门设计的“数据存储+数据分析+数据管理”一体化解决方案，用于帮助企业实现基于数据的实时决策制定和数字化运营场景。在技术上，实时数据仓库通常采用分布式架构，能够支持大规模数据处理和扩展，并提供秒级的数据分析响应能力。此外，实时数据仓库还需要支持多种数据源和数据格式的接入，以及复杂查询、报表生成和数据分析等功能。

实时数据仓库主要用于处理实时的业务数据，并提供实时的数据分析结果，以满足企业对实时决策的需求。例如，在金融领域，实时数据仓库可以用于实时的风险控制、交易监控、投资决策等；在零售领域，可以用于实时的销售分析、库存管理、推荐系统等；在物流领域，可以用于实时的物流跟踪、运输优化、供应链管理等。实时数据仓库的核心价值在于能够帮助企业更加及时、准确地把握业务变化和市场趋势，从而做出更加明智的决策。

实时数仓和普通的数据库有什么不同

实时数仓和数据库的区别可以总结为以下表格：

特征	实时数仓	数据库
数据更新频率	高频更新	通常非高频更新
数据延迟	低延迟	高延迟
数据整合	跨多个数据源整合数据	通常为单一数据源
数据存储	通常存储在分布式文件系统中	存储在关系型数据库中
查询语言	使用SQL或特定查询语言	主要使用SQL
数据访问方式	通过API或数据可视化工具访问	通过SQL查询访问
数据用途	实时分析和决策支持	业务运营和事务处理
成本	高昂，需要专业技术和基础设施支持	相对较低，广泛使用的技术

实时数仓和数据库在数据处理速度、数据更新频率、数据延迟、数据结构、数据整合、数据存储、查询语言、数据访问方式、数据用途和成本等方面存在显著差异。实时数仓适用于需要实时分析和决策支持的场景，而数据库则更适用于业务运营和事务处理。

OLAP和OLTP

OLAP和OLTP分别代表在线分析处理(Online Analytical Processing)和在线事务处理(Online Transaction Processing)两个概念。

OLAP主要用于处理企业级的决策分析、战略分析以及业务分析等方面，使用了多维数据分析技术和聚合算法，可以将大量数据划分成各种不同的角度，方便分析数据。

OLTP则主要用于处理企业级的常规业务操作，如公司的采购、销售、存储、支付等，主要强调数据的精确、事务的原子性和并发性。

两者的主要区别在于OLAP是面向分析的，而OLTP是面向事务的。OLAP和OLTP之间的全面对比可以总结为以下表格：

特征	OLAP (联机分析处理)	OLTP (联机事务处理)
主要应用	数据仓库系统	关系型数据库
数据处理	复杂分析操作，侧重决策支持	基本、日常的事务处理
数据读取	大量读取操作，相对较少写入	大量写入操作，相对较少读取
数据延迟	可接受较高的数据延迟	需要实时或近乎实时的数据处理
查询复杂度	复杂的分析查询，可能涉及大量数据计算	简单的查询，侧重于事务处理
数据一致性	最终一致性，允许一定时间内的数据不一致	强一致性，要求数据实时一致
并发性	高并发读取操作，较低并发写入操作	高并发写入操作，较低并发读取操作
优化目标	查询性能优化，以快速获取分析结果为主要目标	事务处理性能优化，以确保数据完整性为主要目标

OLAP和OLTP在主要应用、数据处理、数据读取、数据结构、数据整合、数据延迟、查询复杂度、数据一致性、并发性和优化目标等方面存在显著差异。OLAP适用于数据仓库系统中的复杂分析操作，侧重决策支持；而OLTP则更适用于传统的关系型数据库，处理基本的、日常的事务。

搭建实时数仓的一般技术选型

搭建实时数仓的技术选型包括以下几种：

Apache Kafka：Kafka是一个分布式流处理平台，具有高吞吐量、低延迟和可扩展性等特点，适用于实时数据流的采集、传输和存储。它广泛用于实时数仓的数据传输层。
Apache Flink：Flink是一个分布式流处理和批处理框架，具有低延迟、高吞吐量和精确计算等特点，适用于实时数据流的处理和分析。它可以与Kafka等流存储系统集成，实现实时数据流的处理和计算。
Apache Spark：Spark是一个分布式数据处理框架，支持批处理、流处理和机器学习等多种数据处理模式。它具有高效的数据处理能力、丰富的API和生态系统，适用于大规模数据处理和分析任务。在实时数仓中，Spark可以用于实时数据流的批处理和分析。
Apache Druid：具有快速的数据摄入、低延迟的查询性能和可扩展性等特点，适用于实时数据流的存储和查询。
ClickHouse：ClickHouse是一个基于列的存储引擎，适用于实时数据分析场景。它具有出色的查询性能、可扩展性和容错性等特点，可以用于实时数仓的数据存储和查询层。
Apache Doris：Apache Doris是一个分布式的数据库管理系统，适用于实时分析场景。它具有出色的查询性能、可扩展性和数据一致性保证等特点。

以下是实时数仓技术选型的优缺点比较表格：

技术选型	优点	缺点
Apache Kafka	高吞吐量、低延迟的数据传输可扩展性强，支持大规模数据流处理	不适合独立处理和分析数据需要与其他处理框架（如Flink、Spark）结合使用
Apache Flink	低延迟、高吞吐量的流处理能力支持精确计算，适用于复杂事件处理（CEP）等场景	学习曲线较陡峭，需要专业技术支持
Apache Spark	高效的数据处理能力，支持批处理、流处理和机器学习等多种模式丰富的API和生态系统，易于与其他技术集成	在大规模实时数据流处理方面可能不如专用流处理框架（如Flink）高效需要大量资源进行大规模实时数据流处理和分析
Apache Druid	快速的数据摄入，低延迟的查询性能可扩展性强，适用于大规模实时分析场景	需要专门的基础设施和资源进行部署和维护
ClickHouse	出色的查询性能，适用于实时数据分析场景可扩展性强，支持分布式部署和容错性	在写入密集型场景中可能面临性能挑战数据更新和删除操作可能较为困难，影响数据的灵活性
Apache Doris	分布式架构，支持大规模数据处理和扩展支持实时数据导入和查询，适用于实时分析场景提供物化视图和自动聚合功能，简化数据处理和分析过程	在某些复杂查询场景下，可能面临性能挑战需要专门的基础设施和资源进行部署和维护

这些技术选型在不同场景下具有各自的优势。例如，Apache Kafka适用于大规模实时数据流传输和消息队列，常用于日志收集、监控数据、用户行为数据流等场景。Apache Flink则适用于实时数据流处理和分析，复杂事件处理（CEP）等场景，如实时推荐系统、实时风控、实时报表等。Doris适用于实时数据分析和查询，支持大规模数据处理和扩展，常用于实时OLAP、实时报表、实时数据仓库等场景。在选择技术选型时，需要根据具体的业务需求、数据规模、性能要求等因素进行综合评估，以选择最适合的技术方案。请注意，在实际应用中可能需要结合多个技术选型来构建实时数仓，以满足不同的数据处理和分析需求。

建设实时数仓的架构

实时数仓的架构主要有Lambda架构、Kappa架构和实时OLAP变体架构。它们各自具有不同的优缺点：

Lambda架构：Lambda架构是目前主流的一套实时数仓架构，存在离线和实时两条链路。实时部分以消息队列的方式实时增量消费，一般以Flink+Kafka的组合实现，维度表存在关系型数据库或者HBase；离线部分一般采用T+1周期调度分析历史存量数据，每天凌晨产出，更新覆盖前一天的结果数据，计算引擎通常会选择Hive或者Spark。优点是数据准确度高，不易出错；缺点是架构复杂，运维成本高。

优点：数据准确度高，不易出错。离线层可以进行批处理计算，对大规模数据进行处理和分析，实时层可以处理实时的增量数据，提供实时的数据分析结果。这种架构可以满足对数据的准确性和实时性要求较高的场景。
缺点：架构复杂，运维成本高。Lambda架构需要维护离线和实时两条链路，增加了系统的复杂性和运维的难度。同时，由于离线层和实时层使用的是不同的计算引擎，数据需要在两层之间进行传输和转换，增加了数据的一致性和准确性的挑战。

Kappa架构：相较于Lambda架构，Kappa架构移除了离线生产链路，思路是通过传递任意想要的offset（偏移量）来达到重新消费处理历史数据的目的。

优点：架构相对简化，数据来源单一，共用一套代码，开发效率高。Kappa架构通过流处理框架（如Flink）处理所有的数据，包括历史数据和实时数据，避免了Lambda架构中的离线层和实时层的复杂性。此外，Kappa架构中的数据存储可以采用分布式存储系统（如HBase），提高了数据的可扩展性和可用性。
缺点：必须要求消息队列中保存了存量数据，而且主要业务逻辑在计算层，比较消耗内存资源。Kappa架构需要保证消息队列中的数据的完整性和可靠性，对消息队列的要求较高。同时，由于所有的数据处理逻辑都在计算层完成，对计算资源的消耗较大，需要充分考虑资源的配置和管理。

实时OLAP变体架构：是Kappa架构的进一步演化，它的思路是将聚合分析计算由OLAP引擎承担，减轻实时计算部分的聚合处理压力。

优点：单一实时数仓，强实时性，程序性能高。实时OLAP变体架构将聚合分析计算由OLAP引擎承担，减轻了实时计算部分的聚合处理压力，提高了实时数据分析的性能和效率。这种架构可以满足对数据的实时性要求非常高的场景。
缺点：数据存储计算仅一次，历史数据回溯难。由于实时OLAP变体架构仅对数据进行一次存储和计算，历史数据的回溯和分析较为困难。同时，由于所有的数据处理都在OLAP引擎中完成，对OLAP引擎的性能和扩展性要求较高。

在选择实时数仓架构时，需要根据具体的业务需求、数据规模、性能要求等因素进行综合评估。每种架构都有其适用的场景和限制条件，需要根据实际情况进行选择和优化。

我正在参与2023腾讯技术创作特训营第四期有奖征文，快来和我瓜分大奖！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

2023腾讯·技术创作特训营第四期