一:doris介绍
二:开源olap引擎比较
三:doris基本概念和架构图
3.1 基本概念
3.2 架构图
四:doris数据导入
五:doris的三种数据模型
doris是一个基于mpp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的,兼容mysql协议的,高性能的,分布式关系型列式数据库,用于报告和分析。
具体的业务场景包括:
优点:传统数仓可以做的事情doris也可以做,查询分析引擎做的事情doris也能搞定。即存储,计算,查询doris可以搞定,实时,离线数据源也可以搞定。
doris性能较好,兼容mysql访问协议,技术融合成本低,运维成本低。
3.1 基本概念
FE:FrontEnd Doris的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作。
BE:BackEnd Doris的后端节点,负责数据存储,计算执行,以及compaction,副本管理等工作。
Broker :Doris中和外部HDFS/对象存储等外部数据对接的中转服务,辅导提供导入导出功能。
Tablet:Dorois表的逻辑分片,也是doris中副本管理的基本单位,每个表根据分区和分桶机制被划分成多个tablet存储在不同BE节点。
3.2 架构图
数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到doris中,方便查询和使用。
代码中出现了aggregate key,他属于一种数据模型。
Doris 这类 MPP 架构的 OLAP 数据库,通常都是通过提高并发,来处理大量数据的.
Doris 的数据模型主要分为3类:Aggregate, Uniq, Duplicate.
Aggregate模型:在doris中通过key来决定value的聚合粒度大小。
Uniq模型:这类数据没有聚合需求,只需要保证主键的唯一性
Duplicate模型:在某些多维分析场景下,数据既没有主键,也没有聚合需求
数据模型的选择建议: