前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Apache Doris,MPP架构数据库王者学习总结

Apache Doris,MPP架构数据库王者学习总结

作者头像
大数据真好玩
发布2022-04-27 09:21:32
2.8K0
发布2022-04-27 09:21:32
举报
文章被收录于专栏:暴走大数据暴走大数据

目录

一:doris介绍

二:开源olap引擎比较

三:doris基本概念和架构图

3.1 基本概念

3.2 架构图

四:doris数据导入

五:doris的三种数据模型

一:doris介绍

doris是一个基于mpp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的,兼容mysql协议的,高性能的,分布式关系型列式数据库,用于报告和分析。

具体的业务场景包括:

  • 数据仓库建设
  • olap分析
  • 用户行为分析
  • 系统监控分析

优点:传统数仓可以做的事情doris也可以做,查询分析引擎做的事情doris也能搞定。即存储,计算,查询doris可以搞定,实时,离线数据源也可以搞定。

二:开源olap引擎比较

doris性能较好,兼容mysql访问协议,技术融合成本低,运维成本低。

三:doris基本概念和架构图

3.1 基本概念

FE:FrontEnd Doris的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作。

BE:BackEnd Doris的后端节点,负责数据存储,计算执行,以及compaction,副本管理等工作。

Broker :Doris中和外部HDFS/对象存储等外部数据对接的中转服务,辅导提供导入导出功能。

Tablet:Dorois表的逻辑分片,也是doris中副本管理的基本单位,每个表根据分区和分桶机制被划分成多个tablet存储在不同BE节点。

3.2 架构图

四:doris数据导入

数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到doris中,方便查询和使用。

  1. 支持导入数据源有:本地文件,HDFS,kafka等
  2. 支持的导入方式有:批量导入,流式导入,实时导入
  3. 支持的数据格式有:csv, parquet, orc

五:doris的三种数据模型

代码中出现了aggregate key,他属于一种数据模型。

Doris 这类 MPP 架构的 OLAP 数据库,通常都是通过提高并发,来处理大量数据的.

Doris 的数据模型主要分为3类:Aggregate, Uniq, Duplicate.

Aggregate模型:在doris中通过key来决定value的聚合粒度大小。

Uniq模型:这类数据没有聚合需求,只需要保证主键的唯一性

Duplicate模型:在某些多维分析场景下,数据既没有主键,也没有聚合需求

数据模型的选择建议:

  • 1)Aggregate 模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量, 非常适合有固定模式的报表类查询场景。但是该模型对 count(*) 查询很不友好。 同时因为固定了 Value 列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。
  • 2)Uniq 模型针对需要唯一主键约束的场景,可以保证主键唯一性约束。 但是无法利用 ROLLUP 等预聚合带来的查询优势(因为本质是 REPLACE,没有 SUM 这种聚合方式)。
  • 3)Duplicate 适合任意维度的 Ad-hoc 查询。虽然同样无法利用预聚合的特性, 但是不受聚合模型的约束,可以发挥列存模型的优势(只读取相关列,而不需要读取所有 Key 列)。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据真好玩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目录
  • 一:doris介绍
  • 二:开源olap引擎比较
  • 三:doris基本概念和架构图
  • 四:doris数据导入
  • 五:doris的三种数据模型
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档