前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OLAP数据库

OLAP数据库

原创
作者头像
词不悉心
修改2022-09-20 18:02:43
1.2K0
修改2022-09-20 18:02:43
举报
文章被收录于专栏:指标建设指标建设

OLAP数据库

主流的分析性数据库
主流的分析性数据库

ClickHouse

ClickHouse 是基于 MPP 架构的分布式 ROLAP分析引擎,真正的列式数据库管理系统。让查询变得更快,最简单且有效的方法是减少数据扫描范围和数据传输时的大小, 而clickhouse的数据始终是按列存储的,同时使用了数据压缩,和日志合并树,稀疏索引和 CPU 功能

架构

  • ZooKeeper:集群通过 ZooKeeper 服务进行管理
  • Shard:集群多个分片组成,通过 Shard 的线性扩展能力,支持海量数据的分布式存储计算。
  • Node:每个 Shard 内包含一定数量的Node,同一 Shard 内的节点互为副本,保障数据可靠。ClickHouse 中副本数可按需建设,且逻辑上不同 Shard 内的副本数可不同。

优点

  • 写入吞吐量大, 50-200 M/S
  • 数据压缩空间大,减少IO,占用更少的内存和cpu,服务器成本低
  • 查询快,比HIVE快200倍以上
  • 支持SQL,支持繁多数据统计分析函数,字段类型支持数组和嵌套数据结构
  • 支持线性扩展,简单方便,高可用容错
  • 高效利用CPU,数据不仅仅按列存储,同时还按向量(列的一部分)进行处理
  • 支持近似计算,从磁盘检索少部分比例的样本进行计算

缺点

  • 元数据管理需要人工干预维护
  • SQL支持比较有限,不支持事务,join大表时,数据比较慢
  • 不适合许多小数据高频插入,批量写入日志会有一定延迟
  • 无法动态添加字段,需要提前定义好表schema
  • 无法支持高并发查询,默认配置qps仅为100
  • 缺少高频率,低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据
  • 不支持聚合大的结果集(不能超过机器的内存)

Presto

优点

  • 支持包括复杂查询、聚合、连接(join)和窗口函数(window functions)。
  • Presto 本身不存储数据,但是可以接入多种数据源,且支持跨数据源的级联查询。
  • 所有的查询处理都基于内存,读写比磁盘读写快很多,它通过一个定制的查询和执行引擎来完成的(类似于Hive和Pig使用MapReduce进行查询处理)。

缺点

由于是基于内存的计算,当多张大表进行关联操作时,容易引起内存溢出错误。

Impala

提供对 HDFS、Hbase 数据的高性能、低延迟的交互式 SQL 查询功能。Impala 使用 Hive的元数据, 完全在内存中计算。是CDH 平台首选的 PB 级大数据实时查询分析引擎

Druid

Druid更适合优化大型集群的基础架构成本

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • OLAP数据库
    • ClickHouse
      • 架构
      • 优点
      • 缺点
    • Presto
      • 优点
      • 缺点
    • Impala
      • Druid
      相关产品与服务
      专用宿主机
      专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档