专栏首页互联网技术栈Druid:实时处理时序数据的OLAP数据库

Druid:实时处理时序数据的OLAP数据库

大数据分析和Druid

大数据一直是近年的热点话题,随着数据量的急速增长,数据处理的规模也从GB 级别增长到TB 级别,很多图像应用领域已经开始处理PB 级别的数据分析。大数据的核心目标是提升业务的竞争力,找到一些可以采取行动的洞察(Actionable Insight),数据分析就是其中的核心技术,包括数据收集、处理、建模和分析,最后找到改进业务的方案。

最近一两年,随着大数据分析需求的爆炸性增长,很多公司都经历过将以关系型商用数据库为基础的数据平台,转移到一些开源生态的大数据平台,例如Hadoop 或Spark 平台,以可控的软硬件成本处理更大的数据量。Hadoop 设计之初就是为了批量处理大数据,但数据处理实时性经常是它的弱点。例如,很多时候一个MapReduce 脚本的执行,很难估计需要多长时间才能完成,无法满足很多数据分析师所期望的秒级返回查询结果的分析需求。

为了解决数据实时性的问题,大部分公司都有一个经历,将数据分析变成更加实时的可交互方案。其中,涉及新软件的引入、数据流的改进等。数据分析的几种常见方法如下图。

Druid:实时处理时序数据的OLAP数据库

整个数据分析的基础架构通常分为以下几类。

(1)使用Hadoop/Spark 的MR 分析。

(2)将Hadoop/Spark 的结果注入RDBMS 中提供实时分析。

(3)将结果注入到容量更大的NoSQL 中,例如HBase 等。

(4)将数据源进行流式处理,对接流式计算框架,如Storm,结果落在RDBMS/NoSQL 中。

(5)将数据源进行流式处理,对接分析数据库,例如Druid、Vertica 等。

Druid 的三个设计原则

在设计之初,开发人员确定了三个设计原则(Design Principle)。

(1)快速查询(Fast Query):部分数据的聚合(Partial Aggregate)+内存化(In-emory)+索引(Index)。

(2)水平扩展能力(Horizontal Scalability):分布式数据(Distributed Data)+ 并行化查询(Parallelizable Query)。

(3)实时分析(Realtime Analytics):不可变的过去,只追加的未来(Immutable Past,Append-Only Future)。

Druid 的技术特点

Druid 具有如下技术特点。

• 数据吞吐量大。

• 支持流式数据摄入和实时。

• 查询灵活且快。

• 社区支持力度大。

Druid 的应用场景

从技术定位上看,Druid 是一个分布式的数据分析平台,在功能上也非常像传统的OLAP系统,但是在实现方式上做了很多聚焦和取舍,为了支持更大的数据量、更灵活的分布式部署、更实时的数据摄入,Druid 舍去了OLAP 查询中比较复杂的操作,例如JOIN 等。相比传统数据库,Druid 是一种时序数据库,按照一定的时间粒度对数据进行聚合,以加快分析查询。

本文选自《Druid实时大数据分析原理与实践》。


本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据仓库模型说明

    数据仓库的建设是一个过程,而不是一个项目。在这个过程中我们需要形成自己的规范,以方便管理和维护。在数据仓库的建设过程中,不仅会面临着公司业务迅速发展,业务系统迭...

    高广超
  • Elasticsearch之元数据(meta-fields)介绍

    在Elasticsearch下,一个文档除了有数据之外,它还包含了元数据(Metadata)。每创建一条数据时,都会对元数据进行写入等操作,当然有些元数据是在创...

    高广超
  • Hbase原理解析

    [HBase]——Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数...

    高广超
  • 《福布斯观察》分析大数据六大看点

    《福布斯观察》分析大数据六大看点 从理念正确到行动正确路还很长 日前,在美国软件服务提供商天睿公司(Teradata)赞助下,《福布斯观察》联合麦肯锡咨询公司...

    灯塔大数据
  • 【干货】30张ppt!玩转大数据测试实战(附PPT下载)

      人类正从IT时代走向DT时代”,1.DT时代,数据将在生产品过程中起到激发、辅助的作用,让用户获得更大的经济价值。   2.数据蕴涵着巨大的商业价值,人们需...

    小莹莹
  • 【推荐】分析的前提—数据质量

    数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障。数据质量保证(Data Quality Assurance...

    机器学习AI算法工程
  • AI时代就业指南:商业分析师的前世今生

    大数据时代,诞生了很多新兴岗位和就业机会。商业分析、数据分析、数据挖掘、数据科学.....一时间把大家弄得云里雾里,傻傻分不清的情况下干脆把这些人都叫“搞大数据...

    小莹莹
  • [NewLife.XCode]脏数据

    NewLife.XCode是一个有10多年历史的开源数据中间件,支持nfx/netstandard,由新生命团队(2002~2019)开发完成并维护至今,以下简...

    大石头
  • “小数据”决胜大数据时代

    “大数据”是目前很火的一个词,甚至有些业内人士把2013年称为“大数据元年”。计算机行业里的人所谈的“大数据”指的是“大数据技术”,电视业、通信业领域的人所谈的...

    CDA数据分析师
  • 地铁停运和早晚高峰,空间大数据怎样拯救伦敦的交通?

    面对伦敦的共享单车、地铁停运、早晚高峰等带来的交通难题,伦敦大学学院的时空实验室(Space Time Lab),提供了怎样的解决思路?

    DT数据侠

扫码关注云+社区

领取腾讯云代金券