学习
实践
活动
专区
工具
TVP
写文章
专栏首页Lansonli技术博客大数据Kudu(一):什么是Kudu
原创

大数据Kudu(一):什么是Kudu

​什么是Kudu

前言

结构化数据存储在Hadoop生态系统中,分为静态数据和动态数据两类。静态数据指的是需要进行数据分析的数据,这种分析针对的数据量一般很大,例如:统计全年每个地区总营业额。动态数据指的是数据需要实时动态插入、更新、读取的数据。例如业务系统中海量用户基本信息的存储。

  • 静态数据:

对于大批量数据分析场景,为了便于数据分析,Hadoop生态系统中一般将数据存储在HDFS中,HDFS设计的初衷就是一次写入多次读取,HDFS适合高吞吐连续访问数据场景。只支持数据的追加,不支持数据的更新修改,即不支持随机写。HDFS对于数据的随机读写支持不友好。

  • 动态数据:

一些数据处理场景下,需要低延迟、高效的读取特定数据,我们可以将数据存储在HBase中,HBase支持数据的低延迟随机读写(HBase数据存储在HDFS中,本质上还是追加写。基于版本号和定期合并HFile实现随机读写,默认返回最大的时间戳数据)。HBase中以Rowkey为索引,对于需要大批量读取数据分析的场景,吞吐量不如HDFS。

例如我们有一个业务系统,有如下要求:

  • 数据实时产生,需要对数据逐行进行插入保存、低延迟数据读取、更新的随机读写操作。
  • 需要批量扫描历史数据,进行快速、实时的OLAP数据分析。

以上业务系统,既要求对数据进行随机读写,又要求对数据进行批量分析操作,针对以上业务场景我们就可以选择Kudu。

一、​​​​​​​Kudu概念

Kudu是Cloudera在2015年9月开源的分布式数据存储引擎,其结合了HDFS和HBase的优势,可以同时提供高效的随机访问以及数据扫描能力。Kudu支持数据的实时插入和分析,为实时的OLAP计算提供了另外一种选择

Kudu的随机读写速度和HBase相似,但是达不到HBase随机读写性能,Kudu批量查询数据性能媲美HDFS parquet,但是比HDFS批量查询慢,所以kudu更像是HDFS与HBase的一个折中选择,目前国内小米、网易等公司在用。

二、Kudu 适用场景

Kudu适用于以下场景:

  • 对数据既支持扫描(scan)又支持随机访问(random access)同时具有高性能,简化用户复杂的混合架构场景。
  • 数据需要更新,避免额外的数据迁移。

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注作者,阅读全部精彩内容
登录 后参与评论
0 条评论

相关文章

  • 一篇文章搞定一个大数据组件:kudu知识点全集

    HDFS: 存储格式Textfile,Parquet,ORC,适合离线分析,不支持单条记录级别的update操作,随机读写性能差。

    不吃西红柿
  • 大数据物流项目:Kudu 入门使用(五)

    KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则,如下图:

    ChinaManor
  • FAQ系列之Kudu

    分析用例几乎只使用查询表中列的子集,并且通常在广泛的行上聚合值。面向列的数据极大地加速了这种访问模式。操作用例更有可能访问一行中的大部分或所有列,并且可能更适合...

    大数据杂货铺
  • Kudu设计要点面面观(下篇)

    参考:《Kudu设计要点面面观(上篇)》,本文适用知识共享-署名-相同方式共享(CC-BY-SA)3.0协议。

    王知无-import_bigdata
  • 【Flink】第十七篇:记一次牛轰轰的OOM故障排查

    昨天,分析修复了一个connector的问题。下面开始陈述整个过程,依旧按照之前的陈述思路进行:

    章鱼carl
  • Kudu使用布隆过滤器优化联接和过滤

    在数据库系统中,提高性能的最有效方法之一是避免执行不必要的工作,例如网络传输和从磁盘读取数据。Apache Kudu实现此目的的方法之一是通过使用扫描器支持列谓...

    大数据杂货铺
  • impala + kudu | 大数据实时计算踩坑优化指南

    王知无-import_bigdata
  • 使用Apache Kudu和Impala实现存储分层

    当为应用程序的数据选择一个存储系统时,我们通常会选择一个最适合我们业务场景的存储系统。对于快速更新和实时分析工作较多的场景,我们可能希望使用Apache Kud...

    九州暮云
  • Kudu:一个为大数据快速分析量身定制的新型Apache Hadoop存储系统

    Apache Hadoop提供了一系列数据存储与处理的组件,覆盖了多种多样、应用于企业级关键服务的用户案例。在Cloudera,我们一直在努力探索Hadoop...

    华章科技
  • 客快物流大数据项目(四十一):Kudu入门介绍

    从上面分析可知,这两种数据在存储方式上完全不同,进而导致使用场景完全不同,但在真实的场景中,边界可能没有那么清晰,面对既需要随机读写,又需要批量分析的大数据场景...

    Lansonli
  • Apache Kudu 对频繁更新数据场景下的大数据实时分析最佳用例

    由于最近两次在大数据项目中使用Apache Kudu,写一篇文章谈谈对Kudu的一些看法和使用心得。

    用户4977942
  • Apache Kudu 架构

    从Impala在Kudu中创建新表类似于将现有Kudu表映射到Impala表,除了您需要自己指定模式和分区信息。 使用以下示例作为指导。Impala首先创建表...

    jasong
  • 实时离线一体化技术架构(万字,15张图)

    基于TB级的在线数据,支持缴费帐单明细在线查询。大家都知道,像银行帐单流水一样,查几年的流水是常有的事。

    大数据老哥
  • 我是如何成为Apache Kudu committer & PMC的?

    米从2012年开始正式涉足开源,不光积极参与开源社区,修复bug,提交代码,同时逐渐将自研的系统或框架进行开源,先后开源了企业级、高可用、可扩展的监控系统Ope...

    Fayson
  • 对于一般大数据物流项目的面试题(问题+答案)

    1、数据采集如何完成 OGG 不要涉及,Oracle DBA完成 Canal数据采集,一定知道高可用HA集群模式 2、数据量大小 Kafka topic...

    ChinaManor
  • 蒋鸿翔:网易数据基础平台建设

    我们公司主要从事平台技术开发和建设方面,工作的重点方向主要在解决用户在数据治理中的各种问题,让用户能更高效地管理自己的数据,进而产生更大的价值,比如如何整合现有...

    DataFunTalk
  • 独家 | 一文读懂Apache Kudu

    前言 Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致...

    数据派THU
  • kudu-1:原生方式在aws的centos8系统上搭建生产级kudu集群

    ambari已经被CDH所在公司收购,两者现在都已经闭源,生产使用需要付费,费用极其昂贵。

    千里行走
  • 大数据Kudu(六):Kudu Java Api操作

    Kudu没有提供标准SQL操作,支持Nosql样式的API,这里使用Java 操作Kudu ,包括创建表、插入数据、修改删除数据、删除表等操作,值得注意的是,J...

    Lansonli

扫码关注腾讯云开发者

领取腾讯云代金券