前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2021年大数据HBase(三):HBase数据模型!!!【建议收藏】

2021年大数据HBase(三):HBase数据模型!!!【建议收藏】

作者头像
Lansonli
发布2021-10-11 15:36:56
1.1K0
发布2021-10-11 15:36:56
举报
文章被收录于专栏:Lansonli技术博客

HBase数据模型

在HBASE中,数据存储在具有行和列的表中。这是看起来关系数据库(RDBMS)一样,但将HBASE表看成是多个维 度的Map结构更容易理解

术语:

  • 表(Table) : HBase中数据都是以表形式来组织的, HBase中的表由多个行组成
  • 行键(row key):
  1. HBase中的行有一个rowkey(行键)和 一个或者多个列组成, 列的值与rowkey、列相关联
  2. 行在存储是按行键的字典序排序
  3. 行键的设计非常重要, 尽量让相关的行存储在一起
  • 列(Column): HBase中的列有列族(column family) 和列限定符(列名)(Column Qualifier)组成
  1. 表示如下 : 列族名:列限定符 例如: C1:USER_ID C1:SEX
  • 列族(Column Family):
  1. 出于性能原因, 列族将一组列及其值组织在一起
  2. 每个列族都有一组存储属性: 例如 是否应该换成在内存中, 数据如何被压缩等
  3. 表中的每一行都有相同的列族, 但在列族中不存储任何内容
  4. 所有的列族的数据全部都存储在一块(文件系统HDFS)
  5. Hbase官方建议所有的列族保持一样的列, 并且将同一类的列放在一个列族中
  • 列标识符(Column Qualifier)
  1. 列族中包含一个个的列限定符, 这样可以为存储的数据提供索引
  2. 列族在创建表的时候是固定的, 但列限定符是不做限制的
  3. 不同的列可能会存在不同的列标识符
  • 单元格(Cell): 单元格是行、列族和列限定符的组合,包含一个值和一个时间戳, 数据以二进制存储
  • 版本号(verson num): 每条数据都会有版本号的概念
  1. 每条数据都可以有多个版本号, 默认值为系统时间戳, 类型为Long
  • 时间戳(timeStamp): 每个数据都会有时间戳的概念
  1. 在向Hbase插入更新数据的时候, HBase默认会将当前操作的时间记录下来, 当然也可以人为指定时间
  2. 不同版本的数据按照时间倒序排序, 即最新的数据排在最前面

  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢大数据系列文章会每天更新,停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/06/25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • HBase数据模型
    • 术语:
    相关产品与服务
    对象存储
    对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档