文章/答案/技术大牛

发布

首页视频3_理论概述_设计理念

3_理论概述_设计理念

2022-12-022022-12-02 16:02:19播放34

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之HBase2.x/视频/3_理论概述_设计理念.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，我们了解完h base的本质以及它的特点之后呢，接下来咱们就要了解一个非常重要的概念啊，就是h base的数据模型啊，H base的数据模型说起来呢，要从它的设计理念来谈起啊，呃呢，是完全依赖于谷歌的悲歌推论文啊，这个谷歌的论文啊，相信大家都有所耳闻啊，谷歌呢，有三篇论闻啊，分别构成了这个哎，大数据的三驾马车，也就是我们大数据本质上要做的三件事儿啊，海量数据的。传输、存储和计算，而这个big table论文呢，就在讲述这个存储这件事儿啊，那H作为一个数据库，它理所当然就是来搞存储的啊，这个论文里面对于数据模型首句的介绍就是说贝个table是一个什么样的table啊，它首句就开始说了，叫是一个稀疏的分布式的，持久的多维排序的map，这里面单词，这里面的词一个多余的都没有啊，每一个单词都是有意义的啊，咱们一个一个来看啊，首先它是一个稀疏的，什么叫稀疏的呢？哎，又回到关系型数据库和非关系型数据库对比上了啊，关系型数据库呢，比方说MYSQL，它是一个表格。
01:08
这个表格呀，在底层存储的时候要求是比较高的啊，你在底层存储的时候呢，一定要跟每一个格，就是每一行每列的那个小格，就这一个小格都留好对应的存储空间啊，你你是不可以说不给他留位置的，这不行啊，每一个地方都要有留位置啊，那样留位置就会造成什么呢？造成存储空间的浪费。啊，你可以想象一下，如果你的表啊列比较少，总共就十列。那你再往里面写数据的时候，你是可以确保每一列里面都有值的啊，那里面空格就会比较少，对吧，但如果是大数据的话，就像刚才说的百万列。如果你百万列的话，咱们真正做过数据开发应该都懂的啊，你这个数据里面肯定是有大量的空值的啊，是要有大量的空值，那如果有大量的控制，你用哎关系型数据库这种表格形式来进行存储的话，就非常的浪费空间，它要给空值留空啊，啊如果你用非关系型数据库，用这个big table的。
02:08
呃，设计理念这个模型来做的话呢，就会非常节省空间，因为它是稀疏的，什么意思，如果这个格为空啊，当前这个为空，我可以不存。啊，如果你为空，你就不存在，不存在我为什么要存你的，我就不存，那不存就造成了一个空间的一个节省，这在大数据里面是非常非常必要的啊，这是第一个叫稀疏的啊，第二个叫分布式的，这就不谈了啊，存储海量的数据，如果你不是分布式的，那你就不可能存在啊，存在一台电脑上，你的磁盘再大总是有上限的，你也没有办法进行一个很好的拓展，对吧？啊，这就不谈了啊，下一个叫持久的，这是必然的，我们在存储数据的时候，你一定要是持久化保存的。单纯的保存在内存里面啊，跟数据库的里面是背道而驰的，那不可能的，对吧，下一个单纯叫多维，多维什么意思。呃，非关型数据库的本质呢，是KV结构，但如果你仅仅像代码里面的哈希map。
03:07
哈希map啊，最基础的这种KV结构，对吧，如果你仅仅像代码里面的哈希map一样，那它是一个单位的，就单独给1K能得到一个value，那这样的话呢，它存储数据。就不够全面了啊，太单一了，那肯定是不行的，我们的big table它一定是多维的啊，那是多维的，下一个叫排序啊，这个排序呢，你只要对我们的存储和读写有稍微的了解啊，一说你就明白了啊，无视的数据，如果我想要准确的去查找一条我想要的答案的话。你需要去遍历整张表啊，但如果它是排序的话就不一样了，如果是排序的话，我可以按照一些算法来进行读取，比较简单，也比较有名的二分查找法啊，你可以想想是不是如果用二分查找法呢？就要求这个数据一定是有序的，所以我们的big table它一定是有序的啊。最后一个词叫map，这个map，哎，故意没有翻译啊，如果翻译的话呢，这个软件容易把它翻译成地图啊，那显然它不是地图的意思啊，我们可以把它叫做映射啊，叫做映射，这个映射指的就是哈希map里面的那个KV的意思就是它。
04:14
啊，就是它好，那关于这个映射呢，它应该是如何组成的呢？哎，谷歌的论文里面接下来对它还有介绍啊，这个映射呢，应该是由行线列箭和时间戳索引作为K。啊，有行有列名，有行名有列名，同时呢，有一个时间戳作为它的K，那它映射的每一个值呢，就是它Y6值呢，应该是一个未解式的字节数组啊，它应该是一个字节数组，同时它有一个未解释，未解释什么意思呢？就是经过序列化了啊，经过序列化或者说呢，是没有办法用UTF杠八编码的啊，它不是一个能直接读的字符串啊，经过序列化那这的好处呢，还是存储空间更节省一点啊，这个相信大家都知道，存一个字符串跟存一个序列化之后的字符串，那空间是不一样的，对吧？哎，它一定要经过序列化啊未解释的啊好，那最终呢，我们h base的数据模型跟谷歌的这个big table的数据模型是非常相似的啊，可以说就是依赖这个big table来创建出来的啊，用户呢可以将数据存储在带标签的表里面，数据呢，行可以具有可排序的键，就那个K是可以排序的，并且拥有任意数量的列，这个任意数量指代的就是如果用户喜欢一个表里面的行。
05:27
可以具有疯狂变化的列，就是可以动态的去追加这个列，因为数百万列什么概念，你是不可能在最开始建表的时候就把每一个列都给它写上的啊，非常不方便对吧？我们呢，不需要写这个列，你往后再使用的时候可以追加列，这跟关系型的数据库有非常大的区别，那本质呢，就在于它存储系数啊存储系数。好，最终的解释呢，就在于这么几个关键字对吧，技术分布式多维排序的一个映射啊，这个映射呢，指代的就是KV结构啊，这是我们h base数据模型的一个基本理念啊。我们。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之HBase2.x

（33/68）

11分38秒

10_shell命令_创建查看表格

410

4分22秒

11_shell命令_修改删除表格

370

9分48秒

12_shell命令_读写数据

360

7分15秒

13_shell命令_删除与版本介绍

370

12分17秒

14_API_单线程使用连接

360

10分57秒

15_API_多线程使用连接

330

6分57秒

16_API_获取admin

420

13分7秒

17_API_创建命名空间

340

6分46秒

18_API_多异常处理

350

9分46秒

19_API_判断表格是否存在

340

7分30秒

1_HBase课程简介

450

15分5秒

20_API_创建表格

350

7分27秒

21_API_表格创建问题解决

380

9分9秒

22_API_修改表格错误代码

360

8分40秒

23_API_修改表格修正

430

5分30秒

24_API_修改表格异常处理

320

7分22秒

25_API_删除表格

380

11分41秒

26_API_写入数据

380

11分5秒

27_API_读取数据

370

11分17秒

28_API_扫描数据

390

8分22秒

29_API_单列过滤扫描

370

3分34秒

2_理论概述_定义简介

400

4分22秒

30_API_整行过滤扫描

460

8分9秒

31_API_删除数据

420

11分53秒

32_底层原理_master架构

370

11分55秒

33_底层原理_master补充信息

410

7分12秒

34_底层原理_源码与进程

330

8分55秒

35_底层原理_regionServer架构

340

11分24秒

36_底层原理_写流程

490

5分20秒

37_底层原理_memStore刷写按照大小

340

8分12秒

38_底层原理_memStore刷写条件低水位线

440

4分10秒

39_底层原理_memStore刷写条件高水位线

410

6分4秒

3_理论概述_设计理念

340

5分53秒

40_底层原理_memStore刷写条件按照时间

380

8分23秒

41_底层原理_HFile的结构

360

7分9秒

42_底层原理_写流程

380

6分34秒

43_底层原理_合并数据优化

340

4分41秒

44_底层原理_文件合并

410

8分3秒

45_底层原理_小文件合并机制

350

10分32秒

46_底层原理_自定义分区

460

8分19秒

47_底层原理_系统分区

420

6分37秒

48_rowKey设计_基础方法

370

2分26秒

49_rowKey设计_需求介绍

290

11分13秒

4_理论概述_逻辑结构与存储结构

320

7分44秒

50_rowKey设计_常规实现

300

9分49秒

51_rowKey设计_组合实现

270

5分53秒

52_rowKey设计_添加预分区

430

8分15秒

53_rowKey设计_预分区优化

400

9分46秒

54_使用调优_参数调优

380

7分21秒

55_使用调优_jvm调优

530

9分10秒

56_使用调优_权威法则

400

5分27秒

57_整合Phoenix_简介

340

6分12秒

58_整合Phoenix_安装部署

440

3分5秒

59_整合Phoenix_连接使用

400

5分17秒

5_理论概述_数据模型

400

12分11秒

60_整合Phoenix_基础命令

380

5分28秒

61_整合Phoenix_视图映射和表映射

350

4分8秒

62_整合Phoenix_数字存储问题

330

11分2秒

63_整合Phoenix_jdbc连接编写

390

7分43秒

64_二级索引_全局索引

380

4分9秒

65_二级索引_包含索引

330

4分4秒

66_二级索引_本地索引

350

9分26秒

67_集成hive_使用场景

410

4分31秒

68_集成hive_分析数据

390

9分49秒

6_理论概述_基础架构

440

9分43秒

7_集群部署_安装框架

390

2分5秒

8_集群部署_启动服务&WEB页面

350

5分20秒

9_集群部署_部署高可用

350

3_理论概述_设计理念

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐