文章/答案/技术大牛

发布

首页视频42_底层原理_写流程

42_底层原理_写流程

2022-12-022022-12-02 16:02:19播放38

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之HBase2.x/视频/42_底层原理_写流程.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，介绍完整个的文件结构之后呢，接下来我们就来看读流程啊，打开对应的PPT。好，我们的读立流程呢，也是从客户端创建连接开始的，而先要创建出那个connection，然后呢，你获取table，获取table调get对吧，这一步一步的流程，到最终呢，合并数据返回客户端为止，哎，什么意思呢？你读取数据你要用点返回对不对？到点返回最终的result为止，这是我们完整的一个读流程，那么它前面创建连接的整个流程，以及我们呃，H base和HDMS存储的这些东西呢，都是一样的啊，左边是创建连接对不对？还是先由主K发送，向主K发送请求创建对应的一个连接，还是先要去找MAT表的地址，找到之后把MAT表呢完整的读过来，缓存到MAT catch里面啊缓存下来好，如果这个MAT catch呢发生变化，还是需要去更新，它前面的流程跟写流程是完全一样的，不一样的点就在于它在发送请求的时候，这时候呢就是发送一个get请求。
01:08
发送一个get请求啊，这个读啊，哎，在我们的h base结构里面就会变得相对比较复杂啊，因为写的时候相对比较简单，你不断的往里面追加写就可以了，因为它有那个版本嘛，对不对，好，那你读的时候就费劲了，你要把所有的版本都给它读出来。好，那你为了保证所有的版本都给它读出来，你一定要读三个位置啊，一定要读三个位置，哪三个位置呢。那首先这个流程呢，还是先走预写日啊，把这个东西呢给写到预写日里面，然后接下来先要读什么，先要读block catch啊，先要读这个读缓存啊，先要读缓存好读这个对应的读缓存呢。主要是为了让他这个效率啊更高一点啊，之前读过的数据呢，会缓存在这个读缓存里面啊，会缓存这个里面，你下次呢，直接再来读就可以了，当然你这次直接读读缓存里面的内容，它一定是正确的吗？啊其实这里还是有个问题的，对不对，你这次你上次读了1001的，结果他给你返回一个张三。
02:13
你这次再来读1001的结果，它一定是张三吗？哎，是不是有可能发生版本的变化了呀，所以这个读款图啊，并不简简单单就是它的名字叫block catch，并不简简单单单是缓存了键值对的那个block块就64K那个块，并不是这样，它主要缓存什么呢？主要缓存原数据啊，主要缓存原数据对呢，就是我们之前说的那个伪信息。啊，那个伪信息他读到那个文件的原数据之后呢，他会去对应啊，他这边呢，马上就会去这个文件里面去对应，如果伪信息是完全一样的，说明这个文件没有发生过变化，上一次读到这一次可以拿来直接用，如果发生变化了，还需要重新读，把原来的缓存给删掉，然后重新来读啊，结构还是相对比较复杂的啊，相对比较复杂的好，这是第一部分，一定要读读缓存，效率呢，能够更更高一点，读缓存里面也有大量的一个原数据，方便他查找对应的一个地址，除了读海伦之外呢。
03:12
最主要的一部分，我们要读这个对应的store里面的文件，对吧？读缓存里面呢，会优先缓存索引文件，不能过滤器和K值，也就是原数据里边的内存呢，是按照64K来缓存数据的，清理的时候它主要它不会清理这些东西。不会清理所有文件，也不会清理布隆过滤器跟这个原数据，它只会清理KV间段64K的那个数据，只会清理数据，那清理数据呢，就根据活跃度来，还有就是诶，你是过期的，那自然也要清理掉啊，你长时间没有人用了，也给你清理掉，我们GVM的整个的垃圾回收主要清理的就是这个读缓存，因为读缓存里面的数据不重要，你垃圾回收肯定要这个回收不重要的，对不对，我们主要回收的就是毒缓存里面的数据啊，就这里面的数据啊。好，那对应的再往下。
04:01
哎，再往下他还需要去读取写缓存里面的数据啊，还需要读取写缓存里面数据，原因很简单，因为这个数据啊，可能是刚刚写进来的新版本的数据，还没有去，来得及落盘呢，那你在读的时候要把所有的版本读全，所以读缓存里面数据也要读啊，写缓存里面数据也要读啊，两部分缓存呢都要去读啊，不过这个呢，影响到不是很大，因为写缓存呢，也是在内存里面，同时缓存始终保证数据是有序的，你想要读这个内存里面的数据，并且是有序的，速度非踌快啊，速度非踌快，他已经给我们设计好了啊，那最终一部分要读的数据呢，就是文件里面的数据。这个文件里面的数据啊，是最慢的，一方面它要读磁盘，那并且要跟HDS产生一个读写交互，这速度是非常慢的，对不对，主要慢的点就在这个读文件上面的，其实读这个读缓存也好，读这个写缓存也好，都可以看作是不怎么耗时间的，非常非踌快速的，而着重比较慢的就是读这个文件里面的啊，HDS文件里面的数据啊，针对文件里面数据呢，它进行了大量的优化，这个优化的包含有文件是带索引的，是拆成64K小块的，带有布隆过滤器，带有原数据，你可以很快的找到，同时呢，所有的原数据都会缓存到这个block开里面。还有一个点就是如果这个文件呀，长时间存储在hdi上面，没有经过写，没有经过修改，一直就用来读的话，那事实上这个文件不会被读多次，只会被读一次，读一次之后结果的那个block catch block块数据就会被缓存到这个读缓存里面，下次读的时候呢，直接拿来用就可以了啊。
05:41
我大量的优化，等你把这些所有文件的地方啊，数据全部读完之后，来最终合并所有读取的数据返回，怎么合并呢？高版本的覆盖低版本的，如果你只要一个版本的话，它会完全对应，最终只得到一个最高版本的啊，得到一个最高版本的返回就可以了。
06:01
好，这个呢，就是我们完整的读流程，在读流程里面啊，底下呢，也有对应的一个说法的一个记录啊，创建table对象，发送get请求，然后优先访问读缓存，查找是否之前读取过读并且呢，可以读取里面的所有信息和布隆过滤器，布隆过滤器呢能够判断，简简单的判断。这个文件里面有没有，你想要找到那个ROK啊，如果他不能过去说没有，这个哈希有一个特点对不对，他说没有，一定没有，他说有不一定有，对吧，哈希同装是有不一定有，但是没有的话一定没有，对吧，我们没有的话呢，不找哎，你也可以扫检索一些文件啊，这个不管读卡存里面是否已经有数据，因为这个数据可能是过期的，都需要再次读取，写缓存和store中的文件啊，都需要去对踪文件，然后呢，最终合并所有读取的文件，文件按照get的要求返回就可以了，他需要几个版本，你最终保留几个版本给到他就可以了啊，那这个呢，就是我们的完整的。
07:00
读流程啊，可以看到跟写流程相比啊，它可能更耗性能一点，涉及到大量的一个磁盘的一个读写啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之HBase2.x

（36/68）

11分38秒

10_shell命令_创建查看表格

410

4分22秒

11_shell命令_修改删除表格

370

9分48秒

12_shell命令_读写数据

360

7分15秒

13_shell命令_删除与版本介绍

370

12分17秒

14_API_单线程使用连接

360

10分57秒

15_API_多线程使用连接

330

6分57秒

16_API_获取admin

420

13分7秒

17_API_创建命名空间

340

6分46秒

18_API_多异常处理

350

9分46秒

19_API_判断表格是否存在

340

7分30秒

1_HBase课程简介

450

15分5秒

20_API_创建表格

350

7分27秒

21_API_表格创建问题解决

380

9分9秒

22_API_修改表格错误代码

360

8分40秒

23_API_修改表格修正

430

5分30秒

24_API_修改表格异常处理

320

7分22秒

25_API_删除表格

380

11分41秒

26_API_写入数据

380

11分5秒

27_API_读取数据

370

11分17秒

28_API_扫描数据

390

8分22秒

29_API_单列过滤扫描

370

3分34秒

2_理论概述_定义简介

400

4分22秒

30_API_整行过滤扫描

460

8分9秒

31_API_删除数据

420

11分53秒

32_底层原理_master架构

370

11分55秒

33_底层原理_master补充信息

410

7分12秒

34_底层原理_源码与进程

330

8分55秒

35_底层原理_regionServer架构

340

11分24秒

36_底层原理_写流程

490

5分20秒

37_底层原理_memStore刷写按照大小

340

8分12秒

38_底层原理_memStore刷写条件低水位线

440

4分10秒

39_底层原理_memStore刷写条件高水位线

410

6分4秒

3_理论概述_设计理念

340

5分53秒

40_底层原理_memStore刷写条件按照时间

380

8分23秒

41_底层原理_HFile的结构

360

7分9秒

42_底层原理_写流程

380

6分34秒

43_底层原理_合并数据优化

340

4分41秒

44_底层原理_文件合并

410

8分3秒

45_底层原理_小文件合并机制

350

10分32秒

46_底层原理_自定义分区

460

8分19秒

47_底层原理_系统分区

420

6分37秒

48_rowKey设计_基础方法

370

2分26秒

49_rowKey设计_需求介绍

290

11分13秒

4_理论概述_逻辑结构与存储结构

320

7分44秒

50_rowKey设计_常规实现

300

9分49秒

51_rowKey设计_组合实现

270

5分53秒

52_rowKey设计_添加预分区

430

8分15秒

53_rowKey设计_预分区优化

400

9分46秒

54_使用调优_参数调优

380

7分21秒

55_使用调优_jvm调优

530

9分10秒

56_使用调优_权威法则

400

5分27秒

57_整合Phoenix_简介

340

6分12秒

58_整合Phoenix_安装部署

440

3分5秒

59_整合Phoenix_连接使用

400

5分17秒

5_理论概述_数据模型

400

12分11秒

60_整合Phoenix_基础命令

380

5分28秒

61_整合Phoenix_视图映射和表映射

350

4分8秒

62_整合Phoenix_数字存储问题

330

11分2秒

63_整合Phoenix_jdbc连接编写

390

7分43秒

64_二级索引_全局索引

380

4分9秒

65_二级索引_包含索引

330

4分4秒

66_二级索引_本地索引

350

9分26秒

67_集成hive_使用场景

410

4分31秒

68_集成hive_分析数据

390

9分49秒

6_理论概述_基础架构

440

9分43秒

7_集群部署_安装框架

390

2分5秒

8_集群部署_启动服务&WEB页面

350

5分20秒

9_集群部署_部署高可用

350

42_底层原理_写流程

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐