文章/答案/技术大牛

发布

首页视频37_底层原理_memStore刷写按照大小

37_底层原理_memStore刷写按照大小

2022-12-022022-12-02 16:02:19播放34

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之HBase2.x/视频/37_底层原理_memStore刷写按照大小.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:02
好，我们介绍完详细的写流程之后呢，紧接着我们就来介绍漫道的刷写啊，它的刷写呢是由多个线程控制的，并且条件呢是互相独立的，每一个线程都按照自己的条件去监控，一旦满足自己的某个条件，就会去执行刷写流程，那首先第一个刷写流程呢，哎。是以一个大小来进行识别的，这个大小大家非常熟悉，就叫128兆这个，呃，其实也不需要做过多介绍，这个就是HDS的块大小啊，我们既然呢是写文件到HDS上面，那按照HD块大小呢，肯定是效率最高的啊，是效率最高的，呃呃，他每次传是一个一个块传嘛，你按照128兆来传，它就是按照块大小来讲，效率最高，呃，我们可以取一个简单的例子啊，呃，如果你在传数据的时候呢，你传150兆。那对HDS底层而言，你你刷写一百五兆，那它是怎么来传的呢？底层会按两次来进行传输。
01:00
一次是128兆，那一次是剩下的嘛，对吧，超过1.1倍就会切分了啊，那如果你是按照256兆来进行上传的话，它也会执行两次啊，也会执行两次，我们可以看得出来，同样是拿小车运两次啊，运两次那我们为什么不运满呢？那运满就是256兆，那你呢，为什么要执行两次呢？一次一次来不是更贴合底层一点嘛，那就是128兆啊，按照这个东西拿来进行刷写，效率更高啊，效率更高兆啊，当我们的memory到大小达到这么一个128兆时候呢，它这个region里面所有的memory道都会刷新，好咱们可以呢截一下上面这个图啊，来给大家解释一下。好，我们对应的来去对照一下啊，它说的什么意思呢？就是说如果某一个memory store啊，就是每一个store对应的那个memory对不对？如果它对应的一个memory到达到了128兆，那么整个reading看到吗？整个reading都会去刷写啊，这时候可能有的同学就有一个问题了，哎，老师，如果这个一啊，Memory到一达到128兆了，MEMORY2还才只有十兆，那它也刷写吗？这会不会造成小文件问题啊？首先有一点毫无质疑，人家都说了会刷写，那它肯定会造成小文件问题，对不对？哎，那它难道没有什么问题吗？这里造成小文件问题会不会对HDS造成损害呢？
02:26
那损害呢，是一定会有的，对吧，咱们既然学这个原理呢，它肯定是这么个道理啊，那为什么作者还要这样设计呢？哎，其实作者设计啊也是有道理的，作者设计的点就在于同样的一个region里面的star，它代表什么，代表的是不同的列。对吧，代表的是不同的列啊，不同的列读下面不同的列嘛，那我们呢，在常规使用一个表格写数据的时候啊，你在使用的时候呢，你这个用户啊，就不能这么恶心，你既然设计了两个列足二分天下，那你在网插入一行数据的时候，你应该尽量保证这个列是比较均匀的吧。
03:04
是不是样，你不可能说我设计了两个列组，但是我的信息都在一列组里面，二列组里面基本上是空的，那是你使用的问题，我们再插入一条数据的时候，你应该保证左边的列跟右边列尽量均匀，那如果尽量均匀的话呢，你这个数据再往里面写的时候，它的数据量大小就是差不多的啊，就差不多的，我们为什么要一起刷写呢？哎，一起刷写一起保存，能够把相同一行的这个数据呢，存到类似接近的一个位置啊，类似接近的一个相同时间点落盘嘛，对吧？当然它是在不同文件夹里面啊，在一个时间范围内接近的一个位置啊，那这样的好处就是说我们读数据的时候啊，通常也喜欢按照行来读啊，它按照时间进行扫描的时候呢，效率要更高一点啊，这是我们对应的一个刷写啊，对应那个刷写好，除了这个128兆刷写之外呢，底下还有一个叫当memory到达到了128兆乘以四的时候，这个四呢是一个峰值啊，乘以四的时候呢，会阻止往这个memory store里面写。
04:05
数据同时呢也会刷写啊，它也会刷写，同时呢，我这里面阻止写数据，它有两个判断条件，那为什么两个判断条件呢？这里也说了，因为我们这个线程监控啊，它是周期性的，所以有可能面对数据洪峰，上一次他他来检查的时候只达到120兆，但下次再来检查时候，一下子就到了150兆，是不是有可能啊，它是有可能超过128兆的啊，那我们呢，会明确的设置一个阻止它继续往里写的这么一个条件啊，其实这里啊有一个隐藏的问题啊，为什么要阻止往里写，因为写缓存里面的数据非常重要。啊，写缓存里面的数据非常重要，因为写缓存里面数据就是数据本身，你如果把写缓存给删掉了，你一直往里面写，它不容易内存溢出嘛，内存溢出数据就删掉了，对不对？你要是把写缓存里面的数据删掉了，那就跟你这个服务挂掉了，其实没有区别，你在进行垃圾回收的时候，你也不会回收写缓存里面的数据的，你只能回收别人的。
05:03
接外轮数据一旦被回收，你需要做的操作非常的麻烦啊，非常的麻烦，你还要回过头来到我们最开始的那个预写值里面，一个一个去找，对不对？好，那这个呢，是我们刷写的第一个条件叫大小啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之HBase2.x

（30/68）

11分38秒

10_shell命令_创建查看表格

410

4分22秒

11_shell命令_修改删除表格

370

9分48秒

12_shell命令_读写数据

360

7分15秒

13_shell命令_删除与版本介绍

370

12分17秒

14_API_单线程使用连接

360

10分57秒

15_API_多线程使用连接

330

6分57秒

16_API_获取admin

420

13分7秒

17_API_创建命名空间

340

6分46秒

18_API_多异常处理

350

9分46秒

19_API_判断表格是否存在

340

7分30秒

1_HBase课程简介

450

15分5秒

20_API_创建表格

350

7分27秒

21_API_表格创建问题解决

380

9分9秒

22_API_修改表格错误代码

360

8分40秒

23_API_修改表格修正

430

5分30秒

24_API_修改表格异常处理

320

7分22秒

25_API_删除表格

380

11分41秒

26_API_写入数据

380

11分5秒

27_API_读取数据

370

11分17秒

28_API_扫描数据

390

8分22秒

29_API_单列过滤扫描

370

3分34秒

2_理论概述_定义简介

400

4分22秒

30_API_整行过滤扫描

460

8分9秒

31_API_删除数据

420

11分53秒

32_底层原理_master架构

370

11分55秒

33_底层原理_master补充信息

410

7分12秒

34_底层原理_源码与进程

330

8分55秒

35_底层原理_regionServer架构

340

11分24秒

36_底层原理_写流程

490

5分20秒

37_底层原理_memStore刷写按照大小

340

8分12秒

38_底层原理_memStore刷写条件低水位线

440

4分10秒

39_底层原理_memStore刷写条件高水位线

410

6分4秒

3_理论概述_设计理念

340

5分53秒

40_底层原理_memStore刷写条件按照时间

380

8分23秒

41_底层原理_HFile的结构

360

7分9秒

42_底层原理_写流程

380

6分34秒

43_底层原理_合并数据优化

340

4分41秒

44_底层原理_文件合并

410

8分3秒

45_底层原理_小文件合并机制

350

10分32秒

46_底层原理_自定义分区

460

8分19秒

47_底层原理_系统分区

420

6分37秒

48_rowKey设计_基础方法

370

2分26秒

49_rowKey设计_需求介绍

290

11分13秒

4_理论概述_逻辑结构与存储结构

320

7分44秒

50_rowKey设计_常规实现

300

9分49秒

51_rowKey设计_组合实现

270

5分53秒

52_rowKey设计_添加预分区

430

8分15秒

53_rowKey设计_预分区优化

400

9分46秒

54_使用调优_参数调优

380

7分21秒

55_使用调优_jvm调优

530

9分10秒

56_使用调优_权威法则

400

5分27秒

57_整合Phoenix_简介

340

6分12秒

58_整合Phoenix_安装部署

440

3分5秒

59_整合Phoenix_连接使用

400

5分17秒

5_理论概述_数据模型

400

12分11秒

60_整合Phoenix_基础命令

380

5分28秒

61_整合Phoenix_视图映射和表映射

350

4分8秒

62_整合Phoenix_数字存储问题

330

11分2秒

63_整合Phoenix_jdbc连接编写

390

7分43秒

64_二级索引_全局索引

380

4分9秒

65_二级索引_包含索引

330

4分4秒

66_二级索引_本地索引

350

9分26秒

67_集成hive_使用场景

410

4分31秒

68_集成hive_分析数据

390

9分49秒

6_理论概述_基础架构

440

9分43秒

7_集群部署_安装框架

390

2分5秒

8_集群部署_启动服务&WEB页面

350

5分20秒

9_集群部署_部署高可用

350

37_底层原理_memStore刷写按照大小

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐