文章/答案/技术大牛

发布

首页视频43_底层原理_合并数据优化

43_底层原理_合并数据优化

2022-12-022022-12-02 16:02:19播放34

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之HBase2.x/视频/43_底层原理_合并数据优化.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
好，当我们了解了全部的读流程之后呢，最后我们再着重的讲一下合并这些读取数据的一些优化手段，呃，我们每次读取数据呢，都需要读取三个位置啊，最终呢，实现一个版本的合并，它的效率呢会非常的低，所用低的点呢，就在读取那个HDL磁盘文件上了啊可能有的同学会说啊，老师如果你只读一个版本的话，那你直接读写缓存里面的，它不就是最新的吗？你不就不用读别的了吗？啊不是这样的啊，不是这样的，你读写缓存里面它那个TS时间戳，也就对那个版本号，其实啊是我们可以手动添加的，哎，你想一下，有没有可能很早之前有一个人在我们的磁盘里面写了一条数据，他那个时间上直接写了一个99999999，会不会有可能是有可能的吧，对吧，所以你为了这个准确性啊，你是不可能说只读一个版本，你就只要几缓存的。不管任何的条件下啊，你怎么样去读它一定是读这三个位置的一个文件的啊，一定是读三个文件，所以我们啊系统呢，要对此进行一个复杂的一个优化，它着重优化的手段呢，就是读缓存，就那个block catch读缓存和磁盘文件的一个对应啊这个怎么优化呢？首先带有索引，这个我们相信不需要做过多的介绍了啊，我们在读文件的时候，有索引没索引，那速度差太多了，对吧？并且还有一点很重要。
01:24
我们h fair里面的这个文件啊，它都是有序的。按照RK是有序的，所以你读的时候相对会快很多啊，相对会快很多，它是按照RK有序，而我们读数据一定是按照RK去读的啊，我们h base读数据只能按照RO去读，所以相对呢，本身就是挺快的。第2.block开启里面会缓存之前读取的内容和原数据信息，如果这个文件没有发生变化，不需要你再次读取，直接拿之前的就可以了，它每次都会对一下嘛，你读到读管存里面的数据之后，它不会直接拿来用，它会去对一下，看有没有发生变化，没变化直接用，有变化更新一下啊，有变化就更新一下。第三个就是我们的布隆过滤器啊，啊，就是我们的布隆过滤器，布隆过滤器呢，使用的是哈希的一个算法，每次由数据写入的时候，比方说1001写入，他把1001走一个哈希，走完哈希之后不是得到一个int值吗？
02:19
哎，把这个int值的大小放到我们布隆过系，就是一个很大的一个地图，放到对应的那个地图的位置上，把它标记为一啊，布洛过滤器刚开始初始化的时候呢，是全部为零的啊，全部为零的布隆过滤器有一个特点啊，它非常的长。对吧，哎，非常的长啊，这个特点呢，大家还是挺喜欢的啊，非常的长，它有多长呢？哎，一般来讲它能有10亿。各长度。啊，11个长哎，你不要看它11个长度会觉得它很占内存啊，其实并不是这样的，当然我们h base里面用不了这么长啊，在别的地方如果用到布鲁波器，它很有可能能达到11个长度啊，不要觉得11个长度呢会占用很多内存，因为它一个长度只占一个小B。
03:08
啊，一个小也就是一位啊一位，那你可以来数一下11个长度呢，大概占到位数的话，占多少兆啊12341234。对不对，11个长度，首先它要除以八，得到那个大B，对不对，咱们这个除八呀，哎，就假设它近似除以一个十，相当于去掉一个零嘛。对吧，好，这是去掉一个零，然后呢，三位为K对不对，在三位为兆对吧，所以呢，它大概是100多兆。看到没有，11个长度只占到100多兆，而这100多兆呢，可以存到磁盘里面啊，可以存到磁盘里面，11个长度只占100多兆，那我们HS里面呢，使用的要稍微小那么一点点，因为它需要存到内存里面，对不对，它能有个，哎千万位长度或者百万位长度，或者亿位的长度，我感觉呢，都是可以的啊，都是差不多的，对吧，它会自动的根据你文件里面数据的多少呢，进行一个设计啊进行一个设计，那这个算法呢，其实也非常简单，走一个哈希，走完哈希之后，比方说你1001这个UK，它是一个字符串，对不对，走完哈希之后得到的值是100万，那怎么办呢？哎，反正。
04:16
反正这个波动位系够长，我在100万的这个位置上给它画一个一就可以了，重新初始化的时候呢，这全都是零，对不对，这是第零位，这是第100万位个长度吧，在这边画一个一就可以了啊，画个一就可以了，那这样的话呢，就能标记这个对应哈希值的啊，这个ROOK啊，在这个文件里面啊，可能已经存在了啊，如果你有两个ROK，比方说我们刚才说的1001和8008，它的哈希值呢，都是100万，那没有办法，这就哈希碰撞了啊，哈希碰撞了波能过滤器，我们在使用的时候，你要允许它出现碰撞，它碰撞的几率呢，跟你的长度有关，那你越长嘛，你就越好。越长越好，它就越不容易碰撞，越短呢，它就越容易碰撞，当然你也可以走多个哈希算法，对吧。
05:05
反正你足够长嘛，你要是有1亿个长度的话呢，3000万给一个哈希算码，3000万给另一个哈算，3000万再给一个哈希算吧，你同时啊，一个1001走三套不同的哈希，三套不同的哈希呢，在对应的从零开始数到这个位置上呢，写三个一，用这三个一来表示这一个，OK，那它就不容易碰撞一点啊，这具体的情况呢，看你啊，看你怎么去进行一个操作啊，都是可以的，那我们这里呢，是能够使用不容过滤器的啊，因为它即使不准确，对读取数据呢，结果是没有影响的。啊，他不会出现错，呃，他不会出现这个，呃有但是没有读的情况，因为如果有的话，他一定是会标记那个一的啊，如果啊啊哈说没有的话，那绝对是没有的，哈希出错的点在于他认为有，实际上没有，但这个会不会到结果到影响到不会，这里面没有我们想要的UK1001，但是我们以为他有去读了，会不会造成影响，不会对不对，你只不过是读了白浪费时间，读完之后呢，发现没有吗？
06:08
对吧？啊，所以这里呢，不容关系也是一个很大的优化，如果这个文件里面就没有我们想要的rie的话，我们可以去不去读它就可以了啊好，那这是我们合取数据的时候啊，进行的一些优化手段，这个还是非常重要的，因为读啊，相对应在HP里面就会变慢啊，因为它写的时候是追加写嘛，在文件里面一直追加，咔咔咔一直写啊，那读的时候呢，你要读多个版本，那就比较费劲了啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之HBase2.x

（37/68）

11分38秒

10_shell命令_创建查看表格

410

4分22秒

11_shell命令_修改删除表格

370

9分48秒

12_shell命令_读写数据

360

7分15秒

13_shell命令_删除与版本介绍

370

12分17秒

14_API_单线程使用连接

360

10分57秒

15_API_多线程使用连接

330

6分57秒

16_API_获取admin

420

13分7秒

17_API_创建命名空间

340

6分46秒

18_API_多异常处理

350

9分46秒

19_API_判断表格是否存在

340

7分30秒

1_HBase课程简介

450

15分5秒

20_API_创建表格

350

7分27秒

21_API_表格创建问题解决

380

9分9秒

22_API_修改表格错误代码

360

8分40秒

23_API_修改表格修正

430

5分30秒

24_API_修改表格异常处理

320

7分22秒

25_API_删除表格

380

11分41秒

26_API_写入数据

380

11分5秒

27_API_读取数据

370

11分17秒

28_API_扫描数据

390

8分22秒

29_API_单列过滤扫描

370

3分34秒

2_理论概述_定义简介

400

4分22秒

30_API_整行过滤扫描

460

8分9秒

31_API_删除数据

420

11分53秒

32_底层原理_master架构

370

11分55秒

33_底层原理_master补充信息

410

7分12秒

34_底层原理_源码与进程

330

8分55秒

35_底层原理_regionServer架构

340

11分24秒

36_底层原理_写流程

490

5分20秒

37_底层原理_memStore刷写按照大小

340

8分12秒

38_底层原理_memStore刷写条件低水位线

440

4分10秒

39_底层原理_memStore刷写条件高水位线

410

6分4秒

3_理论概述_设计理念

340

5分53秒

40_底层原理_memStore刷写条件按照时间

380

8分23秒

41_底层原理_HFile的结构

360

7分9秒

42_底层原理_写流程

380

6分34秒

43_底层原理_合并数据优化

340

4分41秒

44_底层原理_文件合并

410

8分3秒

45_底层原理_小文件合并机制

350

10分32秒

46_底层原理_自定义分区

460

8分19秒

47_底层原理_系统分区

420

6分37秒

48_rowKey设计_基础方法

370

2分26秒

49_rowKey设计_需求介绍

290

11分13秒

4_理论概述_逻辑结构与存储结构

320

7分44秒

50_rowKey设计_常规实现

300

9分49秒

51_rowKey设计_组合实现

270

5分53秒

52_rowKey设计_添加预分区

430

8分15秒

53_rowKey设计_预分区优化

400

9分46秒

54_使用调优_参数调优

380

7分21秒

55_使用调优_jvm调优

530

9分10秒

56_使用调优_权威法则

400

5分27秒

57_整合Phoenix_简介

340

6分12秒

58_整合Phoenix_安装部署

440

3分5秒

59_整合Phoenix_连接使用

400

5分17秒

5_理论概述_数据模型

400

12分11秒

60_整合Phoenix_基础命令

380

5分28秒

61_整合Phoenix_视图映射和表映射

350

4分8秒

62_整合Phoenix_数字存储问题

330

11分2秒

63_整合Phoenix_jdbc连接编写

390

7分43秒

64_二级索引_全局索引

380

4分9秒

65_二级索引_包含索引

330

4分4秒

66_二级索引_本地索引

350

9分26秒

67_集成hive_使用场景

410

4分31秒

68_集成hive_分析数据

390

9分49秒

6_理论概述_基础架构

440

9分43秒

7_集群部署_安装框架

390

2分5秒

8_集群部署_启动服务&WEB页面

350

5分20秒

9_集群部署_部署高可用

350

43_底层原理_合并数据优化

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐