写在前面: 博主是一名软件工程系大数据应用开发专业大二的学生,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,
写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新
。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/ 尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影
。我希望在最美的年华,做最好的自己
!
在上一篇博客中,博主已经为大家介绍了如何进行kylin的增量构建。在最后也讨论了增量构建会导致Segment越来越多,进而降低数据查询的效率。本篇博客,为大家带来的就是如何对Cube进行碎片化的管理
码字不易,先赞后看
日积月累,增量构建的Cube中的Segment越来越多,该Cube的查询性能也会越来越慢,因为需要在单点的查询引擎中完成越来越多的运行时聚合。为了保持查询性能:
上述案例,每天都会生成一个Segment,对应就是HBase中的一张表。增量构建的Cube每天都可能会有新的增量。这样的Cube中最终可能包含上百个Segment,这将会导致Kylin性能受到严重的影响
因此,有必要采取措施控制Cube中Segment的数量。
Kylin提供了一种简单的机制用于控制Cube中Segment的数量:合并Segments。在Web GUI中选中需要进行Segments合并的Cube。
操作步骤:
1、单击Action→Merge
2、选中需要合并的Segment,可以同时合并多个Segment,但是这些Segment必须是连续的
单击提交后系统会提交一个类型为“MERGE”的构建任务,它以选中的Segment中的数据作为输入,将这些Segment的数据合并封装成为一个新的Segment。新的Segment的起始时间为选中的最早的Segment的起始时间,它的结束时间为选中的最晚的Segment的结束时间。
待到运行完毕,我们可以发现Cube内部的Segment文件已经合并为一个
注意事项:
讲完了合并Segment,我们来谈谈如何删除Segment
同样的,我们也可以使用WebUI删除Cube的segment
操作步骤: 1、disable Cube
2、点击 delete Segment,删除指定的segment
如果使用Postman发送请求删除Segment
属性 | 值 |
---|---|
URL | http://node1:7070/kylin/api/cubes/{cubeName}/segs/{segmentName} |
请求方式 | DELETE |
手动维护Segment很繁琐,人工成本很高,Kylin中是可以支持自动合并Segment。
在Cube Designer的“Refresh Settings”的页面中有:
两个设置项可以用来帮助管理Segment碎片。这两项设置搭配使用这两项设置可以大大减少对Segment进行管理的麻烦。
达到了阈值就跳过,没有达到阈值就合并到这个阈值,没满足不合并。
尝试最大一级的时间阈值,例如:针对(7天、28天)层级的日志,先检查能否将连续的若干个Segment合并成为一个超过28天的大Segment。
这里为了方便大家理解,举一个例子
自动合并策略为:
首先设置阈值,可以使一个也可以使多个。
设置完Cube后,我们build进行构建,然后等待
运行完毕以后,生成一天的数据
接着我们提交下一个一天的数据(1014-1015)
待到构建完毕,我们可以发现新的Segment已经与之前的Segment合并了
若设置多层次的合并级别,最好是每个层次之间是整倍数关系
既然能自动合并,那肯定有办法自动删除,接下来我们就来唠唠
自动合并是将多个Segment合并为一个Segment,以达到清理碎片的目的。自动删除Segment则是及时清理不再使用的Segment。
在很多场景中,只会对过去一段时间内的数据进行查询,例如:
可以将Retention Threshold设置为365。每当有新的Segment状态变为READY的时候,系统会检查每一个Segment。如果它的结束时间距离最晚的一个Segment的结束时间已经大于等于“Retention Threshold”,那么这个Segment将被视为无需保留。系统会自动地从Cube中删除这个Segment。
本篇博客为大家介绍了如何进行Cube的碎片化管理,包括手动合并,删除,以及自动合并,删除。下一篇博客,将为大家介绍如何使用JDBC连接Kylin,敬请期待?
如果以上过程中出现了任何的纰漏错误,烦请大佬们指正?
受益的朋友或对大数据技术感兴趣的伙伴记得点赞关注支持一波?