00:00
那么了解忽地的,咱们再来聊一聊咱们用户地可以用来做什么事情啊,也就是说我们能够落地的一些使用场景啊,那简单的咱们就总结了这么几个啊,第一个是可以进实时的写入啊,进实时。那么可以减少咱们一些碎片化工具的使用。可以通过CDC工具增量的导入咱们关系型数据库的数据,像MYSQL这种对吧?关系型数据库那还可以呢,咱们前面也讲了自动管理小文件啊,那它可以限制小文件的大小跟数量,也就是说咱们可以设一些参数啊,呃,通过这些参数来控制文件的数量,控制文件的大小,这个可以很灵活的来配置。另外一个就是进实时的分析啊,为什么说进实时呢?呃,因为咱们正常来讲因忽底的话,如果你想做到那种毫秒级的响应,毫秒级出结果,毫秒级的延迟,或者说是很短的秒,比如说几秒钟之内五秒。
01:05
三秒五秒这样子啊,那可能实现是可以实现,但是可能没有那么尽如人意,更多的来讲,咱们能达到这个分钟级的这种延迟啊,已经非常啊理想了,也能满足满足咱们大部分的一个要求了。相对于这些秒级的存储,就时序数据库啊,对吧,这种是时序数据库,它会更加的节省资源啊,这也是从性能延迟,还有一个呃,资源方面的一个衡量啊,我咱们肯定是这种更合适的,没必要追求极致对吧。提供分钟级的时效性啊,支持更高效的插曲,我们说了,之所以支撑到分钟性能更好呢,是因为这样会更高效啊。还有一点就护理作为一个依赖,它非常的清亮,这句话怎么理解呢?哎,大家想想,咱们用一些比如就就以亥服为例吧。
02:08
T,咱们要部署它,咱们以人工,呃,就手工部署为例,你首先是不是要有一个安装包。编译好的安装包,这个安装包咱们是不是要上传服务器。上传服务器之后,咱们是不是进行一个解压对吧,解压完之后是不是修改它的配置文件,修改完之后呢,是不是去启动啊,Hi相关的服务,像hi的那个原数据服务,或者have serve two这些服务啊,也就是说它是需要部署需要单独启动的一个东西,对不对啊,那作为忽底它需要这样吗?不需要,你只需要什么呢?编译完的护底相关的,比如说我举个例子,你要跟flink集成,你只需要什么呢?将你编译好了flink忽底这么一个架包,这只是一个架包,你把它放到flink的class pass,简单来讲就是放到flink的一代路径之后呢,你用FNK就能去操作护体表了,很简单吧。另外呢,比如说你用的是Spark引擎也可以,你只需要将编译完的这个sparkdi的这个架包,一个架包也是,一个架包也是。
03:21
是放到Spark的依赖路径就可以了,那么你启动一个Spark就能够去呃读写固体表啊,去查询固体表,那同样的道理,像pstal啊啊也一样的啊,都是通过一个架包的方式作为一个依赖,你把它放到对应的引擎当中就可以了啊,非常的清亮啊,还有呢,增量排徊nine。当然这里区分的是到达时间跟事件时间,如果熟悉flink或者熟悉流逝处理场景下的数据乱序问题啊,就时间语义呗。
04:00
那其实它也是区分这两个东西,可以处理一些延迟的数据,也就是说对乱区有一定的支撑吧,啊另外呢,更短的调度间隔,减少端到端的延迟,对吧,那也就是说其实还说了这个事儿,咱们可以达到一通过增量达到一个分钟级的啊时效性。作为一个增量管道来处理啊,就不不间断的一直在增量的处理,你可以流失的,也可以短周期的调度啊。还有一个就是增量的导出。我们可以替代部分卡不卡的场景,数据导出到在线的服务存储,那么增量导出对吧?区别于你每一次的全量导出,也就是说你看增量,增量实就咱们提炼这么几个场景来讲,几个关键词是什么呢?实时,实时这个是写分析,就是读呗,读出来再进一步的,呃,你要做成分析都可以,对吧,那不管读还是写都能做到进实时对吧,也就分钟题啊,这是咱们的一个场景,第二个场景呢,就是做增量的。
05:09
不管你是从数据进来还是读出来做处理分析啊,得到一个结果,或者是往其他地方去写啊,入也好出也好,都是分钟级的。啊,或者说增量的方式啊,也是分钟级,这就是咱们使用的一些场景啊。
我来说两句