00:00
好,我们刚才啊,呃感觉像,因为我们插入的是insert in into这么几条固定的数据,咱们还体会不到flink使用流式,诶我们的一般的场景用flink是不是用流处理啊,对吧?那比如说我们的数据源是个卡夫卡,那我们要将卡夫卡的数据写入,忽底怎么做呢?那我们是不是将卡夫卡映射成为呃,Flink的一张表对吧?然后将护理表映射为另外一张flink表。那我们是不是应该直接做insert into表二对吧?Select from表一,这样的话是不是对于咱们用flink来讲,是不是只要执行这么一个语句,那卡夫卡源源不断的会有生产者发送数据过来,那flink就源源不断的去消费,源源不断的消费,源源不断的插入,这不就是一个流市场景嘛,对吧?那现在为了简单啊。
01:02
我这边就用一个什么flink自带的数据生成器,而且呢,它是什么源源不断的生成,那我就指定为每一秒一秒生成一条,也就是说一秒一条要插入,一秒一条插入,一秒一条插入,那我们来观察和看一下啊,这是建的一张数据生成器的表,第二一个呢,是建一个忽底表,那我再建一张T2啊,那大家注意他们,你要插入的话,那最好字段要对应的上啊,字段要对应的上。嗯。好,还是MO2,而且大家看到我并没有指定什么,没有指定组件啊,那其实这个跟Spark当中一样,如果组件没有指定,它默认就是用的UUID啊,你不指定它就是UID啊,那把这两张表什么呃,建一下来粘贴好so tables。那现在就是要查询ST插入T2对吧,那接下来就简单了,我们直接嗯,Insert into t2,然后呢,Select新from t啊不是T啊ST好提交。
02:17
好,作业已经成功提交了,对吧?So has been successful是吧?刷新。那你看这里就是一个什么,呃,插入。那么如果大家对这个昼夜名字不舒服的话,那其实我可以给你搜一下啊,啊,Flink circle,呃,Job name。嗯,有一个参数啊,随便找啊是。呃,好像是pipeline name吧,我试一下啊,然后我把刚才这个做一会再试吧。嗯,参数名不知道对不对啊。
03:01
我确认一下啊,好像就是拍内。回头我确认完我写到文档里啊,让大家更用起来更舒服一点好,行了,现在应该已经在不断的插入了,你看这个时候这个作业就不会说什么finish了,因为我们数据源是无界流,它会源源不断的插入。呃,大家看啊,有一个S,然后呢,这接下来是who底模块了,一个bucket s啊,然后一个stream writeer啊流逝写,然后呢。Comp compassion的计划好执行compassion,再往下就是think对吧?提交,那么大家注意它这个compassion的交可要依赖于什么?Checkpoint啊,要依赖于checkpoint,那你在这里可以看到。好,那么接下来我们现在显示模式已经是TABLE0了,对吧,那我直接查就好了,现在的新from t2。
04:05
缩小一点。没有这么快查出来啊,那我们先来瞅一眼HDFS呗。好。嗯,诶,我路径没写错吧。我路径估计写的不一样啊,我看一下TP d test。哦,我写成蝴迪test了,对吧,那还是蝴dlink吧,没事,路径路径这个无所谓啊,那我们就到新路径看呗,啊敲错了啊,蝴d test,呃,T2好,那大家可以看到现在是不是都有什么,呃,点log。那我们看到这边搜狗客户端查询的结果,它并不是无界的,大家看到它只返回了98条结果,为什么呢。
05:01
大家还记得咱们的查询方式吧,查询类型是不是,第一种是什么?快照查询对不对?快照就是我们查询那个时候它的全量数据是什么样,这个时候就查出来,它是一个有界的结果,对吧?虽然我们插入现在是一直持续的一直查,但我们查是在这个时刻查了一下,那这个时刻是查到了98条数据这么多啊。那呃,那后续你能不能说诶,我实时的查询它的变更呢,实时查询它的增量可以,那个我们后面会介绍啊,我们会介绍一个叫流毒啊,Flink跟户体集成是支持流毒的方式的啊。啊,所以大家要明白这个为什么只有这样子啊。是一个呃,有借的结果集啊。
我来说两句