00:00
那还有其他的一些小细节是什么呢?就是这个表参数什么意思呢?咱们通常建表最后会加一个这个吧,诶大家之前建表加没加,应该加了吧。肯定加了,之前的基础文档里面咱们是不是有介绍表演型啊,什么会去虫的表演,Mo tree合并术,还有什么聚合型的合并数,建表语句最后都会加一个这个东西,它是什么呢?所引need,说白了这个事儿你在企业里面用肯定会加的。不然我提它干嘛啊,那它默认是多大呀,八幺九二一般不建议调整。除非你数据量特别特别大。多大算大呢?大家注意官方的DEMO都是按多少起算的一条,那你能比他大吗?没有你就别想了呗,是吧?还有一个东西,之前也讲过,是不是有个TTL,大家注意为什么要讲这个,什么叫TTL是不是过期时间量?
01:06
对吧。那么这个东西意义在哪里呢?我说的是对咱们实际开发,实际应用企业里面的意义啊,大家注意呃,包括h base是不是也支持TD flink的状态,是不是也可以ttr在咱们的业务上数据肯定要有过期时间的。是不是?那么现在目前使用最广泛的TT场景是什么?推荐或者说算法?就做成什么事呢?呃,就是这是算法,算法开发人员,那他是不是得先拿到数据才去做一些训练啊。那这些数据谁来提供他们吗?那他们提供的话,他们自己弄的话,他们是不是还得做etr,还是不是得像大家一样把这个框架给熟悉啊,然后还会碰到各种问题去调优解决啊。
02:01
那你想想,那对他们要求是不是有点高啊?所以这个时候应该一般是交给数据开发,也就大数据开发相关人员,对吧,你要把数据做好,而且他们要求的会是什么,实时的,大部分是实时,而且很多算法有什么近似相似度的,这种他要求的数据是最近三天或者最近七天,我永远要最近三天的数据,多的我不要。他算法需要的数据是这样,那你想想我们是不是可以很简单,他最开始他也不知道怎么搞对吧,你就提出这个有点不好办了啊,最终那问你能不能实现,你说可以啊,我想想办法对吧,然后呢,周期多久?他说一周给你能不能搞定。啊,应该勉强可以吧,其实你一小时就搞定啊,不五分钟就搞定了,你建表的时候加上什么ttr就行了嘛,对不对,大家就ttr在以前很多时候Java开发这种是自己实现了,就判断时间,然后到点了我自己去删除嘛,对不对啊,所以他们就觉得TT可能不太好写,因为你还有很多各种什么临界条件的判断啊这啊那的,呃,那你下Li t t是不是一个获取配置,然后设一下就行了。
03:23
那那H贝斯也有TDR,那可里格house也有TDR,所以虽然它不是一个很复杂的语法,但是对咱们业务实际用法特别有用啊,那么如果未来大家工作真的涉及到你,就往这方面想一想啊,想一想。1.2。那电网表也是可以改的al table嘛,对吧派是不是也是out table去修改一些配置啊,大家记住要改东西,先想想al能不能改就行了。啊。这语法就不过多介绍,那都是基础部分的啊,这是一个表参数啊,给大家提到两个事儿,一个索引力度,一个就是PDR时间,看你业务场景啊,那还有一个就写入跟删除优化这一块主要是什么呢?
04:13
你正常写,正常刷,当然没毛病,但如果你是高频率的写。那可能,而且被子顶不太住啊,顶不太住,那后面参数咱们就能介绍到,你先简单瞅一个啊。还有一个参数叫最大并行的一个查询数,也就是说最大并发处理的什么请求数。大家注意,这个是每秒钟默认是多少,100。不算高对吧,那如果你太频繁他肯定受不了了,对吧,你太快啊,所以我们尽量不要执行单条,大家注意单条你不要在实时场景时一条我插一次,还记得咱们是项目里面怎么用的吗?
05:02
不管什么实现方式,是不是一个核心思想长P呀,对不对,大家注意你在实际应用里面,比如说flink,你写my circle也好,写h base也好,是不是都会做一个什么攒P,然后再去写入,就像你小时候攒零花钱,为了买一把玩具手枪,你是不是攒两年的零花钱,然后就够了,然后买了一把,然后玩了五分钟被没收了,对吧啊。没玩过对吧,你们年纪太不是一个年代了是吧?你们都不玩那玩意儿是吧。这就长P吗?那你天天每天五分钟找你找你父母要一块钱那一天。就能要多少钱,那你想得美,你看他打不打你就完了,对吧?我刚才不刚给你过一块吗?你还要这才刚过五分钟对吧,人家受不了啊。呃,写入的话最好是每秒二到三次就够了。
06:04
大家注意会有的同学会觉得每秒二到三次,我一秒钟都是写不到一次,嗯,没事,那你想过一个事没有flink的话,你是不是有进行度啊。那每个病情度是不是发起一次写入啊,你假设一秒写一次,你病情都100,那你是不是一秒钟就写了100次了。是不是这个道理对吧,所以你要这么来考虑啊。每秒钟平均就是二到三次比较合适,每次操作你不要写一条十条呢。你存个攒个一万十万的都行,一到10万都行,好吧,这个不仅仅是说写可号,写h base,同样啊,写my circle也一样的。咱们只要是实时,一定要考虑存储系统的一个压力,特别是数据库。它的并发数啊。这才是一名。有经验的一些开发啊,而且你未来架构设计也得考虑到这些问题啊。
07:03
那你可能会遇到一些报错,一个是too many pass,如果是老版本呢,可能不太好整,但是有些新版,咱们目前版本都支持有一个预写日志,它可以提高写入性能,其实就是什么找批,如果还不行呢,怎么办?现在大家应该会调了。如果写入过快报了,类似的这个错,Too many pass。怎么办?这个这个是默认开启的,咱不用管,那你。怎么样,降低你的写入频率就行了呗。啊,降低写入频率,那可能还会报什么错。这错误一会儿大家就能看到,我其他也可以演示出来啊。操作超过内存限制吧。有点像OM吧,就你本次查询的使用内存量已经超了,但是我这边报错可能报的就是3.32,为啥呢?因为我的虚拟机内存就那么大,不好意思。
08:09
诶大家想想咱们呃窗肯定有耗设置过,像其他框架一样设置说JVM对内存多大设过吗?没有吧,但是往往他每次报错使用的内存量是不是特别大呀,可能大家没碰到一会碰到,为什么呢?它默认是呃不需要说我一定要给多大内存占用,而是查询之后它才去占用内存,那默认就是有一个限制是多大呀,十个G。不超过十个G就都能用。都能用啊行,那一会咱们聊到参数再去看啊,这是写入跟删除的一个问题,说白了不要太频繁,不要太频繁,过犹不及。
我来说两句