温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,接下来呢,我们再看一下这个fair put切片机制啊,也相当于是一个总结,把这个文档过一下哈,那第一个呢,是切片规制,呃,切片机制啊,首先呢,简单的按照文件的内容长度进行切片,这没毛病吧,然后呢,切片大小呢,默认是块大小啊,切片时不考虑呃,数据集整体,而是逐个针对每一个文件单独切片,这句话已经说了很多遍了哈,就是每一个文件单独切片,这是fire input mind默认的一个特点,那当然后续呢,可以根据我们的需求对它进行一个修改。啊,就说我们不按照文件,因为我可以按照,因为你比如说你要你要是1KB。1KB大小,我就要开几个map test,那你再来一个1KB我又开几个一个map test,那这个非常耗支援啊,因为我卖每开一个map test,我至少要占默认情况下是1G内存。还要一个CPU,那这个资源消耗啊,是非常庞大的啊,那正常情况下呢,我们不会这样处理哈,我们会把这个多个文件合并到一起,统一进行一个处理,比如说典型的combine text input啊这种方式啊,行,先了解一下啊,先把它学了,然后输入数据啊,如果是两个文件,比如说FAIR1 fair2,一个三百二一个,呃,十兆,那怎么切呢?金克发input化的切片,它先这样。
01:11
第一个先零到一百二十八一片,然后128~256再来一片啊,那剩下的这个256到这个三百二再来一片,对吧,那第一个文件呢,就切割成对应的三片,那剩下的这一个文件呢,单独切,哎,十兆。是这个意思啊。嗯,这是其实上面已经讲过了啊,只不过给大家过一下文档。那原码中计算切片的公式,这个公式呢,反复说,那当然是它非常重要,我们才是多会这个多次这个给大家说啊,那这里面第一个值呢,就是这个默认值是一,那另一个值啊,你收不到,其实是能够设置的,因为它默认值是它,我们可以想调整这个块大小,我就可以调它,比如说把这个块大小调小嘛,往小了调,哎,那就设它啊,那在生产环境下,一般我们不会把它调小啊,把它调大的可能性有的,因为这个块大小取决于啥了,还记得不就取决于你那个传输速度啊啊,如果你这个磁盘速度特别快啊,比如说固态硬盘,那么就可以设置成256兆啊,那当然你切片也得配套的升级为256兆啊都可以啊,就调它就行啊,往大了调。
02:14
因为默认情况下,切片大小等于块大小啊,切片大小的设置,如果说切片,嗯,切片最大值把它参数调的比它小,哎,你说它呢,比它比这个设置的小,那只会切片变小,那想调大的话调谁想调大的话呢,你就调这个调迷你正好反过来调大调迷你调小呢调MAS。后面呢,还有一个获取切片的API相关的一个操作哈,那这个呢,我们后面在写代码的时候会用到,提前给大家说一下,呃,如果你想获取切片相关信息的话呢,我们就用这个input split啊,点get pass get name就能获取到这个相关这个文件名称,然后呢,这里面还有一个contact.get input split获取切片相关信息,诶后面如果我们要进行自定义啊,或者相关的呃,跟切片相关的一些信息的时候啊,我们会用到啊,提前有个印象就行了,用到的时候我们还会再给大家详细的去说明哈。
03:10
这再就是这些啊,核心的重点内容哈。
我来说两句