- 00:00 - 好,那接下来我们要把最终我们当前这个案例二整个这个需求给它完成了啊,也就是说要用到什么hdf single。对吧,H没问题吧,第一步来看一下,我们因为之前就说了,此时from呢要往HD写数据了,所以呢,它应该要持有它度过这个加号。就类似于你写代码的时候想往JBBCMY里边写数据,那你代码里边是不是应该有JDBC的一个连接驱动啊一样的吧,那这个时候呢,应该有这个内容,那他这个家包在这一块,我们已经给大家提供好了,但提供好了呢,有同学可能没问,那如果说我在公司当中遇到类似的这种问题,应该怎么解决?对吧,啊,那第一你官网上去找一下,第二。你可能连官网都不想找,直接就谷歌或者百度搜了吧,第三,连搜都懒得搜,你就什么都不做,你直接起让他干什么?让他报错,他报错会告诉你缺什么东西吧,你缺什么补什么不完了吗?对吧?啊,这个东西呢,你就不用担心他怎么来的啊,他怎么来的,他肯定有办法来能听懂这个放在哪啊。 
- 01:12 - 放在from的Li下啊,放在from的里下,OK,把这个加光的给它扔进来。啊,给它粘进来好,现在呢写A呢,它就会持有的加包了,因为你一启动它会加载立下所有的加包到它的一个环金面料里啊黄金面料里边,这是我们做的一个准备工作,第一部分,第二部分准备工作是应该要配置什么。写配置文件了是不是好写配置文件?CD的job里边我同样的再touch一个。叫file还是监控文件from到HDFS对吧?点。com.com好C回答。然后接下来我们还是同样的通过这个地方来干什么,打开一下这个文件,因为这个看的更清楚一点,是file这个ids看点开我是不是直接可以把它看成A,看成C,给它粘过来,然后把这个log给它删掉,然后往这里面填东西就行了。 
- 02:11 - 其他的我需要变吗?不需要吧,啊,因为这个地方监控这个文件呢,不变memory China,还有它绑定这些东西和实名,这个需要编码,不需要吧,啊也就这意思,好,然后我们要去找一下谁了。HDF来在这搜HDF什么。Think走还是同样的找到那个什么大标题,当然你可以在这去找吧,我们当时大家看到对吧,啊们还是希望搜一下走,诶这个就是它这个什么。大标题,好,然后往下走。这里面什么好多一个别名对吧?啊不用管我们直接看这个行吗。看它。关于HDFS这个东西干什么? 
- 03:00 - 还是蛮多的吧,啊还是蛮多的,那首先我们不管我们先关注什么。必须的,第一个绑定的China是不是已经写了类型,赶紧干什么拿过来叫HDFS对吧?哎,是不是写在这,好接下来你看到的有个什么东西叫x.pass诶这个东西是不是我们想应该也要配一下呀,对吧,因为那你要传到哪个路径,你再告诉我啊,啊传到哪个路径,那我们把它拿过来啊。看到C给它放在这吧,哎,Pass落地,等会呢,我们来写一下,说这个东西到底传到哪的问题,传到哪的问题,因为I2个think在生产环境当中相对来用的多一点,所以呢,这里面的东西呢,大家大家看一看啊,大家看一看,刚才em ec啊,更多的用在那个测试环境啊,所以呢,有的配置文件呢,你就自己看一看,就不在这看了,因为它在生长件中用的比较少啊,用的比较少啊第一个。 
- 04:01 - 这两个东西。文件的什么前缀后缀对吧?啊,你想这个文件叫什么名字,加一个前缀后缀,因为默认的它这个文件生成的名字是以时间戳来的时间啊,用当年的时间来的好,呃,然后这两个比较少用,接下来这几个这一堆啊,从这个开始。我看一下一直先这这是一组。爱是一个滚动,滚动大小,滚动一个靠。对吧,好第一个。你看这个。30代表30什么秒对吧,好第二个。 
- 05:03 - 这个size是多少啊,字节数对吧?好第三个是谁啊。Even count,好,那这个指的什么意思呢?它滚动要滚动一个什么当前的文件。啊,因为我们说了,他当时最后呢,生成的文件是按照。时间来的,也就是说这三个参数任意满足之后,它会新生成一个文件。能听明白这个意思,他会去新生成一个文件。新生成一个文件是这个意思啊好,这个呢,就是这个点。啊,三者任选其一,他说了如果配零的话。代表着不按当前这个属性值进行什么。滚动不是说零秒就滚动一次,那就疯了,对吧?啊,如果零的话,就是说我以后不按时间滚动了,时间走了多久跟我没关系,你只看什么。下面两个属性,如果说下面两个属性也都为零的话,那代表什么意思啊? 
- 06:05 - 就不滚动了,我所有的数据都写到同一个文件里边啊,这个东西呢,在生产环境当中,你要注意一下,一定是干什么配的,而且这个值啊,更多的我们要把它配成多少啊。就是那个块大小。能听懂,而且呢,一般的我们块大小,不是后面什么3344,好像是这个什么幺七几啊。要就是那个那个数字字节数,那个128兆字节数,一般正常情况下,我们把最后四位呢,把它置成比。只是领一个多一点,因为防止情况是这样的。它是这样的,它校验啊,当它超过了这个值的时候,它才就会动。那如果说你写的128兆,恰好有一个事件过来了。 
- 07:02 - 正好是不是超出了128兆,128.1兆。是不是存在这种情况对吧,那我们写一个什么127,假如说你这个值写的是127.5兆。对吧,你一个实践过来了,是不是有可能到127.7兆。哎,最后是不是也开始滚动了,那保证这个文件干什么。小于128兆吧,啊,因为刚好0.1兆,它是不是还要多存一个块啊。对吧,啊,那就等于多了一个块就不好,所以呢,这个值一般的在128兆,大家说的没错,但是呢,在生产环境当中,我们一般的还是比比128兆略小一点。略小一点,就保证我将来一个块不会超过什么,就一个文件不会超过128兆,因为你将来生成的一个文件恰好是128.1兆,它是不是存在的两个块啊。对吧,存储效率不高吧,因为你单独的一个块是不是多了一个元数据信息啊,对吧?啊,所以呢,就避免这种情况的一个出现,是这意思啊,尽量的大家在128兆左右啊,128兆左右,好,那还有一个问题,这个时间还有这个时间时间正常情况下一般是关闭的。 
- 08:11 - 除非你自己知道一个事件大概是多大,就是那个具体的一条数据来评估一下,在128兆左右也可以啊,一般的这个呢,给它关闭,这个值呢,会配一个。会这个,因为有可能会出现这种情况,就是。数据量呢,过来的数据太太快了。或者说太慢了。太慢的情况,你不是128兆才滚动吗?对吧?啊有可能呢,这个数据都隔天了。是不是有可能会隔天隔天还没到什么。128道它还是不滚动啊,你把两天的数据写到一块了,所以呢,我们也规定一个按时间滚动一下啊,两个条件能听懂啊,但是等会我们测试的时候啊,我这个值呢,就设置的小一点,甚至有可能我就写十秒,因为我要看效果嘛。对吧,如果说正常生长环境当中不会说十秒。 
- 09:03 - 十秒的话会产生什么大量的小文件了,是不是因为十秒滚动一个,十秒滚动一个,你十秒说写到128兆,这个得是一定体量的公司才能有这种数据吧,啊,十秒128的,每秒十几兆的,这也有啊,每秒钟设兆也有,但是对于正常公司来说,十秒设置的还比较少页啊,这个是我们所说的滚动文件,你要在生产环境当中,这个东西还要配的,因为防止出现什么。小文件嘛,哎防守因为它默认值30秒1024都是什么小文件,对吧?啊,你要知道一下好接下来。什么Bach size p大小一次刷写到HD一个,什么最大的一个大小啊,最大的大小当然还有时间控制的啊,不是说他非得到100个才会刷。假如说我等会测试的时候,我里面只有一个时间,他就不写了啊,还会写啊,也有时间触发的啊,有时间触发的OK,然后接下来其他东西我们找几个有用的啊嗯,刚才我们看到那个内容,然后接下来哎这个。 
- 10:04 - 啊,接下来比较配置的比较多的。这个地方又是什么滚动?上面是不是弱。来,这三个也是一个整体。也是一体的,也就是说要配的话,这三个都要配,第一个是force,如果说force的话,你下面两个怎么配都无所谓,因为它不是药了。他关了对吧,如果你把它改为什么。错。你把它改为处那么好了,接下来你就要配这两个东西了。好,第一个叫滚动的一个什么。值第二个叫滚动的单元,这两个是组合在一块用的,你可以随便配对吧,啊12345随便,那接下来你看这个单元。 
- 11:03 - 是秒还是分钟还是什么小时,哎,那有同学不理解了,上面又有滚动,下面又有滚动。注意上面这个地方滚动的是文件,下面呢滚动的是文件夹。滚动的文件夹,那有同学可能不理解了,不对呀,你这个地方。Pass不是写死了吗?怎么还得滚动文件夹呢?对吧,因为当前这个文件夹呀,我们可以不写啊,例如我们在这个地方配的,来稍微看一下这个内容。看这个文件夹怎么配的。YMD,然后百分号HMD什么东西年月日,然后这个是小时能听懂啊,这个文件夹也是可滚动的,当然如果说你这样的,这个不要。 
- 12:09 - 你配置的滚动也没用,因为滚动完了重新建一个还是自己的是一样的,你看不出来效果,那你懂啊,那正常情况下呢,我们之前说的你这个have点日志我们看。是不是一天一个文件啊,对吧,那对应的我们这个SDF上,我是不是也应该一天什么。滚动一个文件啊,哎,那我可以滚动文件一天不好控制对吧,一天放哪一个文件,这一个文件就太大了,是不是128兆就没用了,那我们可以用怎么的复制。用文件夹的一个方式来控制它,哎,你用文件夹的一个方式,A一天你这个地方你就不要怎么写了,不要写到小时了,对吧,直接写到年月日。好,那这个地方呢,另外一种跟我们另外一个地方又关联起来了,Have的分区表。我们前提过have的分区表是不是尽量的一天一个区,那这个时候如果你在HDFS上。 
- 13:07 - 按照一篇一个文件夹,那我把这个文件夹导到一个分区是不是很方便啊。对吧,都不用做ins色的这种插入的了,直接用漏命令写了一个文件夹,然后去漏了过去吧,啊这个是一套连下来的,因为在生产环境当中,生产的日志是按天滚动的,那我们在SDF上就要按天去干什么,存一个文件夹,同时在have表里边要干什么。按天去分区啊,这个呢,是生产环境当中一套流程下来的,当然你所有的东西,说我前面所有的东西,我写的一个日志文件里边可以这个S,我所有的都放在一个文件夹,放在一个文件可以还呢,我也不做分区,我也放在一个,就直接一张表,不是分区表也可以,但是你接下来使用的时候就不方便了,对吧?啊所以呢,我们一套流程是为了更方便了,来做这个事的啊,来做这事的,好,那我们继续往下走啊,还有一些其实这里边呢,基本能用到,其他的都无所谓了啊,那我们看这这里面还有一个就在于它啊。 
- 14:13 - 呃,还有一个属性,我们必须要配的就这个,其实这个非黑体,但是对于我们当前这个需求呢,必须要配。就用一下本地的时间中默认的是false,我们要给它改成处,主要原因在于来,因为我们等会写的这个地方是不是用到了时间啊,Force的话它不用时间,而我们当时看到了这种方式呢,它传递过来数据图里边有东西吗?投数据我们可以看一下。我们两个一个什么data k和这个EC是不是都是空的呀,它里面没有时间说,所以我们要加一个什么。把那个用本地的时间让它采用插里边用个拦截器,把那个时间桌给它加上,要不然你没有时间戳,你最后说按照时间去滚动,按照时间去生成文件夹,这可能吗。 
- 15:11 - 这不可能吧,啊,所以呢,要有时间说,对于这个内容呢,这个地方是我们必配的一个内容,虽然它不是非黑体的,对吧,它它是非黑体的,但是对于我们当前这个需求,你要注意它配一下,好让我们整体看一下我们所做的一个配置文件,一个信息,啊第一个声明没问题吧。啊,现在应该没问题了,而且呢,我们都是单个的,接下来是什么。Source source呢用的EAC,这里面就用到了大F,我们提过大F对吧,这里面she你用什么东西去解析无所谓,因为我们当前默认的就什么,但是际上啊,你加一下也无所谓啊,不加这个呢,不加也可以啊,加不加无所谓,好接下来是关于SDFC了,你看一下配的是我们刚才给大家介绍的那一些第一个路径。没问题吧,啊用的年月日加小时来了,好,接下来是他的一个。 
- 16:06 - 前缀接下来这块是否滚动文件夹这一我们是不是说了这一组要结合起来使用啊,你设置为触了,你要结合起来使用,那我们就不要说一分钟去创一个文件夹了吧,因为你这个地方注意这个地方是什么。小时,那这个地方我们干什么?小时对吧,哎,正好一个小时创建一个啊,这样更连贯起来啊,连贯起来其实这个呢,你不配也无所谓啊好,那接下来这个本地时间中我们就不聊了,已经聊过了,接下来具体的看这个东西是不是我也说过了。一默认是不是100个啊,1000个也行,这个就看你的容量嘛,对吧,啊容量那这个东西注意啊,我这之前提到一个点,就是说他不是说真的你事件到达1000个,他才去刷新一次。他还有时间,还有时间啊,当然一个也到了时间,他也会去刷新啊好,那接下来。 
- 17:05 - 压缩类型啊,压缩类型这个文件类型这个无所谓,后面我们我们会去启用压缩,在项目当中呢,我们会采用拉斯螺,因为snap我们是不是已经用过了。对吧,奈比那种压缩方式用过了,在后面呢,我们还要去学拉斯罗,因为我们说过这两种拉斯罗跟那个奈比两种用的是最多的,那我们接下来看它。这三个参数。对吧。60这个单位是多少?秒A2,哎,60秒它会滚动一个文件,然后这个是S,其实这个属性我们配在这跟我们就没关系了,因为我们等会测试数据不会到达什么。这么大啊,不会太大,更多的滚动都看什么60秒啊,看60秒好,那这样吧,60秒。我改成30秒可以了啊,因为更快一点,我们测试效果嘛,生产环境当中不要这样配啊,30秒60秒滚动一个,这个就太夸张了,对吧?好,然后滚动文件,什么与数量无关事件数,我们把它关掉,减零是不是关掉啊,就是你有多少个事件都不滚动啊,只要这两个条件没满足,那都不滚动啊,啊那你看这块是不是最后两位我给它改成零啊。 
- 18:15 - 啊,就是说你要越小一点,保证这个呢,最后不会超过什么128兆,如果说你写的是1342177,最后两位是多少啊。啊,忘了我也忘了,可以算一下来一百二八乘以204乘以204吧,对吧,就是这个值对吧?好,接下来这两个东西没问题吧。Memory和绑定啊和绑定,那我们把它整体给他拿过来。啊,整体给他拿过来,因为这里边所要涉及到的,或者说生长环境当中常用的一些属性,我们都要用啊都要用。直接给他干什么?换掉。啊,不断的过来。OK,保存啊保存,其实这个东西呢,我们跟因为上一次我们没用它吧,啊,我们尽量的跟上一次保持一样,这里面呢,唯一的有个改的就是它吧。 
- 19:04 - 我们这次叫什么了,L2的啊,叫A2啊,这个配置文件就搞定了,当然具体的每一个分件什么意思,这个也跟你说了啊,哪个PPT看一下啊,一个组件一个组件就看一下,定义什么内容呢,对吧。 
我来说两句