- 00:00 - 好,那接下来我们来看一下啊,这个当中这个source我们刚才提到了有本地文件对吧?还有那个什么端口啊,这个think呢,有HDFS有卡不卡,那我们稍微的去了解一下它有哪些啊,其中有一些呢,是生产环境当中常用的,我们呢会有专门的案例介绍,那我们先从总体上来看一下啊,就是说如果后期你要怎么找对吧?这些东西,假如说你在公司当中,我们课堂上有一个组件没讲,那你需要看一下官方有没有提供这个内容,那在哪呢?来点进来这有一个什么。Documentation它的一个文档啊,点开。就盖上。用户指南对吧,还有一个。开发者指南,也就是说我们刚才提到了可以自定义think,自定义source,自定义很多的一个组件,对吧,那自定义的这个写代码的需要开发者指南。啊,那你要是简单的用它呢,用那个用户指南就够了,而且用户指南写的是心相系的啊,因为我们用的是1.7啊,1.9呢,它也出的时间不长,出的时间不档,那我们还是,呃,为了安全起见,我们还是看1.7的文档,直接上面改一下1.7就行,刚才不是1.9吗?对吧,把九改成七就够了啊,这样就更好一点啊,同样的他也提到了一个点。 
- 01:14 - 啊,然后呢,你看一下往下看啊。1.7这个里边呢,什么setup啊等等这些东西你不用管啊,因为我们后面要去说还有配置信息对吧?来我们要找一下这个地方提到了什么。From,这是一个大标题吧?这个下面的指标题都是它是什么。组件来看一下它有哪些东西,你看这有多少。很多吧,啊所以呢,刚才也提到了生产环境当中,其实你自定义的时候呢,其实比较少啊,因为人家官方提供的呢,就有很多了,那这里面呢,会有几个,第一个是阿波罗。这个东西稍微关注一下,因为后期无论是做项目还是在生产环境当中一定会用到。 
- 02:05 - 是一定会用到的一个内容啊,他是干什么事呢,因为我们说了这个东西。采集数据。啊,第二方面呢,因为我们有可能它有它因为它存在单点故障,我们希望这个数据呢,再来一个什么。也就是说from对接from的时候啊,我们希望多层的时候,这个时候就会用到。阿芙罗啊,它是一个轻量级的RBC的一个调框架,RBC的一个通讯框架,轻量级的RBC框架,因为咱们很多都转行过来,所以说对RBC一个东西啊,呃,就不想多聊,但是做过开发的应该知道,远程通信的一个框架,对吧?啊,可以传输这种数据的,它是两个之间进行通信的。两个form之间进行通信的后期呢,呃,或者生产环件当中,我们都会用到一个内容啊,这个很少用,然后还有一个eec,我们会讲的第一个案例就是它。EXE什么意思? 
- 03:01 - 执行,他这是干什么呢?它监控的圆怎么做呢?它是用一个命令行来做监控的。他就执行一个命令啊,命令行,在命令行里边,我们是不是有一个叫。杠F,他要杠F可以干什么事啊,实时的获取结尾的动态变化的数据,对吧?他要干FOK,那我们就可以用这个asec source来做这个事啊,做这个事OK,下面还有一些啊,我们圈一些这个spring directory,你看名字它就是干什么。目录相关的对吧?啊,跟目录相关的还有这个叫。Tell,我们刚才看到了直接跳电,它可以监控什么呢?多个目录里边动态变化的数据啊,这个东西呢,也是用的非常多的啊,频率用的非常高啊,监控本地文件基本上就用它。 
- 04:10 - 基本上问他。好之后我们看到还有这个什么。卡夫卡的。他也可以,不光可以将数据写到卡普卡,他可以从卡卡读。啊,是这意思,当然我们可以从本地文件系统读数据,同样的也可以将数据写回到本地文件系统,因为这个就看你数据来源的一个问题,之前我们聊了,最终呢,我们分析完的数据是不是要写到买。那买收产生的业务数据,我们能不能导到什么?大数据集群里边来做分析呢。对吧,就是看你是想把数据从哪导到哪个问题了,所以呢,两个都提供了啊,但是呢,一定不会说我从这个文件系统,呃,本地我非得导到另外一个文件夹非得。这个不用你直接拷贝一下不就完了吗?对吧?啊,你不要就说我用的是文件系统的一个sources,然后用的一个本地文件系统的一个。 
- 05:05 - 当然这可以这样用啊,可以这样用,但是生产环境当中肯定不会这样用啊,啊你要知道一下,因为他提供了这种组件,肯定可以这样用啊,啊这个是跳电,然后还有卡不卡,然后还有这个。这个有的公司也会去用的,叫什么,那那cat有人知道什么东西吗。难得我猫啊,就是就这样翻译一下是吗?那CAD呢,它也是零六系统上的一个通信工具啊,它叫工具,注意刚才我提到了那个阿波罗叫什么RBC通信框架。对吧,不一样,注意名词不一样啊,还有一个通讯工具,就是大家看到有很多什么黑客聊天啊,两个黑窗口对吧?啊,聊来聊去的啊,它有一个北迷叫什么呢?呃,瑞士军刀。来家看到瑞士军刀,瑞士军刀有什么特点啊,短,最重要的短小精悍,对吧,不是为什么会笑啊,想到了自己的吗?那家看了啊,这是一个网络的一个通信工具啊,通讯工具,他就是负责什么呢?来监控那个端口的。 
- 06:22 - 因为网络的一个整个一个通信是通过什么端口,我们之前不提到了,From这个内容呢,它可以读本地文件,系统也可以读什么网络端口的数据吧,啊,那这几个呢,我们勾出来,其他的还有一些什么htb so法,这个都是比较少用的,我们把这个常用的给大家勾一下啊,其实文档当中也给你标红的啊,可以看文档,你不用在这儿非得去记下阿芙罗。ECC其实生产境当用的少,但是呢,测试环境当中它用的比较多的啊,测试环境,然后接下来这个。生产环境啊,大量的使用的啊,还有那这两个东西吧。从卡卡读出去和网络端口读出去这几个内容还是用的比较多的啊,其他的用的相对来说比较少啊,无论是我们自己做测试啊,还是说生长环境啊,用的相对都要少一点啊,也就是说我们讲课过程当中啊,肯定是围绕这个重点来讲,因为这个组件太多了,我们不可能把所有的东西讲到了,但是你要知道哎,在哪找,只是我们S,那同样的我们可以快速的看一下什么。 
- 07:24 - 因看这边有什么I,因为我们知道C是将数据写到另外一个地方吧,I不用聊写到。写到have里面对吧。日志打印到控制台,我们一般做测试用的更多一点啊,日志文件啊,也就是说,但是你也可以给他配置一个文件,说打印到某一个日志文件里边,那你还不如用那个呃文件本地文件的那个S啊,更多的这个内容呢,呃用的也比较多,因为测试含义。因为打打印到控制台是不是更方便了,我们追踪这个数据啊,你写到HDFS,你还要把HDF文件下下来,然后去看嘛,麻烦一点啊,这个呢,测试环境好,接下来这个东西也是用的比较多的。 
- 08:11 - 刚才我们看到了有一个阿什么,我们说那个东西是干什么用的。跟对接的时候对吧,好,那跟对接是不是两个,也就是说两层,假如说这个一层这二层,那你说这个阿波罗的source应该在哪。在第一个输出。我说的是阿波罗的一个S。阿波罗那个圆。在这。阿芙罗的S在这,那我既然是S,你第一层是不是也要背一个组件跟我对接啊,所以你用的是阿芙罗的sing,哎,Sing是将数据写到下一个地方吗?那S是从之外的东西读过来嘛,哎,他们两个对接的,如果说你要想多个数母连接的话,一定会用到这两个啊,而且是同时用的,能听懂啊,同时用的啊,这是阿罗,还有其他的,还有这个。 
- 09:20 - 这什么文件的吧,啊文件的还有呢。哎,这杯子这个呢,到时候我们后面要学,现在你不知道啊,还有这个。卡不卡的啊,卡不卡的,除了这个之外,你看到了什么卡用户的,对吧,同样的这个地方其实也有什么。就是说自定义吧,啊,用户自定义你想怎么来怎么来,好,那接下来我们看一下还有一个声音什么。真。那你看到这中间有哪些针呢?Memory放在内存的,哎,放大内存进行缓冲的对吧,但是它既然放在内存,它有什么特点啊。 
- 10:01 - 坏,但是呢,不是特别的安全,是不是啊,不是特别安全,那还有一个JDBC前呢。那就中间缓存,我用什么来做缓存,JPC也用等等这些数据库吧,啊还有一个卡夫卡,我可以用卡夫卡做缓存,那同样的还有这个地方。文件,我用本地文件系统做缓存也可以吧?I,但是它的特点呢,跟Mary恰好相反。它会慢一些,因为你读写磁盘肯肯定跟读写内存要差很多吧,对吧,但是呢。安全一些吧,因为你慢拆断,假如说断电机器到了没了吧,你拆拆到里面东西就恢复不了了吧,因为没了在内存的,但是我如果是看到了。是不是能恢复啊,啊就这意思啊,就是说他们俩各自的一个特点啊,各自一个特点,当然同样的它还可以干什么。自定义对吧,啊自定义,那除了之外,大家还看到这个from chinas,这还有一个from China select。 
- 11:07 - China选择器这个呢,也是我们高阶当中要聊的一个点啊,要聊的一个点,到时候我们再说还有关于from s的一个什么。进场。啊,进行一个东西,因为它这个地方啊。S,诶,它可以这样配。这一层呢,叫S。这一层呢叫China,这一层呢叫C啊,也就是说它配置过程可以这样。啊,所以呢,它会有China选择器,因为你从SOS读过来说率到底是要到C1C2还是C3,还是三个人一人一份,同样的啊都可以背,那同样的这个数据到了我C3参照三里边,我到底是要给。C1还是要给啊,不是给K1还是要给K2C对吧?啊K1K2这个呢,我也可以决定。 
- 12:06 - 啊,我也可以决定就这意思啊,因为它这个整个的一个组织架构啊,比较复杂一点啊,我们现在看到的好像是第一对一的一个关系,它当中呢可以对多个,那在高阶段当中呢,我们就能看到这个第一个关于这个China选择器的一个内容,第二个关于think这个地方的process进程,对吧,其实叫think组。三个组就是多个这个啊,共同的组成的一个内容,那我们现在核心的你要关心的是三个内容,对吧,就是我们所提到的那个什么。South China和啊这三个内容。那接下来我们看一下,其实在文档当中就已经介绍了,第一个A呢,是我们说的结,咱们进程啊,然后呢,主要有三个部分组成,就是source China,然后接下来是source这一块,对吧,他是负责接收数据的一个组件。A的当中这个组件,然后重要的我也给你勾了阿罗的对吧?C在家看到这还有一个DR啊,DR用的也比较多的啊,这个也给你标红了,那S对吧,控制台做测试的,我说了阿罗S跟阿罗要做对接的对吧,他们俩对对接的还有文件H啊,还有什么solo啊等等这些东西,这是一个什么? 
- 13:23 - 有人知道吗?是一个搜索引擎,是一个搜索引擎啊,然后还有一个China对吧,我们重点关注的是memory China和。卡普卡产的啊,这三个东西啊,这三个东西其实在用的比较多的啊,比较多的,那另外呢,也对比了一下这个memory和什么。Fair China啊和fair是这意思啊,也就是说memory China呢,它呢不需要关心数据丢失的情况,假如说这个数据如果说它丢一点无所谓,我就是追求什么速度啊,追求效率对吧,那这个时候我们就采用什么。Ma China,但是反过来,如果说你觉得这个数据比较重要啊,觉得这个东西呢不能丢,速度呢稍微可以慢一点,那我们就选用什么fair China,对吧?啊,它本身呃,Channel具体的就缓冲数据的,也就是说放在内存缓存还是放在磁盘去做这个缓冲区啊,也就是这个意思,哎,就是意思,还有另外一点就是这个file China,它肯定比你这个缓存的数据量要能大很多。 
- 14:26 - 对吧,当然它都可以配置啊,但是你觉得一个memory跟一个fair China。迈瑞山的我们顶多配两个G啊,等这些东西配几个G就差不多了吧,但是赛尔山呢,如果生产环境当中一般都是T起步的,对吧?啊T起步的,所以呢,它中间的一个缓可缓存的数据量也是不一样的,也是不一样的啊,这是我们整体上把握一下这三者啊,这些常用的东西呢,你现在能记住更好,记不住没关系,我们关于这个标红的都有具体的案例。都有具体案例,我们会用,用多了就好了啊,用多了就好了,所以你能记得住记,但是现在呢。 
- 15:05 - 稍等一下,但现在呢,我们要记住的是这个。三个组件,你要记得住,一定要知道这三个组件。可以多选啊,我刚才说了可以多选,或是说你可以选择某一个或者说某一些嘛,大家还是共同一样的,不是提到这个点吗?对吧?啊提到这个点了,而且这个东西呢,现在也不用着急背,因为后面我们都会这案例,因为就像我上课提到的这个东西后面肯定有案例啊,肯定案例,因为生产环境当中会用的。生产环境当中用的,而且我们整个一个收购的呢,在你生产环境当中去用,完全足够的啊,就关于这个内容,好,那接下来其实还有一点关于它当中传输,其实这块来看这句话。它是以时间的形式从数据源头送至目的地的,也就是说在整个A的这个jam当中。 
- 16:00 - 他当然这个数据肯定会封装成一个对象对象的,然后说序列化传输对吧?啊,假如说这这种类型,它是通过这个事件的形式啊,这个事件是什么东西呢?就是一个类。就是一个类啊,就是一个呃类的对象,因为具体的数据肯定是一个对象了啊,时间一个对象,那这个对象由什么东西构成的呢?这块可以提供了啊,是even的一个一个的事件,也就是说数据我是south读进来的,读进来之后接下来我S是不是要写给China。这没问题吧,啊,写给China,但是在写给China之前,不好意思,我要对你这个数据进行封装,封装成事件,就类似于整个在那个数据流当中传输的什么物理层啊,读到读到数据之后,还要给它加一些包头等等这些东西啊,它也一样的,这个A着的呢,有两大东西组成,一个是hi的,一个是包。一个是包点包Y呢,就是我们要的那个什么数据内容啊,那这个hi的头信息。 
- 17:00 - 给数据内容增加了一些什么,原数据信息啊,或者一些解释信息,就这些内容。啊,有很多的一个source呢,默认可以不添加的啊,可以不添加里边内容,但是我们到后期我们会自定义source,我们能完全的看到,诶如何在这个source里边去封装even读数,去读完之后把even给它封装完成啊是这个意思啊,它有两部分组成,更重要了是哪一部分成。Body对吧,Body它是呢,我们所说的真正的数据。啊,真正的数据,而这个handle呢,只是给这个内容加了一些什么属性信息啊,附加信息,你要不要,其实都还好都还好,看你这个数据相怎的处理啊,是这意思啊,它整个的过程当中呢,是通过这个A的进行传输的啊,因为它是三个组件,三个组件是三个类啊三个类,因为我们看自定义嘛啊,它是三个类,三个类整个的它运行起来之后呢,是里边的一个一个的线程。 
- 18:00 - 啊,线程上面呢,去运行整个的一个,因为聊到代码层面的时候,他肯定都是一段一段的代码,对吧,我们看到一段一段代码,然后呢,它无非就是在里边把数据读过来啊,你通过本地分系统啊,假如说通过一个流给它读进来。读到你的内存当中,然后把它变成什么。Even的一个对象,然后传输这个对象就做这个事啊,做这个事了,OK,那这个呢,是我们所讲的整个什么source China think以及。Even啊,详细组件的一个内容。 
我来说两句