- 00:00 - 好,那接下来我们看一下的一个定义,到底什么东西是。啊,这个说了from呢,是劳公司开发的。克劳,这个应该还现在应该有点熟悉吧。有听过吗?哈,都把三大发行版本。阿帕奇的我们一直用的,然后呢,CDH的就是劳的对吧,还有一个呢。Homework。对吧,就是讲那个文档比较好的那个内容,对吧,但是呢,现在其实cloud公司跟沃公司已经干什么合并合并了啊已经合并了,好那是由这个公司开发的,但是呢,他已经提交给了阿巴奇。啊,就是cloudy开发了很多的一个工具,都提交了给了阿巴奇很多工具啊,呃,那这块呢,他既然提交给了阿帕提,所以他这个官方文档。就是这个内容吧,啊,这内容提前打开了,因为怕这个网速不好,提前打开了就点阿点啊这是官方的一个首页,官方的一个首页,那第一句话其实你就能看懂它from说了它是一个什么东西,他说是一个分布式的。 
- 01:18 - 高效的,高可用的。一个服务对吧?啊,针对于什么样的一个服务呢?收集聚合和移动也就传输吧,我们搜索传输对吧,传输诶这个地方大量的什么日志数据啊,人家都告诉你了,他是做这个什么日志数据收集传输的啊,我刚才说了,他能不能传那个什么图片啊等等这些东西不好意思传不了。传不了啊,不要最后做测试,因为之前有学员干事,呃,把那个什么PPT啊,然后想用去传一下,传不了啊报错,因为他说了他只能传一种什么,这是数据,也就类似于这种文本文件啊,文本文件的东西他可以传啊,读里边的数据是可以的,但是你那个什么资金流的一些东西啊,就包括我们所提到的那个。 
- 02:10 - 图片啊视频啊,你就不要往里扔了啊,当然你可以尝试一下对吧,反正他报错嘛,这也不是生产环境,无所谓的啊,无所谓的,他提供一个这样的一个内容。啊,提供了这样的一个内容啊,那我们要想一下他为什么要。我们为什么要有这个内容啊?对吧,什么这这个东西了解一下就行了,什么基于流式架构啊,灵活简单啊,到时候我们用的时候你就能体会到了啊,现在你体会不到,体会不到,因为我刚说了这个灵活简单,怎么灵活简单呢?对吧?啊得用第二个我们来看一下这个。为什么要用到这个?这么卡,每次非得如果说打开一个模板的话,好像就能快捷。是这样的,因为我们刚才所提到的,呃,生产环境的数据呢,更多的是来源于一个后台。 
- 03:03 - 还有是这个Python爬虫啊,爬虫就是爬虫,这个有的公司有啊,特别是什么新闻公司,新闻公司它的数据来源多。用的是爬虫技术来的,因为你能发现各大新闻平台上面的新闻都是什么都差不多对吧?啊,都很类似的啊,都互相爬的,其实也不可能说任何一家那个出新闻的平台,它有专门的那个。作者去写这些新闻的不可能,而且呢,你看到各大新闻都差不多对吧?啊,都差不多这个意思啊,然后还有在后台这个呢,是传统的公司。绝对有的啊,Java的一个后台日志啊,他一定会记录下来,关于它所有用户的一个行为,所有用户的一个行为,那这两种日志,无论是爬送过来的,还是Java后台的一个数据,它都是在本地文件系统。对吧,都是在本地文件系统,OK,那么这个时候问题来了,呃,正常情况下。你这个东西我们知道,加入后台的一个日志。 
- 04:02 - 它是不是实时产生的。动态往里面追加的对不对。没问题吧,好,就像我们所说的,你这个数据呢,没问题,你是过了一天之后,它会形成一个一天的文件夹,后面加了一个什么日期的一个后缀名,那我们可以用哈多点杠put等等这些东西给他干什么?给他上传上去吧,这个没有问题啊,这个没有问题,但是能想到这个问题,你是不是只有等这个一天结束之后才能上传。对吧,因为你那个put,你说先put一次,这个数据已经有了,然后他生成了一条数据,我又put一次,这个不靠谱吧。对吧,我们如果想用put这个命令,那有的人想我们写定时脚本对吧,那肯定定时脚本不可能说到了12点你定个闹钟是吧,起个床然后去铺一下,不可能那样干啊,定个那个,呃,我们所所说的康宝定时任务。啊,让他过了12点到12:10的时候,因为确保一个数据,因为我们之前说了数据有延迟嘛,他可能12点什么零五的时候过来一条前一天的数据是不是有可能啊对吧,那对于这个我们就12:10,或者有的公司呢,我12点半。 
- 05:13 - 开始找了一个数据。那总可以吧,对吧,12点半,那你数据肯定都写完了啊,肯定都写完了,延迟半个小时的数据呢,像这种数据我就算作第二天的数据不管了啊不管了OK,那那这种情况大家会发现有一个什么样的问题啊,如果说我们要等到第二天的时候再把这个数据去做上传。量很大。有同学提到了数据量大,其实数据量大呢不是问题,第1HDFS它的一个吞吐量比较高,第2HDFS它本来就是存储什么呢。大数据的啊,所以说数据量大这个倒不是问题,对,有同学提到了实时性就是这个问题。就是这个问题,因为我数据是实时产生的。 
- 06:02 - 对吧,是产生的,那这个时候你过了一天。才给我导过去,那既然你过了一天才能导过去,然后我还要产生分析,还有那个加载到什么have表里边,或者说用4SPA离线计算做分析,那这个时候到分析完应该到了早上了。对吧,到分析完好我头一天。我浏览了什么东西,到了第二天第三天的时候才去推荐,但是你现在发现是什么样的。你现在的一个推荐,就给你一个推荐。很有时效性吧,你刚浏览一个什么东西。立马就有了,而且甚至你在A平台刚浏览一个什么内容,到了B平台,他是不是给你推相关的东西。对吧,也就是说他不光采集自己的数据挺实时的,他采集人家的数据,因为人家数据也是互通的,对吧,很多平台呢,它数据其实是互通的,那这个时候呢,你想想看,我们如果说隔一天来去上传这个事情就不太靠谱了,所以呢,我们需要一个中间的组件来帮我们实时读取这个数据,实时的上传到HDFS。 
- 07:16 - 啊,上传到ids实时的来做这个事情啊是的,因为它是落到本地文件夹实时的写入的,那有的公司呢,他是这样的。把数据呢,写到某一个网络端口里边啊,你从端口里面拿数据,这个也是有可能的,就是说他会把很多的数据呢,呃,你到公司对接业务的时候,后台服务器会告诉你,诶,我这个数据是放在放在哪个文件夹的。他会告诉你啊,给你一个文档,或者说呢,我这个数据统一的都发到了一个端口,你要用的话,你自己去这个端口去获取啊,这是两种来源,但是呢,它这两个都可以。它既可以监控。文件夹里边的数据,而且呢,可以监控这种变化的数据,第二方面呢,他也能够获取网络端口传过来的数据,网络端口传过来数据这个意思啊,那这个数据到这儿来之后,我们可以采用我们想法是将这个数据要干什么。 
- 08:12 - 写到HDFS啊,卡夫卡呢,你先不用管,我们下一个方向去讲卡夫卡啊,讲卡夫卡实时流的,因为你写到HDFS更多的还是做这种离线分析啊,做这种离线分析OK,那我们现在就看这个DS,因为我们已经学过了,对吧,那我们要实时的传上去。就需要我们这个组件,当然这里边不仅限于组件,还有其他的框架可选择,只不过说呢使用的最广。那那种啊使用的最广,我们不可能说把所有的中间那个框架,包括H也一样。市面上这种分布式文件系统还有很多的,但是HDFS还是用的最广的,所以呢,我们讲课的过程当中呢,肯定是讲这种最广的啊,最广的就是它相当于做了一个什么。中间键啊,中间键实时的帮我们来做这个数据的一个传输,去做这个事。 
- 09:02 - 啊,那最主要的作用,这边提到最主要的作用,也就是说它有很多其他那个作用,就是读取本地文件系统的一个磁盘的数据,将数据实时的可以写到,最主要的就是干这个事。啊,这是我们所说的,他为什么要有这么一个东西啊,这个要理解一下啊,这是我们所说的这个整体的一个概念。 
我来说两句