文章/答案/技术大牛

发布

首页视频02_尚硅谷_Flume入门_概念

02_尚硅谷_Flume入门_概念

2022-12-022022-12-02 16:02:18播放35

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flume（2019版）/4.视频/02_尚硅谷_Flume入门_概念.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那接下来我们看一下的一个定义，到底什么东西是。啊，这个说了from呢，是劳公司开发的。克劳，这个应该还现在应该有点熟悉吧。有听过吗？哈，都把三大发行版本。阿帕奇的我们一直用的，然后呢，CDH的就是劳的对吧，还有一个呢。Homework。对吧，就是讲那个文档比较好的那个内容，对吧，但是呢，现在其实cloud公司跟沃公司已经干什么合并合并了啊已经合并了，好那是由这个公司开发的，但是呢，他已经提交给了阿巴奇。啊，就是cloudy开发了很多的一个工具，都提交了给了阿巴奇很多工具啊，呃，那这块呢，他既然提交给了阿帕提，所以他这个官方文档。就是这个内容吧，啊，这内容提前打开了，因为怕这个网速不好，提前打开了就点阿点啊这是官方的一个首页，官方的一个首页，那第一句话其实你就能看懂它from说了它是一个什么东西，他说是一个分布式的。
01:18
高效的，高可用的。一个服务对吧？啊，针对于什么样的一个服务呢？收集聚合和移动也就传输吧，我们搜索传输对吧，传输诶这个地方大量的什么日志数据啊，人家都告诉你了，他是做这个什么日志数据收集传输的啊，我刚才说了，他能不能传那个什么图片啊等等这些东西不好意思传不了。传不了啊，不要最后做测试，因为之前有学员干事，呃，把那个什么PPT啊，然后想用去传一下，传不了啊报错，因为他说了他只能传一种什么，这是数据，也就类似于这种文本文件啊，文本文件的东西他可以传啊，读里边的数据是可以的，但是你那个什么资金流的一些东西啊，就包括我们所提到的那个。
02:10
图片啊视频啊，你就不要往里扔了啊，当然你可以尝试一下对吧，反正他报错嘛，这也不是生产环境，无所谓的啊，无所谓的，他提供一个这样的一个内容。啊，提供了这样的一个内容啊，那我们要想一下他为什么要。我们为什么要有这个内容啊？对吧，什么这这个东西了解一下就行了，什么基于流式架构啊，灵活简单啊，到时候我们用的时候你就能体会到了啊，现在你体会不到，体会不到，因为我刚说了这个灵活简单，怎么灵活简单呢？对吧？啊得用第二个我们来看一下这个。为什么要用到这个？这么卡，每次非得如果说打开一个模板的话，好像就能快捷。是这样的，因为我们刚才所提到的，呃，生产环境的数据呢，更多的是来源于一个后台。
03:03
还有是这个Python爬虫啊，爬虫就是爬虫，这个有的公司有啊，特别是什么新闻公司，新闻公司它的数据来源多。用的是爬虫技术来的，因为你能发现各大新闻平台上面的新闻都是什么都差不多对吧？啊，都很类似的啊，都互相爬的，其实也不可能说任何一家那个出新闻的平台，它有专门的那个。作者去写这些新闻的不可能，而且呢，你看到各大新闻都差不多对吧？啊，都差不多这个意思啊，然后还有在后台这个呢，是传统的公司。绝对有的啊，Java的一个后台日志啊，他一定会记录下来，关于它所有用户的一个行为，所有用户的一个行为，那这两种日志，无论是爬送过来的，还是Java后台的一个数据，它都是在本地文件系统。对吧，都是在本地文件系统，OK，那么这个时候问题来了，呃，正常情况下。你这个东西我们知道，加入后台的一个日志。
04:02
它是不是实时产生的。动态往里面追加的对不对。没问题吧，好，就像我们所说的，你这个数据呢，没问题，你是过了一天之后，它会形成一个一天的文件夹，后面加了一个什么日期的一个后缀名，那我们可以用哈多点杠put等等这些东西给他干什么？给他上传上去吧，这个没有问题啊，这个没有问题，但是能想到这个问题，你是不是只有等这个一天结束之后才能上传。对吧，因为你那个put，你说先put一次，这个数据已经有了，然后他生成了一条数据，我又put一次，这个不靠谱吧。对吧，我们如果想用put这个命令，那有的人想我们写定时脚本对吧，那肯定定时脚本不可能说到了12点你定个闹钟是吧，起个床然后去铺一下，不可能那样干啊，定个那个，呃，我们所所说的康宝定时任务。啊，让他过了12点到12:10的时候，因为确保一个数据，因为我们之前说了数据有延迟嘛，他可能12点什么零五的时候过来一条前一天的数据是不是有可能啊对吧，那对于这个我们就12:10，或者有的公司呢，我12点半。
05:13
开始找了一个数据。那总可以吧，对吧，12点半，那你数据肯定都写完了啊，肯定都写完了，延迟半个小时的数据呢，像这种数据我就算作第二天的数据不管了啊不管了OK，那那这种情况大家会发现有一个什么样的问题啊，如果说我们要等到第二天的时候再把这个数据去做上传。量很大。有同学提到了数据量大，其实数据量大呢不是问题，第1HDFS它的一个吞吐量比较高，第2HDFS它本来就是存储什么呢。大数据的啊，所以说数据量大这个倒不是问题，对，有同学提到了实时性就是这个问题。就是这个问题，因为我数据是实时产生的。
06:02
对吧，是产生的，那这个时候你过了一天。才给我导过去，那既然你过了一天才能导过去，然后我还要产生分析，还有那个加载到什么have表里边，或者说用4SPA离线计算做分析，那这个时候到分析完应该到了早上了。对吧，到分析完好我头一天。我浏览了什么东西，到了第二天第三天的时候才去推荐，但是你现在发现是什么样的。你现在的一个推荐，就给你一个推荐。很有时效性吧，你刚浏览一个什么东西。立马就有了，而且甚至你在A平台刚浏览一个什么内容，到了B平台，他是不是给你推相关的东西。对吧，也就是说他不光采集自己的数据挺实时的，他采集人家的数据，因为人家数据也是互通的，对吧，很多平台呢，它数据其实是互通的，那这个时候呢，你想想看，我们如果说隔一天来去上传这个事情就不太靠谱了，所以呢，我们需要一个中间的组件来帮我们实时读取这个数据，实时的上传到HDFS。
07:16
啊，上传到ids实时的来做这个事情啊是的，因为它是落到本地文件夹实时的写入的，那有的公司呢，他是这样的。把数据呢，写到某一个网络端口里边啊，你从端口里面拿数据，这个也是有可能的，就是说他会把很多的数据呢，呃，你到公司对接业务的时候，后台服务器会告诉你，诶，我这个数据是放在放在哪个文件夹的。他会告诉你啊，给你一个文档，或者说呢，我这个数据统一的都发到了一个端口，你要用的话，你自己去这个端口去获取啊，这是两种来源，但是呢，它这两个都可以。它既可以监控。文件夹里边的数据，而且呢，可以监控这种变化的数据，第二方面呢，他也能够获取网络端口传过来的数据，网络端口传过来数据这个意思啊，那这个数据到这儿来之后，我们可以采用我们想法是将这个数据要干什么。
08:12
写到HDFS啊，卡夫卡呢，你先不用管，我们下一个方向去讲卡夫卡啊，讲卡夫卡实时流的，因为你写到HDFS更多的还是做这种离线分析啊，做这种离线分析OK，那我们现在就看这个DS，因为我们已经学过了，对吧，那我们要实时的传上去。就需要我们这个组件，当然这里边不仅限于组件，还有其他的框架可选择，只不过说呢使用的最广。那那种啊使用的最广，我们不可能说把所有的中间那个框架，包括H也一样。市面上这种分布式文件系统还有很多的，但是HDFS还是用的最广的，所以呢，我们讲课的过程当中呢，肯定是讲这种最广的啊，最广的就是它相当于做了一个什么。中间键啊，中间键实时的帮我们来做这个数据的一个传输，去做这个事。
09:02
啊，那最主要的作用，这边提到最主要的作用，也就是说它有很多其他那个作用，就是读取本地文件系统的一个磁盘的数据，将数据实时的可以写到，最主要的就是干这个事。啊，这是我们所说的，他为什么要有这么一个东西啊，这个要理解一下啊，这是我们所说的这个整体的一个概念。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flume（2019版）

（2/43）

6分36秒

01_尚硅谷_Flume入门_课程介绍

460

9分28秒

02_尚硅谷_Flume入门_概念

350

8分49秒

03_尚硅谷_Flume入门_基础架构

290

18分34秒

04_尚硅谷_Flume入门_组件介绍

330

6分23秒

05_尚硅谷_Flume入门_安装

340

21分57秒

06_尚硅谷_Flume案例_官方案例（配置）

310

8分11秒

07_尚硅谷_Flume案例_官方案例（测试）

340

4分24秒

08_尚硅谷_Flume案例_监控本地变化文件（需求分析）

330

6分53秒

09_尚硅谷_Flume案例_监控本地变化文件（案例一配置文件）

320

4分11秒

10_尚硅谷_Flume案例_监控本地变化文件（案例一测试）

390

19分19秒

11_尚硅谷_Flume案例_监控本地变化文件（案例二配置文件）

360

3分12秒

12_尚硅谷_Flume案例_监控本地变化文件（案例二测试）

380

11分28秒

13_尚硅谷_Flume案例_监控本地文件夹（配置文件）

290

12分22秒

14_尚硅谷_Flume案例_监控本地文件夹（案例测试）

430

14分55秒

15_尚硅谷_Flume案例_断点续传文件（配置文件）

360

7分12秒

16_尚硅谷_Flume案例_断点续传文件（案例测试）

360

11分17秒

17_尚硅谷_Flume高级_事务性

350

23分11秒

18_尚硅谷_Flume高级_传输详细流程

460

13分9秒

19_尚硅谷_Flume高级_拓扑结构

370

24分12秒

20_尚硅谷_Flume高级_回顾

340

7分3秒

21_尚硅谷_Flume高级_Channel选择器副本机制（需求分析）

330

18分35秒

22_尚硅谷_Flume高级_Channel选择器副本机制（配置文件）

340

8分27秒

23_尚硅谷_Flume高级_Channel选择器副本机制（案例测试）

290

7分35秒

24_尚硅谷_Flume高级_Sink组故障转移（需求分析）

370

11分27秒

25_尚硅谷_Flume高级_Sink组故障转移（案例测试）

420

5分37秒

26_尚硅谷_Flume高级_Sink组负载均衡（配置&测试）

290

9分17秒

27_尚硅谷_Flume高级_聚合组（需求分析）

360

8分22秒

28_尚硅谷_Flume高级_聚合组（配置文件）

400

8分36秒

29_尚硅谷_Flume高级_聚合组（案例测试）

390

14分12秒

30_尚硅谷_Flume高级_自定义拦截器（需求分析）

370

18分31秒

31_尚硅谷_Flume高级_自定义拦截器（代码实现）

340

15分17秒

32_尚硅谷_Flume高级_自定义拦截器（配置文件）

380

3分59秒

33_尚硅谷_Flume高级_自定义拦截器（案例测试）

290

14分55秒

34_尚硅谷_Flume高级_自定义Source（需求分析）

290

19分17秒

35_尚硅谷_Flume高级_自定义Source（代码实现）

350

6分42秒

36_尚硅谷_Flume高级_自定义Source（案例测试）

410

23分22秒

37_尚硅谷_Flume高级_回顾

380

12分33秒

38_尚硅谷_Flume高级_自定义Sink（需求分析）

360

13分22秒

39_尚硅谷_Flume高级_自定义Sink（代码实现）

400

22分7秒

40_尚硅谷_Flume高级_自定义Sink（打包测试）

420

14分50秒

41_尚硅谷_Flume监控_Ganglia安装

400

12分46秒

42_尚硅谷_Flume监控_Ganglia测试

410

12分13秒

43_尚硅谷_Flume_面试题

370

02_尚硅谷_Flume入门_概念

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐