文章/答案/技术大牛

发布

首页视频03-尚硅谷-Flume-概念

03-尚硅谷-Flume-概念

2022-12-022022-12-02 16:02:18播放41

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flume1.9（2021版）/视频/03-尚硅谷-Flume-概念.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那接下来呢，我们看一下说我们的一个概述，首先一个定义啊，呃定义呢，它是这样，在其实就是官网上，这它也是最早是由这个cloud劳Y公司开发的，但是也交给了阿巴奇啊去维护的，所以说我们学的框架绝大部分都是阿帕奇的。哎，这个网速很愁啊，这么慢吗？行，那我们就不看那个官方文档了，我们对着这个来说一下啊，其实最早的时候我们刚才说了是科卫公开发的，但是他现在已经交给了华企了，对吧？啊，提供了一个高可用高可靠的。分布式。啊，分布式，其实它的分布式呢，跟我们之前所学习的哈度这个分分布式还不一样，它这个就是说将多台机器的任务呢，给它串起来了，到时候我们再聊这个事情啊，是有区别的，不是说搭集群啊，他不需要去搭一个什么样的一个集群，说配置去启动什么东西，他不需要启动后台进直接执行任务就好了，你要想采集什么东西，就单独的对这个采集任务呢，去执行一下，开启一个进程就好了，然后呢，他做的是海量日志采集，注意啊，聚合传输的一个系统，更多的应用面呢，是将本地文件上传到SDS。
01:28
啊，一般做这个事情的，但是另外注意一下，他是做日志采集的，呃，之前有同学呢，就经常采集的时候呢，往里面扔一个PPT啊，往里面扔一个图片，它就会报错，它识别不了啊，它只能识别这种类似于这种文本文件啊，文本文件它是可以采集的，但是你要是图片PPT，类似于这样的音频视频不行啊，你不要你可以去试一下，你也可以说我去监控诶一个目录里边，我再往里边扔这个视频音频，你看一下它报错，这个任务就会报错啊，它不识别的，所以说这个就说的很清楚了，他是日志采集的啊。呃，基于首先所谓的流失架构，就是说它是动态采集的，你我们想的是这个文件生成了之后，我们拿来上传，我不是为用put对吧？R from呢，是迷网日志里边动态写数据，它动态的去获取的，就是你写一条，它上传一条，写一条上传一条。
02:19
它这样的，也就是说from这个框架呢，以后我们在做Spark做或者link做流式处理的时候，还可以用得到它，因为它是动态采集的，能懂这意思吧，不像的，如果用的去采集的话，你能做流失处理肯定不行了，对吧？啊是这样的意思啊，我看下这个官网打开了，其实刚才我们所说的就是第一句话对吧？啊，分布式的高可高高可用的一个服务啊，这个服务是为了干什么事呢？收集聚合和移动什么大量的一个log data啊，日志数据，对吧？啊，日志数据它不是说数据啊，注意所以说呢，你不要往里边音频啊视频啊，你也可以测一下，当然啊，好，这是我们的内容，其实架构也在这啊，等会呢，我们再去聊这个事情，好，然后接下来我们想一想，为什么要用这个输对吧，其实刚才已经说清楚了这个事情啊。
03:19
呃，我们一般的数据呢，来自于这个爬虫数据啊，或者说来自于这个Java后台日志啊，就是Java系统的，就是说京东淘宝这样的一个平台，对吧，开发系统它会将数据呢写到什么。服务器的本地磁盘，但是我们所有的学习的框架，分析框架啊，它用的系统呢，绝大部分都是hfs啊，IDFS，目前市面上用的最多的一个分布式文件系统啊，当然它不是唯一的啊，它还有几个还是很多的，包括亚马逊的啊，有同学可能看到S3协议开头的啊，亚马逊呢，它也是一个分布式文件系统啊，比较多，但是目前来说生产环境当中用最多的还是FDFS用的最多的，所以说我们就讲主流的，那这个数据呢，我们需要给它上传到哪了，当然还有网络端口数据啊，上传到HDFS或者说其他的框架里边。
04:12
啊，它下游也不光可以对接这个HDFS，所以主流的应用啊是这个就中间呢，加一个什么啊，当然呢，他还能够接收，就是说无非你看啊，起到了一个什么作用啊，这是数据源，这是数据目的地传输的，对吧，做这个事情的，那他的数据源不光有本地文件，还可有端口，还可有很多其他的。它的数据源比较多，当然这后面我们是不是叫数据目的地啊，除了ID之外，它还有很多其他的。啊，类似于这样的东西啊，当然最主流的我们的应用在生产环境当中，还是将本地文件干什么，上传到HDFS好，那还有一个问题啊，那本地文件系统里面的文件上传到IDFS，我是不是可以用po的，那为什么还要用这个from呢？实时对实时的，它是动态采集的，对吧？如果说你不做实时，就是每天分析的数据呢，都是对前一天的数据，我完全可以不用什么，不用输录我的数据生成好了之后，写个命令给它put上去，是不是也可以啊，上传到S，但是由于我们后期呢，还有这个实时的业务啊，我们可以用动态的采集，就来一条采集一条，来一条采集一条啊是这样的一个操作。
05:30
对吧，所以呢，他就充当了一个中间的一个角色啊，它可以对接源头数据源，对接数据目的地啊，是这样东西，典型的应用呢，就是说这个啊，主要就突出一个什么实时读取啊，它实时读取的就来一条或上传一条，对吧，然后呢，可以读取本地文件，然后这个是最主流的应用啊，当然还有其他的很多应用啊，这是我们说的它的一个概念，以及为什么要用这个啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flume1.9（2021版）

（3/42）

4分14秒

01-尚硅谷-Flume-课程介绍

430

5分26秒

02-尚硅谷-Flume-学习任务

380

5分56秒

03-尚硅谷-Flume-概念

410

8分30秒

04-尚硅谷-Flume-架构

480

6分23秒

05-尚硅谷-Flume-安装

440

3分49秒

06-尚硅谷-Flume官网案例-需求说明

420

11分26秒

07-尚硅谷-Flume官网案例 -配置信息

400

4分51秒

08-尚硅谷-Flume官网案例-案例测试

440

19分53秒

09-尚硅谷-Flume监控本地文件上传HDFS-配置信息

440

8分19秒

10-尚硅谷-Flume监控本地文件上传HDFS-案例测试

410

16分36秒

11-尚硅谷-Flume监控目录中新文件-配置&测试

500

8分47秒

12-尚硅谷-Flume动态监控多目录多文件-需求说明&配置信息

380

13分7秒

13-尚硅谷-Flume动态监控多目录多文件-测试&问题提出

390

19分6秒

14-尚硅谷-Flume动态监控多目录多文件-修改源码

470

4分48秒

15-尚硅谷-Flume进阶-事务

370

13分10秒

16-尚硅谷-Flume进阶-架构原理

450

10分20秒

17-尚硅谷-Flume进阶-拓扑结构

390

11分31秒

18-尚硅谷-Flume-课程回顾

390

6分30秒

19-尚硅谷-Flume-课程回顾2

440

8分3秒

20-尚硅谷-Flume副本机制channel选择器-需求分析

390

11分59秒

21-尚硅谷-Flume副本机制channel选择器-配置信息

400

7分51秒

22-尚硅谷-Flume副本机制channel选择器-案例测试

430

5分35秒

23-尚硅谷-Flume故障转移案例-需求分析

430

10分23秒

24-尚硅谷-Flume故障转移案例-案例实操

360

19分27秒

25-尚硅谷-Flume负载均衡案例-案例实操

360

6分43秒

26-尚硅谷-Flume聚合案例-需求分析

380

9分17秒

27-尚硅谷-Flume聚合案例-案例实操

400

5分24秒

28-尚硅谷-Flume自定义拦截器-需求分析

300

5分6秒

29-尚硅谷-Flume自定义拦截器-多路复用选择器介绍）

430

13分27秒

30-尚硅谷-Flume自定义拦截器-编码

450

6分41秒

31-尚硅谷-Flume自定义拦截器-打包&配置信息

460

5分58秒

32-尚硅谷-Flume自定义拦截器-案例测试

380

13分16秒

33-尚硅谷-Flume自定义Source-需求分析

410

15分58秒

34-尚硅谷-Flume自定义Source-代码编写

430

12分4秒

35-尚硅谷-Flume自定义Source-打包测试

400

14分18秒

36-尚硅谷-Flume自定义Sink-代码编写

460

7分7秒

37-尚硅谷-Flume自定义Sink-打包测试

320

25分27秒

38-尚硅谷-Flume-事务源码

380

20分59秒

39-尚硅谷-Flume监控-Ganglia安装&配置

410

9分40秒

40-尚硅谷-Flume监控-Ganglia启动

440

9分54秒

41-尚硅谷-Flume监控-Ganglia使用

420

1分13秒

42-尚硅谷-Flume监控-测试WindowsNet8IP成功）

420

03-尚硅谷-Flume-概念

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐