文章/答案/技术大牛

发布

首页视频02_尚硅谷_Flume_定义.avi

02_尚硅谷_Flume_定义.avi原创

2023-01-072023-01-07 00:35:13播放349

点赞0 收藏 0

尚硅谷大数据学科全套教程（总185.88GB）/尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flume/3.视频.zip/4.视频/02_尚硅谷_Flume_定义.avi

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们讲第一章啊，第一章呢是概述啊，概述这里面呢，呃，像这个定义这一块啊，属于了解内容这个组成这一块是。点啊，包括下面这个内部原理啊，这也是重点拓普这一块啊，属于这个选择性了解，因为后面我们在做案例的时候，还会再来说这个科普情况啊，所以说这个一三属于了解，二是呢属于重点掌握啊。好，我们来看一下的定义。呢，是这个公司提供的一个高可用的，高可靠的。分布式的海量日志。采集聚合传输系统。呢，基于这个流式框架，灵活简单。那这么长一段话啊，我一个一个来拆解啊，第一个公司熟不熟。是不是这个发行版本当中，第一个是阿帕奇，第二个是不是就是啊，第三个是。
01:02
那这个10.7版呢，新债目前来说啊，在企业中大量使用。呃，在后面的课程当中，你班我会专门加一天课做什么呢？CDH版拍头管。啊，包括卡普卡整个韩集群的搭建。就是课程已经研发完了啊，资料已经整完了。呃，如果说你正常的搭一个派多肌群啊，还有这个汉尔肌群，弗鲁姆肌群，卡法肌群，你可能需要一天的时间，或者最快的话，像个巢的手术。这半条对吧啊。但是呢，如果你换成世界几百。一个小时之内轻松搞定啊。而且所有东西。只需要你去恭谢。啊可配置，包括你像你这个呃，高可用对吧，高考你费了半年，你写了一个代码啊，那个来勾一下啊，选择高可用自动启动。
02:01
而且呢，全部都是图形化界面，监控每一个组件的运行情况。高度自动化，那如果那同学老师说了，那你为什么上来不讲？上次讲完世界之后。让你要真正的让你去答一娃花题完了。所以说咱们讲的肯定讲了一个最原始的啊，原理性的东西，但是他用的时候呢，我们可能用的。呃，快速一些的。啊。这同时呢，一定要知道啊，提供了一个高可用的，高可靠的。啊，高可用高号大家都知道是吧，后面呢，我们看他原内部框架的时候，你就知道他怎么高可用高号了啊。还有呢，就是分布式的海量日志采集。啊，就说读取日志，这监控的一个日志。采他的，然后呢，聚合啊对，它里面如果是多台日志的话，最终它是要聚合到一台活动卡。
03:01
这里面这这个都是啊，都可以是，但是母还可以有一个二级的一个聚合，包括我后面的酵母当中，就是采用这种二级层架构啊，后面会给你详细的分析这个架构的原理啊。行，这是聚合，还有呢，就是传输数据，那就是将日志里的数据啊，比如说导入到HDFS，或者是卡不卡啊等等其他地方，包括像本地落盘啊。你就存到这个本地里面去。啊，等等都可以啊。那呢，是基于这个牛市架构零点。那刘氏架构。什么是流啊？像水流的一样啊。连续不断是吧，哎，那你说他读这个日志啊，也是一行一行连续不断啊，直到的读没。啊，那大家日志这边呢，也是动态往里增加了啊，那就讲将来就诶进来出去进来出去啊。好，那么来看一下为什么要选择。
04:04
行，从开发中啊，举几个场景啊，呃，这个场景呢是比较多的啊，在大部分开发中都这么使用的，比如说数据的来源。网络爬虫。对吧，都清楚了，哎，扒取别人的数据，比如说最最常见的爬爬什么呢？京东的数据。东哥出事了是吧？摊上大事了。而且我看了一个帖子，写的还挺那啥的。陈，你干的？行，那这个是爬京通的啊，爬那个淘宝的啊，淘宝等等啊，嗯，爬完出去之后，然后进入到我们这个大数据系统。那有没有想过，哎，爬完这个数据之后，我就。这个数据要干嘛呀。首先这个挪过来是不是要清洗啊，啊清洗清洗是啥意思。
05:01
还不错啊，是不是过去在这个张数据啊，啊，过滤到这种脏数据啊，啊为什么这个问你这个呢，因为在这个后面的开发中啊。尤其相声啊。有些同学都学完了毕业了，说这个数据心理是啥，不知道，那你觉得让我崩溃了啊，必须得知道啊，数据理把账户就过掉，那给大家分分享一个企业的这个指标。那么多少的张数据算是正常的呢？比如说你有1亿条的数据。那有多少张数据算正常的？100条扣了一条，1000条扣了一条，1万条扣了一条。啊，我给你分享个指标啊，这个是前两天呃。上周跟阿里的一个技术工程师啊交流，他那边就是阿里那边给出的这个技术参数是这样的。一万分之一。啊，一万分之一算比较正常，但是呢，这个程序员就要看一看了啊，如果你要十万分之一那就不好了，但是你要是说你一千分之一那就废了，那一一定是他前期爬虫的数据。
06:09
啊，有问题了，或者说他这个规则制定的啊，有点问题啊。等等啊，所以说基本上这个均值就是万分之一。这这个其他公司不一定一样，但是至少这个案例还比较权威的。那哥们是。陈佳老师现在已经不写代码。呃，这是他从这一块来的数据，那这一块来的数据哪呢？就是Java的后台日志，这个说法是吧？啊，之前我们学的web还是。学的超级超级溜啊学的。那这块呢，就是呃，它产生的这个日志数据啊，等等这些日志数据，那我们肯定要读过来嘛。那这些数据呢，不管你是爬出过来的啊，还是这个Java后台数据，最终都要存到这个本地磁盘的文件夹啊，文件夹里面的文件对吧？啊，像这个有一些数据可以存到MYSQL有一些数据也是存到。
07:14
日志文件。我们这里主要分析的什么呢？日志文件的有。买这个那个后面再说。行，那总之呢，是落到这个服务器的磁盘上啊，你说套开的这个本地。那么还有一种数据来源是哪呢？网络端口啊，这个呢，方便我们一一会测试啊，我只是跟你说明，就是外边来的数据这个样式啊。有很多种对吧，你说这个邵园。原数据嘛啊，原数据五花八门，多种多样。有广告端口的，有加后台的，有拍摄爬上数据的啊等等这么多。那不管你多少，最终我反正我是要求把你们这些数据都给我送到as。
08:04
对吧，这是我们目的地吧，啊，目的就干这事。那现在就来了，那你中间这个桥梁怎么把B倒过来。我想啊，有什么办法把这数据弄过来。卡卡，你们不熟的话先不考虑啊。讲怎么把数据导到键盘上？哎，对啊，能说到裤子的，我觉得你这个年薪20可以了。对，月薪20，是年轻就哭了。啊，这个破的这个是肯定可以停的啊，可以写这个加va代码对吧，我们这个上传下载，这不是白教你的啊，这是真正的在学中要用的啊，而且这个代码呢，其实你可以用S脚本去啊。去调这个。脚本啊，调了个加班啊，包括你在这个本身这个程序里面自己去写也没有问题，对吧？啊定时的去读。
09:00
这边是get get数据读过来，读过来，然后put上去，写上去。都可以，包括前两天我跟一个老学员，呃。回来吧，请回来吧，分享下相应的一个基础经验啊。呃，咱们这边肯定这地方中间用的是啊。他们企业当中用了一个非常奇葩，呃，老旧的技术，什么技术呢？老狠了，老狠了，这个当时我就备了。啊，这太狠了，再用IP啊，然后把这数据直接干到is上啊。到了本地也要上班啊。这是真实的场景，发现了真实场景这么干的，当时我都诧异了，我说怎么能这么干呢？完全用啊，打过来啊不用。但但是啊，真正的专业版的啊，这个有点跑偏了啊，专业版是什么。啊，因为是专门是干这个的，而且它内部啊，像这个内部啊，有大量这个事务，事务是干啥的。
10:01
就原始性啊，啊，一是这个药物失踪，药物失败啊等等，包括它内部还有相应的缓存。这是专业的优秀的这个赚这个事情的框架啊，这种专业的你不用你自己整这个那种山寨的啊，他根本就不是主要干这个的是吧。行，那这个是用专业的。来做这件事情，也就是说你前提你可以有任何类型的是文件的啊，是端口号的啊，其实还有这个像这个呃，文件夹啊，还有这个相一些命令啊等等这些不管你是啥。他都有香的，So。你说上诉人输入员啊，那这边呢，叫最终输出的目的地。他叫think。到这边是到到卡卡还可以到本地。还可以新得到控制台。等等N多个出口啊，都用它，我只需要改变它的配置就OK了。
11:03
写代码有一个特点叫什么？结果。可配置是吧啊。类似这种是高质量代码是吧，啊灵活的，我只要修改简单几个参数，我就能实现我的功能的一个最大的转变。这个是非常好的啊，啊，所以说这就是为什么采用这个服务啊。非常灵活。行呢，最主要的作用就是实时读取服务器本地磁盘的数据，实时来读这个日志产生的日志，然后将这个数据写入到HS。这种场景是非常非常多的。当然也写到这个卡卡的啊，写到卡卡呢，其实是为了这个消峰。要的。有一个峰值是吧，尤其像双11啊，啊还有这个有一些时间段，比如说晚间啊，你的手机这个点击量可能会高。一些吧，八九点钟。这是这样啊，所以说这个呢，呃，在这个日后的学习当中是非常重要的，它主要的用于这个采集日志啊，到这个S或者。
12:11
那你想一想，这个日志是不是不该变化？对吧，哎，它是不是这边一直产生产生，然后往这里追加了，哎，你不管你怎么追加，哎，我都是把你增量性的。这是。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flume/3.视频.zip/4.视频

（2/20）

6分15秒

01_尚硅谷_Flume_课程介绍.avi

3640

12分25秒

02_尚硅谷_Flume_定义.avi

3490

15分40秒

03_尚硅谷_Flume_组成.avi

3650

6分4秒

04_尚硅谷_Flume_拓扑结构.avi

3690

7分42秒

05_尚硅谷_Flume_Agent内部原理.avi

3600

5分47秒

06_尚硅谷_Flume_快速入门.avi

3630

4分50秒

07_尚硅谷_Flume_监控端口数据官方案例分析.avi

3550

17分14秒

08_尚硅谷_Flume_监控端口数据官方案例实现.avi

3520

3分2秒

09_尚硅谷_Flume_实时读取本地文件到HDFS案例分析.avi

3620

17分38秒

10_尚硅谷_Flume_实时读取本地文件到HDFS案例实现.avi

3750

4分11秒

11_尚硅谷_Flume_实时读取目录文件到HDFS案例分析.avi

3530

12分4秒

12_尚硅谷_Flume_实时读取目录文件到HDFS案例实现.avi

3490

4分11秒

13_尚硅谷_Flume_单数据源多出口案例（一）分析.avi

3730

17分15秒

14_尚硅谷_Flume_单数据源多出口案例（一）实现.avi

3570

4分8秒

15_尚硅谷_Flume_单数据源多出口案例（Sink组）分析.avi

3550

17分7秒

16_尚硅谷_Flume_单数据源多出口案例（Sink组）实现.avi

3560

3分48秒

17_尚硅谷_Flume_多数据源汇总案例分析.avi

3640

11分30秒

18_尚硅谷_Flume_多数据源汇总案例实现.avi

3840

22分42秒

19_尚硅谷_Flume_监控之Ganglia.avi

3580

10分32秒

20_尚硅谷_Flume_企业面试题讲解.avi

3620

02_尚硅谷_Flume_定义.avi原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐