温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下大数据日志采集引擎。首先了解一下大数据生态圈系统,这里的图片展示了大数据生态圈系统中的核心组件,从图中可以看出,弗龙M属于大数据生态系统提供的ETL工具。下面详细讨论一下它的体系架构。文件、目录、卡夫卡等都可以看成是日志源的类型,而最终保存的目的地也有很多,如HTFS、卡夫卡等。那弗罗姆如何针对不同的日志源进行采集并最终写入目的地的呢?在罗姆的体系架构中包含三级组件,它们分别是source组件、channel组件和thinkink组件。其中Source组件负责采集日志源的日志,Source组件有多种不同的类型,也可以自定义source组件,Channel流组件,负责缓存source组件采集的日志的channel组件,也包含各种类型的channel。
01:00
和thinkin组件,用于将channel组件缓存的日志数据写入最终的目的地,如HTFS、卡夫卡等。我们把source channel和s income统称叫做一个agent和。现在已经知道什么是大数据日志采集引擎呢?那你知道如何使用flu进行日志采集吗?欢迎评论区留言讨论好了,记得点加号关注赵宇强老师。
我来说两句