前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >图文简述flume的巨大用途

图文简述flume的巨大用途

作者头像
希望的田野
发布2019-09-24 12:55:45
6140
发布2019-09-24 12:55:45
举报
文章被收录于专栏:信息化漫谈信息化漫谈

谈到大数据,我们很常会想到hdfs、mapreduce、hbase、spark、hive等高大上的大数据工具或底层组件,但我们不能忘了饮水思源,我们的大数据的数据从哪里来呢? 有来自于mysql、oracle等关系型的结构化数据库,也有来自html、log等半结构数据,但问题来了!log类的文本如何采集、如何上传到hdfs或kafka中? 大家可能会想到采用ftp等手工传输方式,但实际是根据不可行,ftp如何保证数据保存至hdfs、kafka中。好,今天,我来们讲一种工具,flume,帮助您自动采集前端数据,并自动帮您保存至您想保存至的数据目的地。

一、首先我们看一下原理图

我们直接在web server上安装flume的agent,该agent可以直接从server上采集web log记录,并上传至大数据的hdfs数据中,帮助大家减少了自己开发数据采集工具的麻烦

根据上图,我们看到,Agent由三部分组成,source、channel、sink。其中source的作用为采集不同的数据源,如syslog、http post、log4j等常见的文本格式的记录。channel的作用主要是数据缓存,包括内存形式缓存和文件缓存。sink的作用主要为向不同的数据目的地写盘,常见如hdfs、kafka、hbase等。

二、其次,flume支持丰富的特性

1、支持同时向多个数据目的地写盘

2、支持多个数据源汇聚后向再目的数据写盘

汇聚的好处有:如数据地发生中断可进行数据缓存;便于减少管理难道,集中在汇聚的agent端进行数据配置。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 信息化漫谈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档