展开

关键词

Flume(一)Flume原理解析

一、Flume简介  flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。 Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。   但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.9.4. 及代码架构,重构后的版本统称为 Flume NG(next generation);改动的另一原因是将 Flume 纳入 apache 旗下,cloudera Flume 改名为 Apache Flume 4.3、Flume可靠性  Flume 使用事务性的方式保证传送Event整个过程的可靠性。

1.8K50

Flume】文件收集框架Flume

https:blog.csdn.netgongxifacai_believearticledetails80956067 1、Flume架构Flume是Cloudera 开发的框架,用于从文件中实时收集数据 数据传输的基本单元,Flume以事件的形式将数据从源头传送到最终的目的。 (2)Flume的安装: 1)上传下载好的flume压缩包到Linux系统中,并为压缩包赋予执行权限: $ chmod u+x flume-ng-1.5.0-cdh5.3.6.tar.gz 2)解压flume 安装包: $ tar -zxf flume-ng-1.5.0-cdh5.3.6.tar.gz -C optcdh-5.3.6 3)将flume文件夹改名: cdh-5.3.6]$ mv apache-flume flume-1.5.0-cdh5.3.6]$ cd conf conf]$ cp flume-env.sh.template flume-env.shexport JAVA_HOME=optmodulesjdk1.7.0

20640
  • 广告
    关闭

    腾讯云前端性能优化大赛

    首屏耗时优化比拼,赢千元大奖

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Apache Flume

    Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。 因此,flume 可以适用于大部分的日常 数据采集场景。 当前 Flume 有两个版本。 Flume 0.9X 版本的统称 Flume OG( original generation),Flume1.X 版本的统称 Flume NG(next generation)。 由于 Flume NG 经过核心组件、核心配置以及代码架构重构,与 Flume OG 有很大不同,使用时请注意区分。 改动的另一原因是将 Flume 纳入 apache 旗下,Cloudera Flume 改名为 Apache Flume

    11720

    Flume介绍

    文章目录 日志采集框架Flume介绍 概述运行机制Flume采集系统结构图Flume安装部署 上传安装包解压安装包配置文件 在一个完整的离线大数据处理系统中,除了 hdfs+mapreduce+hive 日志采集框架Flume介绍概述 Flume是一个分布式、可靠和高可用的海量日志采集、聚合和传输的系统。 一般的采集需求,通过Flume的简单配置即可实现。 Flume针对特殊场景也具有良好的自定义扩展能力。 因此,Flume可以适用于大部分的日常数据采集场景。 运行机制Flume分布式系统中最核心的角色是agent,Flume采集系统是由一个个agent所连接起来形成。 配置文件cd exportserverscd apache-flume-1.8.0-binconfcp flume-env.sh.template flume-env.shvim flume-env.sh

    11010

    flume 入门

    前言本文是基础性文章,针对初次接触flume的朋友,简化了大部分内容,后续有时间会加上相关高级使用为什么需要flume?解耦:对于数据产生者,不关心数据被谁使用,对于数据使用者,不关心数据从哪来。 负载均衡:flume 是分布式,对于大数据收集有天然优势对 hdfs 支持友好灵活:flume 收集基于单个 agent,扩展方便灵活flume 有什么优势? 优势都是相对而言,我们简单以 kafka 来对比:组件灵活,可定制化高数据处理能力相对较强对hdfs 有特殊优化开启一个简单的flume这里我们先什么都不管,先来玩一下flume,感受一下flume: 到这里,我们应该可以体验到flume得简洁和易用了,就算你什么都不会,你也可以轻松得来使用它。 flume一般架构 首先我们先来看一下 flume 的整体架构,官网架构图如下 ? 基础架构非常简单,想要使用flume,我们只要通过一个配置文件定义好 source,channel,sink,那么flume就可以开始工作了。

    25620

    flume简介

    参考 Flume架构以及应用介绍 一.简介Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。? image.png二.主要功能1.日志收集 Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。 2.数据处理 Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail image.png三.Flume架构Flume使用agent来收集日志,agent包括三个组成部分:source:收集数据channel:存储数据sink :输出数据 Flume使用source接收日志

    22420

    Flume简介

    0.9.x版本的文档请参阅Flume 0.9.x 开发者文档。结构数据流模型Event是流经Flume 代理(agent)的一个数据单元。 这是Flume中单跳的消息传递语义提供的流的端到端的可靠性。Flume使用了一种传统途径来保证Event传递的可靠性。 Flume Source理解的消息;另一种方法是写一个自定义Flume Source直接用IPC或者RPC协议和现有的客户端应用通信,然后将客户端数据转换成Flume Event向下游发送。 注意Flume agent中所有在Channel中存放的event必须作为Flume Event存在。 Flume Client SDK就是这样一个库,能够使应用和Flume相连,并通过RPC向Flume发送数据。RPC客户端接口Flume的RPCClient接口的实现包含了Flume支持的RPC机制。

    28330

    flume-ng tmp

    flume-ng 是一个分布式,高可用的日志收集系统。 主要用来将分布在不同服务器上的业务日志汇总在一个集中的数据存储中心 一 安装与环境配置 下载地址 http:flume.apache.orgdownload.html , 下载Apache Flume -1.4.0-binbinflume-ng ...commands:help display this help textagent run a Flume agentavro-client run an avro Flume clientversion show Flume version infoglobal options:--conf,-c use configs in directory--classpath agent --conf homedongxiao.yangapache-flume-1.4.0-binconf --conf-file homedongxiao.yangapache-flume-1.4.0

    17320

    浅谈Flume

    Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。” 02— Flume架构Flume最简单的部署单元叫做Flume Agent,包括三个主要组件:Source、Channel、Sink;Source:Source负责获取事件到Flume Agent,即从产生数据的应用中接收数据的组件 Flume本身并不限制Agent中的Source、Channel、Sink数量,因此Flume支持将Source中的数据复制到多个目的地。 Sink组Flume提供一种Sink组的概念,每个Sink组包含任意数量的Sink,在Sink组实现负载均衡和故障转移。 构建FLume时的几个关键点Channel容量大小整个数据采集系统分为多少层级,考虑Sink下游故障下,用什么方案继续缓冲数据如何监控Flume运行情况,包括部署Agent的JVM内存、流量

    20020

    Flume概述

    Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 ?Flume基础架构? SourceSource是负责接收数据到Flume Agent的组件。 SinkSink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。 Event传输单元,Flume数据传输的基本单元,以Event的形式将数据从源头送至目的地。 Flume的核心概念source : 用户需要根据自己的数据源的类型,选择合适的source对象。sink: 用户需要根据自己的数据存储的目的地的类型,选择合适的sink对象。

    13810

    Flume篇---Flume安装配置与相关使用

    介绍:Source:(相当于一个来源)   从数据发生器接收数据,并将接收的数据以Flume的event格式传递给一个或者多个通道channal,Flume提供多种数据接收的方式,比如Avro,Thrift version5、配置环境变量    export FLUME_HOME=homeapache-flume-1.6.0-bin 3.2 Source、Channel、Sink有哪些类型    Flume 文件    hadoop fs -ls flume...     文件    hadoop fs -ls flume...     hadoop fs -get flume... 作业:1、flume如何收集java请求数据2、项目当中如何来做? 日志存放log目录下 以yyyyMMdd为子目录 分别存放每天的数据

    81230

    Flume和Kafka

    Flume+Kafka+Storm+Redis实时分析系统基本架构1) 整个实时分析系统的架构是2) 先由电商系统的订单服务器产生订单日志,3) 然后使用Flume去监听订单日志,4) 并实时把每一条日志信息抓取下来并存进 Flume和Kafka对比(1)kafka和flume都是日志系统。kafka是分布式消息中间件,自带存储,提供push和pull存取数据功能。 所以比较流行flume+kafka模式,如果为了利用flume写hdfs的能力,也可以采用kafka+flume的方式。FlumeFlume是2009年7月开源的日志系统。 Flume架构Flume采用了分层架构,由三层组成:agent,collector和storage。 Flume的广义用法Flume支持多级Flume的Agent,即sink可以将数据写到下一个Agent的source中,且Flume支持扇入(source可以接受多个输入)、扇出(sink可以将数据输出多个目的地

    1.7K60

    flume 整合 kafka

    flume 整合 kafka:flume:高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。kafka:分布式的流数据平台。 Apache Flume binary (tar.gz) apache-flume-1.8.0-bin.tar.gz apache-flume-1.8.0-bin.tar.gz.md5 apache-flume -1.8.0-bin.tar.gz.sha1 apache-flume-1.8.0-bin.tar.gz.asc Apache Flume source (tar.gz) apache-flume-1.8.0 -src.tar.gz apache-flume-1.8.0-src.tar.gz.md5 apache-flume-1.8.0-src.tar.gz.sha1 apache-flume-1.8.0-src.tar.gz.asc -1.8.0-bin.tar.gz 2、解压:tar zxvf apache-flume-1.8.0-bin.tar.gz3、设置目录:mv apache-flume-1.8.0-bin usrlocalflume1.84

    13320

    认识Flume(一)

    本文主要介绍【Flume的架构和使用】目标认识了解Flume。掌握Flume基本原理。 架构Flume事件定义为具有字节负载和一组可选字符串属性的数据流单元。Flume代理是一个(JVM)进程,它承载事件从外部源流向下一个目标(hop)的组件。 ? 外部源以目标Flume源可以识别的格式向Flume发送事件。例如,Avro Flume源可以用于从Avro客户端接收Avro事件,或者从Avro接收器发送事件的流中的其他Flume代理。 当Flume源接收到事件时,它将进行存储。Flume允许用户构建多个跃点流,其中事件在到达最终目的地之前经过多个代理。它还允许扇入和扇出流、上下文路由和失败跳转的备份路由(故障转移)。 Agent代理使用名为Flume -ng的shell脚本启动,该脚本位于Flume发行版的bin目录中。

    28520

    Apache Flume详细介绍及Flume的安装部署

    Flume支持定制各类数据发送方,用于收集各类型数据;同时,Flume支持定制各种数据接受方,用于最终存储数据。一般的采集需求,通过对flume的简单配置即可实现。 因此,flume可以适用于大部分的日常数据采集场景。当前Flume有两个版本。 Flume 0.9X版本的统称Flume OG(original generation),Flume1.X版本的统称Flume NG(next generation)。 改动的另一原因是将Flume纳入 apache 旗下,Cloudera Flume 改名为 Apache Flume。 二、Flume安装部署Flume的安装非常简单上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gz然后进入flume的目录,修改conf

    26920

    Flume+Kafka联通

    前提前提是要先把flume和kafka独立的部分先搭建好。 下载插件包下载flume-kafka-plus:https:github.combeyondj2eeflumeng-kafka-plugin把lib目录下的 ? 和package下的 ? 都放到flume的lib目录修改原有的flume-conf文件在插件包里有一个flume-conf.properties,把这个文件放到flume的conf文件夹里修改以下内容producer.sources.s.type kafka consumer binkafka-console-consumer.sh –zookeeper localhost:2181 –topic test –from-beginning 启动flume

    17220

    Flume配置

    a1.sources = r1 a1.sinks = k1 k2 a1.channels = c1 c2

    17920

    Flume快速入门系列(1) | Flume的简单介绍

    Flume定义  Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。    ,通过对flume的简单配置即可实现   Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景。 那么我们为什么要选用Flume呢? ?2. Flume的优点 可以和任意存储进程集成。输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。 3.4 Flume拓扑结构 1. Flume Agent连接 ?   这种模式是将多个flume给顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。 用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到hdfs、hive、hbase、jms等,进行日志分析。

    22920

    Flume + Kafka整合

    Flume的安装与综合使用 https:www.jianshu.comp90e17b80f366 实时日志采集框架图 ? Flume + Kafka整合.png1.在$FLUME_HOMEconf下新增一个配置文件avro-memory-kafka.confavro-memory-kafka.sources = avro-sourceavro-memory-kafka.sinks avro-memory-kafka.sources.avro-source.channels = memory-channelavro-memory-kafka.sinks.kafka-sink.channel = memory-channel2.重点是配置kafka sink的内容,参考flume-ng kafka sink.png3.先启动avro-memory-kafka监听flume-ng agent --name avro-memory-kafka --conf $FLUME_HOMEconf

    48070

    flume基础教程

    flume基础教程flume简介flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。 Flume 初始的发行版本目前被统称为 Flume OG(original genera﹋on,原创世纪),属于 cloudera。 但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志传输不稳定的现象尤为严重 ,为了解决这些问题,2011 年 10 月 22 号,cloudera 完成了 Flume‐728,对Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG(next genera﹋on,下一代);改动的另一原因是将 Flume 纳入 apache 旗下,cloudera Flume 改名为 Apache Flume

    8720

    扫码关注云+社区

    领取腾讯云代金券