Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用Flume向HDFS写Tweets不起作用

使用Flume向HDFS写Tweets不起作用
EN

Stack Overflow用户
提问于 2014-05-27 07:48:50
回答 1查看 2.2K关注 0票数 0

我使用Cloudera CDH5 QuickStart VM和VMware,所有服务都是通过Cloudera安装的。

我创建了一个/ user / flume /tweet和一个水槽用户和组。我重新启动了所有的服务,但是,不管我等待多长时间,都不会将written写到HDFS。/user/flume/tweets/目录仍然是空的!

为什么?

这是我的flume.conf:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sources.Twitter.consumerKey = **
TwitterAgent.sources.Twitter.consumerSecret = **
TwitterAgent.sources.Twitter.accessToken = **
TwitterAgent.sources.Twitter.accessTokenSecret = ***
TwitterAgent.sources.Twitter.keywords = hadoop, big data, analytics, bigdata, cloudera,        data science, data scientiest, business intelligence, mapreduce, data warehouse, data     warehousing, mahout, hbase, nosql, newsql, businessintelligence, cloudcomputing
TwitterAgent.sinks.HDFS.channel = MemChannel
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path =     hdfs://localhost.localdomain:804/user/flume/tweets/%Y/%m/%d/%H/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000
TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 10000
TwitterAgent.channels.MemChannel.transactionCapacity = 100

这就是我在水槽日志上得到的信息:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[cloudera@localhost ~]$ tail -f /var/log/flume-ng/flume.log
27 May 2014 21:40:28,536 INFO  [conf-file-poller-0]     (org.apache.flume.conf.FlumeConfiguration$AgentConfiguration.addProperty:1016)  -     Processing:HDFS
27 May 2014 21:40:28,536 INFO  [conf-file-poller-0]     (org.apache.flume.conf.FlumeConfiguration$AgentConfiguration.addProperty:1016)  -     Processing:HDFS
27 May 2014 21:40:28,536 INFO  [conf-file-poller-0]     (org.apache.flume.conf.FlumeConfiguration$AgentConfiguration.addProperty:1016)  -     Processing:HDFS
27 May 2014 21:40:28,537 INFO  [conf-file-poller-0] (org.apache.flume.conf.FlumeConfiguration$AgentConfiguration.addProperty:1016)  -     Processing:HDFS
27 May 2014 21:40:28,537 INFO  [conf-file-poller-0]     (org.apache.flume.conf.FlumeConfiguration$AgentConfiguration.addProperty:1016)  -     Processing:HDFS
27 May 2014 21:40:28,562 WARN  [conf-file-poller-0]     (org.apache.flume.conf.FlumeConfiguration$AgentConfiguration.isValid:319)  - Agent     configuration for 'agent' does not contain any channels. Marking it as invalid.
27 May 2014 21:40:28,564 WARN  [conf-file-poller-0]     (org.apache.flume.conf.FlumeConfiguration.validateConfiguration:127)  - Agent configuration     invalid for agent 'agent'. It will be removed.
27 May 2014 21:40:28,564 INFO  [conf-file-poller-0]     (org.apache.flume.conf.FlumeConfiguration.validateConfiguration:140)  - Post-validation     flume configuration contains configuration for agents: [TwitterAgent]
27 May 2014 21:40:28,564 WARN  [conf-file-poller-0]     (org.apache.flume.node.AbstractConfigurationProvider.getConfiguration:138)  - No     configuration found for this host:agent
27 May 2014 21:40:28,592 INFO  [conf-file-poller-0] (org.apache.flume.node.Application.startAllComponents:138)  - Starting new configuration:{     sourceRunners:{} sinkRunners:{} channels:{} }

我怎么才能解决呢?

提前谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-05-30 08:44:22

您是否使用Cloudera设置了水槽配置?请按照此链接http://javet.org/?p=279在CDH5中实现twitter消防软管。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23893744

复制
相关文章
Flume HDFS Sink写数据到S3
Flume目前为止没有提供官方的S3 Sink。但是有一个可行的选项HDFS Sink。HDFS Sink 可以使用hadoop-aws.jar来完成S3的写入工作。
jhao104
2021/07/13
1.5K1
Flume采集目录到HDFS
采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去
编程那点事
2023/02/25
2870
flume-ng 使用spool source 传输文件到hdfs
本文档主要用来记录如何在日志服务器和hdfs服务器端利用flume-ng将已经写好的日志传输到hdfs。
sanmutongzi
2020/03/04
6600
如何在集群外节点跨网段向HDFS写数据
Fayson想了想这个问题其实在各个环境是都可能碰到的,于是在这篇文章给大家系统介绍一下。
Fayson
2018/03/29
2.7K0
如何在集群外节点跨网段向HDFS写数据
大数据-Flume采集目录到 HDFS
需求 某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去
cwl_java
2019/12/26
1.1K0
大数据-Flume采集目录到 HDFS
flume-kafka-storm-hdfs-hadoop-hbase
# bigdata-demo 项目地址:https://github.com/windwant/bigdata-service hadoop: hadoop hdfs操作 log输出到flume flume输出到hdfs hbase: HTable基本操作:创建,删除,添加表,行,列族,列等。 kafka: 测试 producer | consumer storm:实时处理消息 kafka集成storm集成hdfs 读取kafka数据=
WindWant
2020/09/11
4810
使用python脚本向influxdb写
python3使用requests模块向influxdb的http API发送接口请求实现数据写入,如下:
py3study
2020/01/13
5920
大数据-Flume采集文件到HDFS
需求 比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到 hdfs
cwl_java
2019/12/26
8820
2-网站日志分析案例-日志采集:Flume-Kafka-Flume-HDFS
参考:https://blog.csdn.net/m0_38139250/article/details/121155903
用户2225445
2022/11/12
3300
2-网站日志分析案例-日志采集:Flume-Kafka-Flume-HDFS
如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS
注意:Fayson的github调整为:https://github.com/fayson/cdhproject,本文的代码在github中也能找到。
Fayson
2018/03/29
6K0
如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS
HDFS——写文件流程
hdfs客户端写文件的流程,大体可以分为两个步骤:第一步是创建或打开文件,第二步是进行block的写操作。
陈猿解码
2023/02/28
1.3K0
HDFS——写文件流程
HDFS写数据流程
Hadoop分布式文件系统(HDFS)是Hadoop框架中的一部分,用于存储大量数据。HDFS写数据的流程是在客户端和HDFS之间的通信中发生的,它涉及了多个组件和步骤。
堕落飞鸟
2023/05/12
3200
HDFS写流程 源码走读
PPT
程序猿
2018/08/12
7640
HDFS写流程 源码走读
Flume 日志收集系统 Spooldir-Source HDFS-sink
消息 Record,Source封装Event(事件)成为Record对象,并保存到Channel中,Sink拉取Record并保存到目标系统中。
birdskyws
2018/09/12
1.7K0
Flume 日志收集系统 Spooldir-Source HDFS-sink
Flume使用案例
​#例如阿里基本源 $>sudo wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
编程那点事
2023/02/25
2150
flume采集数据实时存储hive两种解决方案
        本方案的核心是flume采集数据后,按照hive表的结构,将采集数据输送到对应的地址中,达到数据实时存储的目的,这种实时实际上是一种准实时。
尚浩宇
2018/08/17
5.7K0
flume采集数据实时存储hive两种解决方案
Flume
  单机upd的flume source的配置,100+M/s数据量,10w qps flume就开始大量丢包,因此很多公司在搭建系统时,抛弃了Flume,自己研发传输系统,但是往往会参考Flume的Source-Channel-Sink模式。
挽风
2023/10/17
3160
Flume
利用Flume将MySQL表数据准实时抽取到HDFS
本文介绍了如何使用Flume从关系型数据库中抽取数据,并将其写入到HDFS上。主要涉及到Flume的Source、Channel和Sink组件,以及如何使用HBase和Hive作为存储媒介。最后,给出了一个使用该方案进行数据抽取的示例。
用户1148526
2018/01/03
4.5K0
利用Flume将MySQL表数据准实时抽取到HDFS
Flume拦截器实现按照事件时间接入HDFS
Flume作为一个数据接入组件,广泛应用于Hadoop生态中。在业务时间混乱的情况下,按照机器数据在HDFS上分区会降低ETL的效率。采用Flume自定义拦截器可以实现按照事件时间Sink到HDFS目录,以应对数据的事件时间混乱问题
Eights
2020/09/10
1.4K0
Flume拦截器实现按照事件时间接入HDFS
Tweets的预处理
自然语言处理是机器学习的一个领域,涉及到对人类语言的理解。与数字数据不同,NLP主要处理文本。探索和预处理文本数据需要不同的技术和库,本教程将演示基础知识。
磐创AI
2021/01/12
2K0
Tweets的预处理

相似问题

hadoop dfs tweets -p / -mkdir /flume/tweets/命令有什么问题?

10

Flume和HDFS集成,HDFS IO错误

128

Flume不将日志写入Hdfs

22

使用Flume将CSV文件写入HDFS

13

Flume -从HDFS中删除

12
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文