Flume NoSuchMethodError将推特数据拉入HDFS_如何使用flume将.txt文件中的XML数据转换为Avro格式并保存到hdfs_使用firehose将推特数据流式传输到S3存储桶 - 腾讯云开发者社区

、、、

我有一个hadoop集群和apache flume用于从twitter到HDFS的数据集成，它默认按时间顺序获取数据，就像大多数最近的推文将首先获取一样，现在我已经使用have从twitter获取特定时期的特定数据，例如2013年2月。请让我知道是否有任何配置或属性在冲水槽或推特处理需要设置。提前谢谢。

浏览 0提问于2013-08-23得票数 0

1回答

HDFS中来自twitter数据的配置单元查询

、、

我一直在关注这篇关于如何使用Hive分析推特数据的文章：我已经设置了flume来收集twitter数据并写入HDFS。我已经设置了一个指向相同HDFS位置的配置单元表。当我在配置单元中运行类似这样的命令时:从推文中选择entities.user_mentions.screen_name；我得到的响应如下: OK Time Time: 0.16秒。无论我运行什么查询，我都得不到任何结果。由于我不熟悉配置单元，我是希望在配置单元命令行中看到结果，还是必须从mySQL中挖掘结果。mySQL是metastore。

浏览 0提问于2016-11-14得票数 0

1回答

使用apache flume运行代理

我正在尝试使用我的推特应用程序通过flume 1.6v从推特上下载日志数据。但我经常会遇到这个错误： error>>/usr/hdp/2.2.9.0-3393/flume/bin/flume-ng.distro: line 247: /usr/java/jdk1.7.0_79/bin/java/: Not a directory /usr/hdp/2.2.9.0-3393/flume/bin/flume-ng.distro: line 247: exec: /usr/java/jdk1.7.0_79/bin/java/: cannot execute: Not a directo

浏览 0提问于2016-05-16得票数 0

2回答

我没有收到推特上的推文

、、、、

我尝试在HDFS中流式传输Flume的推文，我没有收到twitter.The进程在下面提到的这一点上停止的推文……!！除了这一步，别无他法。 INFO instrumentation.MonitoredCounterGroup: Monitoried counter group for type: SINK, name: HDFS, registered successfully. INFO instrumentation.MonitoredCounterGroup: Component type: SINK, name: HDFS started 我的flume.conf文件： Twitte

浏览 0提问于2015-06-06得票数 1

1回答

来自Flume的推文的未知文件格式

、、、、

我在试着用Flume发推文。我正在使用cloudera 我使用提供的Twitter源下面是我的配置文件： TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS # TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource TwitterAgent.sources.Twitter.channels = MemChannel TwitterAgent.source

浏览 7提问于2018-04-15得票数 0

1回答

Flume -从HDFS中删除

、

我可以查看由Flume应用程序放置在HDFS上的文件- sudo -u flume hadoop fs -cat tweets/2015/05/06/15/FlumeData.1430952817762 但是当我试着删除上面的文件夹，推文，和所有的内容时- sudo -u flume hadoop fs -rm -r tweets 我得到了这个错误- Failed to move to trash: hdfs://quickstart.cloudera:8020/user/flume/tweets: Permission denied: user=flume, access=WRITE, in

浏览 2提问于2015-05-07得票数 2

1回答

使用flume的Bigdata实时数据流

、、、、

我正在尝试使用flume分析推特数据我在BigInsights中使用flume从推特获得了文件，但我收到的数据是压缩的Avro schema，这是不可读的，有人能告诉我一种方法，可以将该文件转换为JSON (可读性)，以便对其进行一些分析。或者，有没有办法让我收到的数据已经是JSON (可读)格式。提前谢谢。这是我收到的数据

浏览 5提问于2017-03-31得票数 0

2回答

将水槽管道创建的文件大小增加到Hadoop

、、

我为Flume提供了一个配置文件，如下所示： TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS TwitterAgent.sources.Twitter.type = TwitterAgent.sources.Twitter.channels = MemChannel TwitterAgent.sources.Twitter.consumerKey = TwitterAgent.sources.Twitter.consumerSecret = Twit

浏览 5提问于2013-08-05得票数 0

回答已采纳

1回答

多个flume twitter代理

、、

我正在学习hadoop，flume等，我开始的其中一个项目是情绪分析，这是可以的，但现在我试图通过收集多组数据来扩展，这是我的flume.conf： TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS HDFS2 TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource TwitterAgent.sources.Twitter.ch

浏览 0提问于2014-01-24得票数 0

5回答

水槽下沉到HDFS错误: com.google.common.base.Preconditions.checkArgument :java.lang.NoSuchMethodError

、

通过以下方式： 1.8.0_231Hadoop 3.2.1Flume 1.8.0 在9000端口上创建了hdfs服务。 jps： 11688 DataNode 10120 Jps 11465 NameNode 11964 SecondaryNameNode 12621 NodeManager 12239 ResourceManager 水槽孔雀： agent1.channels.memory-channel.type=memory agent1.sources.tail-source.type=exec agent1.sources.tail-source.command=tail -F /v

浏览 1提问于2019-11-04得票数 7

1回答

Flume NoSuchMethodError将推特数据拉入HDFS

、、、、

由于一个无法摆脱的错误，我无法使用Flume将Twitter数据拉到HDFS中。命令： bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf -Dflume.root.logger=DEBUG,console -n TwitterAgent 控制台： 2020-12-14 11:38:08,662 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnable.run(P

浏览 38提问于2020-12-15得票数 0

回答已采纳

2回答

使用flume从twitter检索数据并以JSON格式存储到hdfs

、、、、

我试图从推特检索数据使用flume和存储到hdfs的JSON FORMAT.And的数据是加载到HDFS.BUT，而不是JSON格式。我附加了从twitter存储的HDFS文件中的几行： Objavro.schema\E4 {"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":

浏览 0提问于2016-05-19得票数 2

1回答

Apache Flume未继续使用Twitter Stream

、、、、

正在尝试在HortonWorks中获取Apache Flume推文。(使用教程点参考) Flume配置正确。这是flume.conf TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource TwitterAgent.sources.Twitter.channels = MemChannel TwitterAgent.

浏览 3提问于2016-03-01得票数 0

1回答

推特的情感分析

、

先生，我想用Apache hive，flume做推特数据的情绪分析。现在我有一个推特帐户，我已经设置了conf文件.But，问题出在数据格式上。它没有加载在hive .Kindly中，帮帮我，我已经在里面工作了一个月。

浏览 3提问于2015-09-03得票数 0

3回答

V数据在“蜂巢表”中没有读取

、

我正在从一个蜂巢外部表中读取推特上的一行json数据。表会被创建，但是在读取数据时，我会得到一个错误。我想读一下标签。我遵循了以下步骤： hive (test)> add jar /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar; Added /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar to class path Added resource: /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar 档案中的数据： hi

浏览 5提问于2017-07-06得票数 0

回答已采纳

1回答

如何从API拉取数据并将其存储在HDFS中

、

我知道flume和Kafka，但这些都是事件驱动的工具。我不需要它是事件驱动的或实时的，但可能只是一天一次的导入。有哪些数据接收工具可用于从HDFS中的API导入数据？我使用的也不是HBase，而是HDFS和Hive。我已经使用Hadoop语言很长一段时间了，但我正在寻找一种更健壮的，可能是R环境的本机解决方案。

浏览 14提问于2016-09-15得票数 0

回答已采纳

1回答

Twitter Flume数据格式不可读

、、、、

我的twitter数据格式不可读。我使用flume获取twitter数据，我正在尝试使用hive表读取这些数据。但我在hdfs中看不到正确的数据。以下是详细信息： flume-env.sh - export JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera FLUME_CLASSPATH="/opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0.42/lib/flume-ng/lib/flume-sources-1.0-SNAPSHOT.jar twitter.conf - TwitterAgent.sourc

浏览 5提问于2017-03-17得票数 0

1回答

hadoop dfs tweets -p / -mkdir /flume/tweets/命令有什么问题？

、

正在尝试创建用于存储推特数据的目录。在给出此命令时，它会说： mkdir: `–p': No such file or directory mkdir: `/user/flume1/tweets/': No such file or directory

浏览 0提问于2018-09-12得票数 0

1回答

水槽监视单元日志，并接收到hdfs错误:线程"SinkRunner-PollingRunner-DefaultSinkProcessor“java.lang.NoSuchMethodError中的异常

、、

hadoop 3.3.1 Hive2.3.9 水槽1.9.0 我想要的是:当蜂箱更新日志时，水槽会监视蜂箱日志，水槽会将蜂箱日志更改为hdfs.but，我无法在hdfs中登录。我已经下载并复制了下面的jars到/home/hadoop/flume/lib 共用-配置-1.10.jar hadoop-common-3.3.1.jar hadoop-hdfs-3.3.1.jar hadoop-auth-3.3.1.jar htrace-core-4.0.0-incubating.jar 在/home/hadoop/flume/job下创建flume-file-hdfs.conf # Nam

浏览 16提问于2021-07-13得票数 0

1回答

Hive SerDe使用JSON推文Flume返回错误

、、、、

我使用Flume收集twitter流数据，并将其以JSON格式存储在HDFS中。我正在尝试使用Hive SerDe将这个推特数据放入Hive表中，但我得到了一个非常令人沮丧的错误。 hive> ADD JAR file:////home/ubuntu/hive/lib/hive-serdes-1.0-SNAPSHOT.jar; Added [file:////home/ubuntu/hive/lib/hive-serdes-1.0-SNAPSHOT.jar] to class path Added resources: [file:////home/ubuntu/hive/lib/hiv

浏览 0提问于2018-09-01得票数 1

1回答

使用Flume/Hadoop时Ubuntu中的Java内存不足异常

、、、

当我尝试使用Flume下载tweet并将其输送到Hadoop时，由于缺少Java堆空间，我得到了内存不足的异常。我已经将Hadoop的mapred-site.xml中的堆空间设置为4GB，如下所示： <property> <name>mapred.child.java.opts</name> <value>-Xmx4096m</value> </property> 我希望能连续下载两天的推文，但不可能没有错误超过45分钟。因为我确实有足够的磁盘空间来保存所有这些，所以我假设错误来自Java，必须同时处理这么多事

浏览 3提问于2013-07-29得票数 2

回答已采纳

1回答

在将twitter数据获取到hdfs时使用flume时出错

、

在使用FLUME将twitter数据获取到HDFS时，只要更改了twitter4j.jar文件的版本，我就会一次又一次地得到这个错误，请告诉我为什么这个错误是coming.Can --有人建议我在HDFS中获取数据的下一步是什么； (conf-file-poller-0)调试-org.apache.flume.source.DefaultSourceFactory.getClass(DefaultSourceFactory.java:60)源类型org.apache.flume.source.twitter.TwitterSource是一种自定义类型2017-11-01 15:29:12,6

浏览 3提问于2017-11-01得票数 0

3回答

如何使用Apache FLUME将数据写入HA Hadoop QJM？

、、、

flume将如何识别活动namenode，以便将数据写入HDFS？如果没有High Availability Hadoop，我们将在flume.conf中配置namenode，这样数据就可以轻松地定向到HDFS。而在我们的例子中，Flume应该识别活动和备用名称节点，因此数据应该被定向到活动名称节点。

浏览 2提问于2015-05-12得票数 2

1回答

运行flume下载推特数据时出现未处理的错误java.lang.NoSuchMethodError

、、、、

当我运行此命令时 hduser@ubuntu:/usr/local/flume$ bin/flume-ng agent --conf ./conf/ -f conf/twitterflume-agent.conf -Dflume.root.logger=DEBUG,console -n TwitterAgent flume正在启动，但过了一段时间后，它抛出了一个异常，不允许下载flume。我得到以下错误： 2015-10-31 10:18:32,152 (conf-file-poller-0) [INFO - org.apache.flume.sink.DefaultSinkFactory.c

浏览 3提问于2015-11-01得票数 1

2回答

带有TwitterSource和弹性搜索水槽的水槽

、、

我试图使用flume来使用Twitter，并将tweet索引到我的elasticsearch。我将flume.conf设置为使用com.cloudera.flume.source.TwitterSource作为twitter源(使用开发令牌)，并对接收器使用默认弹性搜索。我能够获得这些tweet(因为我还将其保存到HDFS中，当我打开文件时可以看到这些tweet)，但是当我搜索elasticsearch时，我得到的响应是： { _index: twitter-2014-02-14 _type: tweet-rt _id: ilL5ZrBRSlqrZcsV

浏览 6提问于2014-02-14得票数 0

回答已采纳

1回答

必须指定使用Flume从kafka到HDFS:：ConfigurationException:引导服务器的数据

、、、

我正在尝试使用从kafka源到hdfs的水槽来摄取数据。下面是我的水槽文件。 flume1.sources = kafka-source-1 flume1.channels = hdfs-channel-1 flume1.sinks = hdfs-sink-1 flume1.sources.kafka-source-1.type = org.apache.flume.source.kafka.KafkaSource flume1.sources.kafka-source-1.bootstrap.servers = localhost:9092 flume1.sources.kafka-sour

浏览 0提问于2018-03-12得票数 2

1回答

启动水槽时出错

、、、

我试图使用dynatrace作为flume的源，hadoop作为接收器，其中dynatrace和flume位于同一服务器上，hadoop位于另一台服务器上。但是，当启动水槽时，我会出现以下错误：错误 -未处理错误java.lang.NoSuchMethodError：)在org.apache.commons.logging.impl.SLF4JLocationAwareLog.debug(SLF4JLocationAwareLog.java:120) at org.apache.hadoop.metrics2.impl.MetricsSystemImpl.register(Metric

浏览 0提问于2015-05-14得票数 0

1回答

水槽HDFS源

、

我想使用flume将数据从hdfs目录传输到hdfs中的目录，在这种传输中，我想应用处理变形线。例如:我的消息来源是 "hdfs://localhost:8020/user/flume/data" 我的水槽是 "hdfs://localhost:8020/user/morphline/" 有水槽吗？如果是，源水槽的类型是什么？

浏览 2提问于2015-02-26得票数 1

回答已采纳

2回答

如何使用flume将.txt文件中的XML数据转换为Avro格式并保存到hdfs

、、

文本文件中的xml数据。将它们导入flume和kafka到hdfs，并将它们保存为.txt文件格式。退出用例: xml文件正在通过flume→kafka→flume截取程序(验证模式是否有效)-->发送到有效或无效的kafka tpoic→hdfs接收器(有效和无效)保存在flume文件中。新的是：我需要采取有效的kafka主题，并需要编写自己的冲水槽拦截器，以转换xml数据为avro格式，并发送到→hdfs接收器(hdfs有效位置)最终输出需要在avro文件格式。任何帮助都将不胜感激先谢谢你...

浏览 15提问于2017-08-21得票数 0

2回答

水槽中的自定义源

我已经为flume创建了一个自定义源代码，并将jar文件复制到以下位置： mkdir -p /usr/lib/flume-ng/plugins.d/MyFlumeSource/lib/MyFlumeSource.jar chown -R flume:flume /var/lib/flume-ng/ 也在/etc/flume-ng/conf/flume-env.sh中 FLUME_CLASSPATH="/usr/lib/flume-ng/plugins.d/MyFlumeSource/lib/MyFlumeSource.jar" 已将Flume配置文件更新为 # Name

浏览 5提问于2015-04-07得票数 1

1回答

与MongoDB一起使用Hadoop作为数据库而不是HDFS是否可行？

、、

我在做Hadoop with MongoDB as Database而不是HDFS的研究。所以，我需要一些关于性能和可用性的指导。我的场景我的数据是推特推特 Facebook新闻提要我可以从twitter和Facebook获得数据。为了进行hadoop处理，我需要存储。因此，我的问题是，使用Hadoop和Mongo存储诸如twitter提要、facebook帖子等社交网络数据是否可行(或有益)？还是更好地使用HDFS并将数据存储在文件中。如有任何专门知识指导，将不胜感激。谢谢

浏览 3提问于2013-09-06得票数 4

1回答

下面是异常-org.apache.flume.FlumeException:无法加载源类型: com.cloudera.flume

、、、、

我正在尝试使用Flume进行twitter分析。为了从twitter获取tweet，我在flume.conf文件中设置了所有必需的参数(consumerKey、consumerSecret、accessToken和accessTokenSecret)。 TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource Twit

浏览 6提问于2015-10-30得票数 1

1回答

尝试通过flume获取twitter数据

、、

我一直在尝试通过flume获取twitter数据。我制作的推特应用程序名为pntgoswami18，描述为BackToCollege。我已经完成了所需的所有密钥和令牌替换。但是像这样运行fetch： bin/flume-ng agent -n TwitterAgent --conf ./conf/ -f conf/flume-twitter.conf -Dflume.root.logger=Debug.console 返回包含以下警告的屏幕 log4j:WARN No appenders could be found for logger (org.apache.flume.node

浏览 0提问于2016-07-14得票数 0

1回答

使用Flume将CSV文件写入HDFS

、

我正在使用Flume将一些CSV文件从本地文件系统写入HDFS。我想知道什么是最适合Flume HDFS接收器的配置，这样本地系统上的每个文件都将在HDFS中被准确地复制为CSV。我希望由Flume处理的每个CSV文件都是单个事件，刷新并写入为单个文件。尽可能的，我希望文件是完全相同的，没有标题等。我需要在这些值上添加什么来模拟我想要的行为？ hdfs.batchSize = x hdfs.rollSize = x hdfs.rollInterval = x hdfs.rollCount = x 请提供如果有其他的水槽代理配置变量，我需要改变以及。如果这将无法使用现有的配置，我是否需要使

浏览 3提问于2015-05-07得票数 5

回答已采纳

2回答

水槽HDFS接收器不断滚动小文件

、、、、

我正在尝试使用flume将twitter数据流到hdfs中，下面是：无论我在这里尝试什么，它都会继续在HDFS中创建大小从1.5kB到15kB的文件，在这里我想看到大文件(64 to )。下面是代理配置： TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource TwitterAgent.sources.Twitte

浏览 5提问于2014-03-03得票数 2

回答已采纳

1回答

Flume hdfs接收器继续制作.tmp文件

某些HDFS接收器文件未关闭有人说，如果接收器进程因超时等问题而失败，它不会再次尝试关闭文件。我已经检查了我冲水槽日志文件，但没有错误。然而，日志文件显示，每个周期，flume会生成两个tmp文件，并且只关闭一个tmp文件... 如果您对配置有任何建议，将不胜感激！谢谢! #Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 #Configure the Kafka Source a1.sources.r1.type = org.apache.flume.source.ka

浏览 63提问于2019-04-23得票数 0

1回答

使用Hadoop2.5cdh5.3不处理来自Twitter源的关键词的flume-ng

、

我正试图用MemChannel和HDFS处理一些推特关键词。但是flume-ng在控制台上的HDFS started状态之后并没有显示出进一步的进展。以下是/etc/flume-ns/conf/flume-env.sh文件内容。 # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional information # re

浏览 4提问于2015-09-25得票数 5

回答已采纳

1回答

使用Flume在HDFS中获取Twitter数据时的问题

、、、、

我试图在HDFS中获取twitter数据，但遇到了问题。这是我的flume.conf文件 TwitterAgent.sources= Twitter TwitterAgent.channels= MemChannel TwitterAgent.sinks=HDFS TwitterAgent.sources.TwitterSource.type=org.apache.flume.source.twitter.TwitterSource TwitterAgent.sources.Twitter.channels=MemChannel TwitterAgent.sources.Twitter.co

浏览 6提问于2016-09-25得票数 0

1回答

流式传输twitter数据时出错

、、、、

我正在使用CDH4.7，并尝试使用flume将twitter流数据下载到hadoop中。我正在执行下面的命令。但是它在/user/flume路径中显示了一些权限被拒绝的问题。如何解决这个问题？ [cloudera@localhost flume-ng]$ bin/flume-ng agent -n TwitterAgent --conf ./conf/ -f conf/flume.conf -Dflume.root.logger=DEBUG,console 2016-01-21 01:21:56,974 (SinkRunner-PollingRunner-DefaultSinkProces

浏览 6提问于2016-01-21得票数 0

2回答

positionFile加载失败:在水槽中使用TAILDIR源时，我得到了错误

、、

我使用Flume TAILDIR将来自本地目录的数据附加到HDFS。我的用例是，如果新行出现在本地dir中的源文件中，则执行Delta加载，以便将其追加到hdfs中。这是我的Flume文件： #configure the agent agent.sources=r1 agent.channels=k1 agent.sinks=c1 agent.sources.r1.type=TAILDIR agent.sources.r1.positionFile = /home/flume/Documents/taildir_position.json agent.sources.r1.filegro

浏览 0提问于2018-06-11得票数 0

回答已采纳

1回答

为什么我的水槽经纪人还没开始？

、、、

我试图建立一个基本的卡夫卡-水槽-HDFS管道。卡夫卡已经开始运作了，但是当我启动水槽代理时 bin/flume-ng agent -n flume1 -c conf -f conf/flume-conf.properties -D flume.root.logger=INFO,console 似乎代理并不是作为我得到的唯一控制台日志出现的： Info: Sourcing environment configuration script /opt/hadoop/flume/conf/flume-env.sh Info: Including Hive libraries found via ()

浏览 5提问于2017-03-08得票数 1

回答已采纳

1回答

未在HDFS接收器中创建FlumeData文件

、、

我正在尝试摄取实时数据，使用Kafka作为源，并使用flume，因为sink.Sink类型是HDFS。我的生成器工作得很好，我可以看到生成的数据，我的代理也运行得很好(运行命令时没有错误)，但是文件没有在指定的目录中生成。用于启动flume agent的命令： /usr/hdp/2.5.0.0-1245/flume/bin/flume-ng agent -c /usr/hdp/2.5.0.0-1245/flume/conf -f /usr/hdp/2.5.0.0-1245/flume/conf/flume-hdfs.conf -n tier1 和我的flume-hdfs.conf文件： t

浏览 2提问于2017-07-17得票数 1

1回答

使用apache flume获取错误的Twitter流数据

、、、

我正在做一个与Hadoop和flume相关的小任务。我正在尝试使用flume获取Twitter数据，但得到了以下错误错误node.AbstractConfigurationProvider:接收器HDFS已被删除，原因是在配置期间发生了错误，java.lang.InstantiationException:不兼容的接收器和信道设置已定义。接收器的批处理大小大于通道事务容量。接收器: HDFS，批大小= 1000，通道MemChannel，事务容量= 100 flume_twitter.conf TwitterAgent.sources = Twitter TwitterAgent.chan

浏览 5提问于2022-01-14得票数 0

1回答

无法在本地主机浏览HDFS中查看日志文件

、

我已经成功启动了flume-agent，但无法在HDFS中查看日志文件。我在twitter.conf中设置的路径是： TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/flume/tweets/ 请帮助我消除这个错误，并查看我的HDFS中的数据。

浏览 2提问于2017-05-21得票数 1

回答已采纳

2回答

数据从Kafka流向HDFS时出现Flume没有足够的空间错误

、、、、

我们正在努力解决从Kafka到由Flume管理的HDFS的数据流问题。由于下面描述的异常，数据未完全传输到hdfs。然而，这个错误看起来会误导我们，我们在数据目录和hdfs中都有足够的空间。我们认为这可能是通道配置的问题，但我们对其他来源也有类似的配置，并且它对它们正常工作。如果有人不得不处理这个问题，我将不胜感激。 17 Aug 2017 14:15:24,335 ERROR [Log-BackgroundWorker-channel1] (org.apache.flume.channel.file.Log$BackgroundWorker.run:1204) - Error doing

浏览 11提问于2017-08-17得票数 0

回答已采纳

1回答

强制终止+启动后未清理Apache Flume .tmp文件

、

我看到了几个与此相关的问题，但没有完全得到我想要的东西。我使用的是Flume 1.8.0，在Flume代理被强行杀死后，我看到了.tmp文件。这些不会在重新启动冲槽代理时清除。有没有办法配置Flume代理来进行清理，或者这是我需要自己处理的事情(在Flume之外)？这是我用于测试的flume conf文件： agent.sources = seqGenSrc agent.channels = memoryChannel agent.sinks = hdfs1 # For each one of the sources, the type is defined agent.sources.s

浏览 8提问于2019-07-29得票数 0

2回答

将flume配置为在将数据沉没到hdfs时不生成.tmp文件

、、、

我正在使用flume将服务器日志中的数据流式传输到hdfs。但是，当数据被流式传输到hdfs时，它首先创建.tmp文件。在配置中有没有一种方法可以隐藏.tmp文件，或者可以通过附加一个。在前面。我的收款代理文件看起来像- ## TARGET AGENT ## ## configuration file location: /etc/flume/conf ## START Agent: flume-ng agent -c conf -f /etc/flume/conf/flume-trg-agent.conf -n collector #http://flume.apache.org/Flu

浏览 3提问于2015-07-15得票数 2

2回答

Apache flume twitter代理，而不是流数据

、、、、

我正在尝试将twitter提要流到hdfs，然后使用hive。但是第一部分，流数据和加载到hdfs是不工作的，并且给出了Null指针异常。这就是我尝试过的。 apache-flume-1.4.0-bin.tar.下载的1.提取出来的。将所有内容复制到/usr/lib/flume/.在/usr/lib/ i中，将所有者更改为用于flume目录的用户。当我在/usr/lib/flume/，中执行ls命令时，它显示 bin CHANGELOG conf DEVNOTES docs lib LICENSE logs NOTICE README RELEASE-NOTES too

浏览 3提问于2014-05-03得票数 7

回答已采纳

3回答

HDFS Flume接收器-按文件滚动

HDFS Flume接收器是否有可能在单个文件(来自Flume源，比如说假脱机目录)结束时滚动，而不是在某些字节(hdfs.rollSize)、时间(hdfs.rollInterval)或事件(hdfs.rollCount)之后滚动？是否可以将Flume配置为使单个文件成为单个事件？感谢您的意见。

浏览 0提问于2015-05-11得票数 1

3回答

无法将flume中的数据插入到hdfs hadoop中以获取日志

、、、

我使用以下配置将数据从日志文件推送到hdfs。 agent.channels.memory-channel.type = memory agent.channels.memory-channel.capacity=5000 agent.sources.tail-source.type = exec agent.sources.tail-source.command = tail -F /home/training/Downloads/log.txt agent.sources.tail-source.channels = memory-channel agent.sinks.log-sink.

浏览 1提问于2015-04-05得票数 0