我一直在关注这篇关于如何使用Hive分析推特数据的文章:
我已经设置了flume来收集twitter数据并写入HDFS。我已经设置了一个指向相同HDFS位置的配置单元表。
当我在配置单元中运行类似这样的命令时:从推文中选择entities.user_mentions.screen_name;
我得到的响应如下: OK Time Time: 0.16秒。
无论我运行什么查询,我都得不到任何结果。
由于我不熟悉配置单元,我是希望在配置单元命令行中看到结果,还是必须从mySQL中挖掘结果。mySQL是metastore。
我正在尝试使用我的推特应用程序通过flume 1.6v从推特上下载日志数据。
但我经常会遇到这个错误:
error>>/usr/hdp/2.2.9.0-3393/flume/bin/flume-ng.distro: line 247: /usr/java/jdk1.7.0_79/bin/java/: Not a directory
/usr/hdp/2.2.9.0-3393/flume/bin/flume-ng.distro: line 247: exec: /usr/java/jdk1.7.0_79/bin/java/: cannot execute: Not a directo
我尝试在HDFS中流式传输Flume的推文,我没有收到twitter.The进程在下面提到的这一点上停止的推文……!!除了这一步,别无他法。
INFO instrumentation.MonitoredCounterGroup: Monitoried counter group for type: SINK, name: HDFS, registered successfully.
INFO instrumentation.MonitoredCounterGroup: Component type: SINK, name: HDFS started
我的flume.conf文件:
Twitte
我正在从一个蜂巢外部表中读取推特上的一行json数据。表会被创建,但是在读取数据时,我会得到一个错误。我想读一下标签。我遵循了以下步骤:
hive (test)> add jar /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar;
Added /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar to class path
Added resource: /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar
档案中的数据:
hi
我使用Flume收集twitter流数据,并将其以JSON格式存储在HDFS中。我正在尝试使用Hive SerDe将这个推特数据放入Hive表中,但我得到了一个非常令人沮丧的错误。
hive> ADD JAR file:////home/ubuntu/hive/lib/hive-serdes-1.0-SNAPSHOT.jar;
Added [file:////home/ubuntu/hive/lib/hive-serdes-1.0-SNAPSHOT.jar] to class path
Added resources: [file:////home/ubuntu/hive/lib/hiv
我一直在尝试通过flume获取twitter数据。我制作的推特应用程序名为pntgoswami18,描述为BackToCollege。我已经完成了所需的所有密钥和令牌替换。但是像这样运行fetch:
bin/flume-ng agent -n TwitterAgent --conf ./conf/ -f conf/flume-twitter.conf -Dflume.root.logger=Debug.console
返回包含以下警告的屏幕
log4j:WARN No appenders could be found for logger (org.apache.flume.node
我正在使用Flume将一些CSV文件从本地文件系统写入HDFS。
我想知道什么是最适合Flume HDFS接收器的配置,这样本地系统上的每个文件都将在HDFS中被准确地复制为CSV。我希望由Flume处理的每个CSV文件都是单个事件,刷新并写入为单个文件。尽可能的,我希望文件是完全相同的,没有标题等。
我需要在这些值上添加什么来模拟我想要的行为?
hdfs.batchSize = x
hdfs.rollSize = x
hdfs.rollInterval = x
hdfs.rollCount = x
请提供如果有其他的水槽代理配置变量,我需要改变以及。
如果这将无法使用现有的配置,我是否需要使
我正试图用MemChannel和HDFS处理一些推特关键词。但是flume-ng在控制台上的HDFS started状态之后并没有显示出进一步的进展。
以下是/etc/flume-ns/conf/flume-env.sh文件内容。
# Licensed to the Apache Software Foundation (ASF) under one
# or more contributor license agreements. See the NOTICE file
# distributed with this work for additional information
# re
我看到了几个与此相关的问题,但没有完全得到我想要的东西。我使用的是Flume 1.8.0,在Flume代理被强行杀死后,我看到了.tmp文件。这些不会在重新启动冲槽代理时清除。有没有办法配置Flume代理来进行清理,或者这是我需要自己处理的事情(在Flume之外)?
这是我用于测试的flume conf文件:
agent.sources = seqGenSrc
agent.channels = memoryChannel
agent.sinks = hdfs1
# For each one of the sources, the type is defined
agent.sources.s