无法将kafka使用者消耗的数据写入hdfs

文章/答案/技术大牛

发布

1回答

、、、

我试图使用分区0中的数据，并将接收到的数据写入hdfs上的文件，但它抛出异常，我看不到任何数据正在写入hdfs文件import org.apache.hadoop.fs.Path import java.util.Propertie

浏览 12提问于2017-06-25得票数 0

1回答

将数据从HDFS写入Kafka

、、

当数据最终写入HDFS时，Kafka通常用于摄取管道。是否有任何设计使用Kafka将数据从HDFS传输到外部系统？我知道Kafka更适合作为一个消息传递系统，但是我们可以使用Kafka的发布-订阅来传输数据吗？在这个用例中，生产者将把数据从HDFS (每次1行)写入主题，使用者将异步读取。在实

浏览 2提问于2015-12-24得票数 2

回答已采纳

2回答

需要安排MongoDB卡夫卡连接

、、、

我们正在开放源码Apache连接器之上与mongodb kafka connetor合作，以获取从Mongo到HDFS的json数据。我们有kafka使用者，它读取kafka中的数据更改并将它们写入hdfs文件。我们需要根据预定日期触发卡夫卡消息。

浏览 9提问于2022-09-23得票数 0

回答已采纳

1回答

当列被移除时Kafka连接模式的演变

、、、

轮询从DB写入到Kafka topic.HDFS Sink连接器的数据，读取来自Kafka主题的消息，并以Avro格式写入HDFS。 (问题1)当HDFS连接器从主题读取消息时，它是否根据模式注册表中的</em

浏览 0提问于2019-07-17得票数 3

回答已采纳

2回答

带有avro记录的Kafka

、、、、

我有:源- kafka主题(trans)通道-内存宿- Hdfs (avro_event)而不是：我猜这

浏览 0提问于2015-03-01得票数 2

1回答

Camus迁移- Kafka* HDFS连接不会从设置偏移开始*

、、、、

我目前正在使用汇合HDFS Sink连接器(v4.0.0)来取代Camus。我们正在处理敏感数据，因此我们需要在连接到连接器的过程中保持偏移的一致性。切入计划：使用删除请求停止连接器。使用/usr/bin/kafka-consumer-group

浏览 0提问于2018-04-15得票数 1

回答已采纳

2回答

使用Kafka将数据从Kafka迁移到HDFS3的开源解决方案是什么？

、、、

除了汇合的HDFS库(非开源)之外，是否有任何完全开放的源代码库可以将消息从Kafka (使用Kafka Connect)转移到HDFS 3？Kafka连接HDFS 2水槽-合流社区牌照Kafka Connect HDFS 3 Sink -合流企业许可证相关：

浏览 1提问于2021-05-05得票数 0

回答已采纳

1回答

一个流查询使用多少个Kafka用户来执行？

、

我惊讶地看到，Spark只在一个Kafka用户的情况下消耗了Kafka的数据，并且这个用户在驱动程序容器中运行。我启动了我的Spark结构化流媒体应用程序，它消耗了这个主题，并写到HDFS上的Parquet。该应用程序有5个执行者。，我发现其中只有一个正在忙着将消耗的数据写入HDFS上的Par

浏览 1提问于2018-12-04得票数 11

1回答

汇合卡夫卡连接HDFS水槽连接器延迟

、、、、

我有一个包含200万条消息的kafka主题，我的刷新大小是100000，在分布式模式下，默认分区有4个工作人员，我能够在几秒钟内(10到15秒)看到数据被立即写入HDFS。每次这么快写它是kafka connector的行为，还是已经将数据存储在HDFS中，并根据连接器属性将其移动到主题目录？如果我想计算这个延迟，我如何计算它？如果我停止并删除/topics和/temp中<em

浏览 0提问于2018-07-20得票数 2

回答已采纳

2回答

如何连接两个卡夫卡流，每一个有多个寓意？

、、

我有两个Kafka流，request和event分别在一个公共字段requestId上进行分区(最后两位数)。我想加入这两个流并写到HDFS或Localfilesystem？如何在加入两个consumer时只考虑相关的partitions来编写一个高效的streams

浏览 9提问于2017-01-18得票数 0

回答已采纳

2回答

如何使用Flink独立集群上Flink作业中的两个Kerberos键(对于Kafka和Hadoop )？

、、、、

问题如果不可能，在Kafka和HDFS都受到Kerberos保护的情况下，对于Kafka-Flink-<em

浏览 0提问于2018-05-02得票数 5

回答已采纳

4回答

Kafka :使用公共消费者组访问多个主题

、

我们的集群运行Kafka 0.11，并且对使用消费者组有严格的限制。我们不能使用任意的使用者组，所以Admin必须创建所需的使用者组。我们运行Kafka Connect HDFS Sinks从主题中读取数据并写入HDFS。所有主题只有一个分区。案例1:

浏览 0提问于2019-09-02得票数 28

回答已采纳

2回答

我应该使用什么: Kafka流或Kafka消费api或Kafka* connect*

、、、

我想知道什么是对我最好的:卡夫卡流或卡夫卡消费api或卡夫卡连接？我想从主题中读取数据，然后进行一些处理并写入数据库。因此，我已经编写了使用者，但我觉得我可以编写Kafka流应用程序，并使用它的有状态处理器执行任何更改并将其写入数据库，这可以消除我的使用者代码，只需要编写db代码。我想插入我的记录的数据库是: HDFS -(插

浏览 3提问于2017-09-04得票数 7

1回答

flink检查点如何帮助故障恢复

、

我的flink作业使用FlinkKafkaConsumer010从kafka consumer读取数据，并使用CustomBucketingSink接收到hdfs。以下是我的假设： Flink从kafka消耗一些固定数量的事件(一次从多个分区获得多个偏移量)，并等待，直到它到达接收器，然后是检查点。在成功的情况下，它提交kafka分区，偏移它读取，并维护一些与它正在写入的h

浏览 0提问于2020-03-12得票数 0

1回答

一个消费者多个主题会导致潜在的线程问题吗？

、、、

我有一个REST服务，我们称它为MDD，它有一个kafka消费者。当我第一次启动rest服务时，另一个服务告诉MDD的使用者订阅一个特定的主题，一切似乎都很顺利。现在我注意到的是，当第二个主题的订阅进入时，有时我会收到错误，无法附加到HDFS中的文件，当我查看日志时，它正在尝试附加一些本不应该在以后才附加的数据。例如，数据到kafka的顺序是A，

浏览 3提问于2017-01-19得票数 1

2回答

使用Kafka、Storm和HBase进行实时处理

、、

为我的无知道歉。我们正在建立一个实时数据库，捕获基于网站上的成员活动的记录。发出这些信息的应用程序是IBM MQ。我们计划将Apache Kafka设置为使用来自IBM MQ的这些消息，并将其存储在HBase for Analytics中。Kafka有没有可能直接将这些信息写入HBase，或者我们应该在Kafka和HBase之间设置一个像Apache Storm这样的</

浏览 1提问于2015-06-25得票数 1

1回答

如何在OGG中为Hdfs配置kafka连接处理程序

、、

我正在使用Kafka将数据从Oracle db迁移到Hadoop文件系统(在这里是新的)。我已经在oracle上配置了我的摘录，它将在我的源表中所做的更改发布给我的kafka处理程序使用者，我可以看到有关我的主题的数据。现在，我想在kafka连接处理程序上做同样的工作，我希望在我的hdfs中<

浏览 0提问于2019-05-13得票数 0

回答已采纳

1回答

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

、、、

目前，我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold，将写入HDFS上avro/json文件的数据大小限制在128 on。由于我们在新项目中没有使用高级Flink特性，所以我们希望使用Kafka Connect HDFS Connector中的Kafka流直接将消息写入hdfs (而不是旋转Flink)。但是，我<

浏览 0提问于2018-08-08得票数 1

回答已采纳

1回答

使用kafka- Consumer groups.sh脚本删除消费者组是删除消费者组元数据的安全方法吗？

、

我使用多线程kafka使用者作为一个单独的60个分区kafka主题，每个使用者线程映射到每个分区。在消费完成后，使用KafkaConsumer.close()方法关闭每个使用者线程。在同一消费者不满意的情况下进行再消费期间(寻求开始是每个消费者的步骤)，1或2个使用者线程无法从它们分配的分区中消耗。如果提供了新的使用者组id，则不会出现此问题。因

浏览 2提问于2019-10-25得票数 0

1回答

如何在kafka上进行批量处理，连接生成的数据集？

、、

假设我们有批作业生成记录到kafka中，并且有一个kafka连接集群消费记录并将它们转移到HDFS。我们希望以后能够在相同的数据上运行批处理作业，但我们希望确保批处理作业能够看到生产者生成的全部记录。什么是好的设计？

浏览 5提问于2022-07-27得票数 -1

点击加载更多