处理kafka connect中的数据丢失_debezium生成事件的Kafka Connect日期处理_外部化Kafka Connect中的属性 - 腾讯云开发者社区

apache-kafka、apache-kafka-connect

我了解到Kafka connect可以在集群模式下部署。并且工作人员在数据源和kafka主题之间移动数据。我想知道的是，如果工作人员在数据源之间移动数据到kafka主题时失败，会不会有数据丢失？如果发生数据丢失，我们如何从连接器获取数据，或者kafka connect会自动处理它吗？

浏览 33提问于2021-01-22得票数 0

回答已采纳

1回答

使用DLQ和ElasticSearch的卡夫卡消费者

elasticsearch、apache-kafka、logstash、apache-kafka-connect、fluentd

我有以下集群：我的问题是如何选择最有效的日志收集器(或者其他一些允许管理Kafka和ElasticSearch之间数据流的软件)。我正在尝试从Logstash、Fluentd和Confluent的Kafka Elasticsearch连接器中进行选择。我面临的主要问题是无法在写入Elasticsearch端点时在Kafka中</em

浏览 1提问于2018-10-19得票数 0

1回答

向主题重新发送消息的正确方式

python、apache-kafka、faust

我将消息从kafka主题加载到数据库。加载到数据库可能会失败。另外，我不想丢失未发送的消息。应用程序代码： async for unsent_msg in stream: await source_t

浏览 5提问于2021-01-28得票数 1

1回答

如何使用Spark Streaming更高效地将数据从Kafka插入到Hbase中？

apache-spark、apache-kafka、hbase、spark-streaming、apache-kafka-connect

我尝试通过PySpark在HBase中创建Kafka数据摄取。目前，我尝试使用HappyBase将数据从卡夫卡插入到Hbase中，但是速度非常慢。下面是当前的源代码。我需要达到尽可能高的性能。你有什么想法吗？也许是saveAsNewAPIHadoopDataset或其他任何解决方案？

浏览 18提问于2019-03-25得票数 0

1回答

Rest数据摄取到数据湖

java、rest、apache-kafka

需求将数据摄取到数据湖的标准方法？满载、CDC和流数据。将数据加载到kafka主题中，不重复

浏览 0提问于2018-01-30得票数 1

1回答

以Kafka和MongoDB为源的ETL

python-3.x、mongodb、apache-kafka、aws-lambda、etl

我只是在学习Apache Kafka。我当前的ETL在batch process上运行，现在我希望它在流进程上运行，以便用于报告的数据始终是最新的。据我所知，我可以使用MongoDB连接器来捕获mongodb中的数据变化，然后将其发送到kafka主题。但在我的ETL中，我需要将处理后的数据存储到SQL数据库中。

浏览 4提问于2020-06-17得票数 0

1回答

Kafka连接基于大小的翻转与单个分区上基于时间的翻转

apache-kafka、hdfs、apache-kafka-connect、confluent-platform

我正在使用Kafka connect来接收文件到HDFS，Kafka connect有TopicPartitionWriter，它可以及时滚动到所有分区，并且没有基于大小的滚动。我想做基于大小和基于时间的滚动，但对于每个分区，因为通过每个分区的数据不是统一的，也是相似大小的文件。2个问题: 1.如果我试图通过在Kafka connect中更改大量代码来做到这一点，

浏览 1提问于2020-02-20得票数 0

2回答

卡夫卡TimestampConverter没有找到汇合部-连接-转换-1.4.3

apache-kafka、apache-kafka-connect

我安装了MongoDB接收器连接器和连接转换插件，因为我希望将字段的值从Unix历元转换到以前的日期，以便在Mongo上写入数据，但是Kafka Connect会抛出错误。Invalid value class org.apache.kafka.connect.transforms.TimestampConverter for configuration transforms.ttl.tDid you mean org.apache.kafka.<em

浏览 12提问于2022-07-14得票数 0

1回答

Kafka Connect的行为是如何工作的？

apache-kafka、apache-kafka-connect

我正在写一个Kafka Sink连接器到Elasticsearch。我在SinkTask类中实现了start，put，flush，close方法。但是，我不知道Kafka Sink Connector的具体行为是什么。如果Connect Worker重复执行所有这些任务，即通过put()方法从Kafka代理获取SinkRecord，在内部处理它，然后将数据发送到Elasticsearch，我想知道offset commit另外，我想知道这种重复工作<

浏览 3提问于2018-04-24得票数 0

1回答

我的生产者(SQL Server)打开了，Kafka关闭了。如何重新处理发往kafka的消息？

apache-kafka、apache-kafka-connect

我正在使用Debezium SQL Server Source connector通过CDC将数据推送到Kafka。SQL Server表中的数据是连续插入的。当Kafka宕机时，数据还会插入到该表中吗？如果是这样，当我的Kafka打开时，如何获得这些记录？

浏览 13提问于2020-05-22得票数 0

回答已采纳

1回答

我们能否使用kafkastreams将数据加载到任何数据库中？

apache-kafka、apache-kafka-streams

我使用Kafka流从主题中获取数据，现在我想将这些数据加载到Postgres。有可能吗？

浏览 0提问于2021-06-04得票数 0

回答已采纳

2回答

扩容Kafka* Connect是否等同于扩容Kafka Consumer？*

apache-kafka、kafka-consumer-api、apache-kafka-connect

我们需要从Kafka中提取数据并写入AWS s3。Kafka由单独的部门管理，我们只能访问特定的主题。根据Kafka文档，看起来Kafka Connect对我来说是一个简单的解决方案，因为我没有任何自定义的消息处理逻辑。通常，当我们运行Kafka Consumer时，我们可以使用相同的使用者组运行多个JVM，以实现可伸缩性。特定消费者的消费者JV

浏览 2提问于2018-03-08得票数 1

1回答

kafka-connect-elasticsearch:将消息存储为预定义索引的格式

elasticsearch、apache-kafka

示例：此消息结构在kafka主题中，但我希望在elasticsearch中对其进行索引，如下所示 {"id":"1","name"

浏览 0提问于2018-09-20得票数 0

1回答

kafka接收器连接器中无效JSON的错误处理

mongodb、error-handling、apache-kafka、apache-kafka-connect

我有一个mongodb的接收器连接器，它从主题中提取json并将其放入mongoDB集合中。我的分布式模式连接器如下所示： "name": "sink-mongonew_test1", "connector.class": "com.mongodb.kafka.connect.MongoSinkConnectorconnection.uri": "m

浏览 0提问于2020-02-11得票数 0

1回答

Kafka Connect是否提供数据溯源？

apache-kafka、apache-kafka-connect

我是第一次接触kafka connect。我使用像nifi这样的工具已经有一段时间了。这些工具为审计提供了数据来源，并为理解数据发生了什么提供了其他目的。但我找不到任何与kafka connect类似的功能。kafka connect有这个功能吗？或者，在kafka connect中是否有处理数据来源的方法，以便了解数据

浏览 13提问于2021-02-24得票数 0

2回答

合流连接-jdbc和精确的一次交付。

apache-kafka、confluent-platform

在数据库中自动递增主键字段作为增量字段的情况下，kafka-connect jdbc在丢失和重复行方面是否安全？

浏览 1提问于2018-04-23得票数 6

1回答

没有分区重置策略的org.apache.kafka.clients.consumer.NoOffsetForPartitionException:未定义偏移量

hadoop、apache-kafka、hdfs、apache-kafka-connect、confluent-platform

我们正在使用Kafka连接器，它不断地从Kafka主题中提取数据并在HDFS上提交数据。at org.apache.kafka.connect.runtime.WorkerSinkTask.iteration:148

浏览 2提问于2017-06-21得票数 2

1回答

当宿端solr在运行期间关闭时，重试尝试而不会丢失数据

apache-kafka、apache-kafka-connect

","topics":"reconnect.backoff.max.ms":"600000"}' http://localhost:8083/connectors 如果solr服务器在运行时关闭，则需要根据连接器配置中</

浏览 0提问于2020-11-26得票数 2

1回答

Debezium SQL Server源连接器在连接器重新启动后跳过记录

sql、sql-server、apache-kafka-connect、debezium

我使用Debezium CDC SQL Server源连接器从SQL server获取数据并将其放入Kafka中，我使用的配置是connector.class=io.debezium.connector.sqlserver.SqlServerConnectordatabase.dbname=demodatabase.history.kafka.bootstrap.servers=localhost:9092database.histo

浏览 0提问于2020-06-26得票数 0

1回答

Kafka Stream:先输出到主题还是直接持久化？

apache-kafka、persistence、apache-kafka-streams

相当多的文章描述了实现Kafka流的使用，其中它们输出到新的Kafka主题，而不是保存到某种分布式数据库。这只是一个常见的用例，假设嵌入的db +交互式查询就足够了，还是有一些架构上的原因，为什么人们想要在再次消费主题来持久化它之前输出它，而不是直接持久化？我不确定这是否有区别，但我正在查看的示例的上下文是针对翻滚时间窗口聚合的。

浏览 14提问于2017-06-19得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云