confluent-3.2.0 S3连接器默认分区设置

文章/答案/技术大牛

发布

1回答

设置kafka-connect以从远程代理获取数据

apache-kafka、remote-server、apache-kafka-connect

我正在尝试设置Kafka连接接收器连接器。Kafka connect是Kafka connect worker (confluent-3.2.0)的一部分。我在机器A上启动并运行了一个Kafka代理(confluent-3.2.0)。我想在另一台机器B上设置Kafka-connect-sink连接器，以使用自定义的Kafka-connect-sink连接器jar消费消息。那么，我是否应该通过将classpath设置为Kafka- Connect -si

浏览 1提问于2017-06-09得票数 0

1回答

amazon-web-services、amazon-s3、apache-kafka、apache-kafka-connect

我已经能够成功地将我的主题数据流写到我的s3存储桶中，然而，数据是按数字分区的(partition=0)。当前显示：(亚马逊S3 >存储桶名称>主题>测试> partition=0谢谢你的帮助，沃萨姆

浏览 5提问于2017-06-29得票数 0

回答已采纳

2回答

卡夫卡连接是否可以让机架知道，以便我的连接器从一个代理读取所有分区？

amazon-web-services、amazon-s3、apache-kafka、apache-kafka-connect、confluent-platform

我想建立一个卡夫卡连接连接器，它将从卡夫卡经纪人到亚马逊S3的所有数据进行备份，我正在尝试使用MSK来实现它。"client.rack&quo

浏览 16提问于2022-01-31得票数 2

1回答

事先不知道的主题卡夫卡连接器接收器

python、apache-kafka、apache-kafka-connect

我的目标是将这些新主题连接到特定的接收器(s3或雪花，还没有决定)，这样在这些主题中发布的消息就会在那里结束。如果不可能，是否有一种方法可以通过所有消息连接到公共主题，但根据消息ID创建不同的表(在雪花中)或s3目录？此外，对于s3，消息是作为单独的json文件添加的，对吗？没办法把它们合并成一个文件？

浏览 4提问于2022-01-10得票数 0

2回答

卡夫卡连接S3连接器与TimeBasedPartitioner的OutOfMemory错误

amazon-s3、out-of-memory、apache-kafka-connect

我目前正在使用将卡夫卡消息复制到S3，并且在处理后期数据时出现了OutOfMemory错误。因此，在24小时的后期数据中

浏览 1提问于2018-06-21得票数 21

回答已采纳

1回答

如何用ODBC连接雅典娜和Power BI

amazon-s3、powerbi、amazon-athena

] { "Action": [ "s3:GetObject", "s3:ListBucket","s3:ListBucketMul

浏览 1提问于2019-11-14得票数 1

回答已采纳

3回答

当一个文件从S3桶加载时，Spark创建了多少个分区？

apache-spark、hadoop、amazon-s3、rdd

如果文件是从HDFS加载的，默认情况下，spark会为每个块创建一个分区。但是，在从S3桶加载文件时，S3如何决定分区呢？

浏览 7提问于2016-05-11得票数 13

回答已采纳

1回答

具有100个分区和50K刷新大小的DefaultPartitioner与TimeBasedPartitioner S3上载性能差异

amazon-s3、amazon-ec2、apache-kafka、apache-kafka-connect、s3-kafka-connector

我在MSK无服务器集群中使用带有3个副本和2个ISR的100分区主题。我的S3接收器连接器配置。io.confluent.connect.storage.partitioner.DefaultPartitioner

浏览 6提问于2022-10-28得票数 0

1回答

使用kafka key的kafka s3连接器分区

apache-kafka、apache-kafka-connect

如何在s3连接器中使用kafka msg key作为分区标准，或者如何获取key并将其存储在s3对象中，谢谢！

浏览 18提问于2020-08-24得票数 0

回答已采纳

1回答

KAFKA分区数据实现每日数据

apache-kafka

同时让我知道是否有可能在每日基础上创建一个分区。

浏览 0提问于2018-04-27得票数 0

1回答

kafka connect S3连接器内存分配

apache-kafka、apache-kafka-connect

由于java.lang.OutOfMemoryError的原因，我的S3连接器(下面的配置)失败。据我从不同的帖子(例如here)了解，内存分配大约是(s3部分大小)* (#kafka分区)*(#分区创建的分区)。我正在阅读一个60个分区的主题，我的分区程序可以创建几十个分区，最小s3.part.size是5MB(由连接器强制执行，我会满足于5%)。这只适用于这个连接器吗？是否有其他配置可以帮助我

浏览 18提问于2020-11-04得票数 0

1回答

用键分割卡夫卡连接s3接收器

amazon-s3、apache-kafka、apache-kafka-connect、s3-kafka-connector

我们能用键在s3接收器连接器中分割输出吗？如何在连接器配置中只保存每个键的最新10条记录或仅保存10分钟前的数据？或使用键和时间段进行分区。

浏览 13提问于2022-08-14得票数 0

回答已采纳

1回答

卡夫卡与自定义timestamp.extractor连接

apache-kafka、apache-kafka-connect、confluent-platform

当我试图读取从Kafka到S3的消息时，我在向Kafka连接类路径添加jar时遇到了问题。目标是基于时间戳在分区中写入消息，时间戳是Kafka消息中键的一部分。

浏览 1提问于2017-12-18得票数 4

回答已采纳

2回答

Kafka Connect分布式tasks.max配置设置的理想值是什么？

amazon-s3、apache-kafka、apache-kafka-connect、confluent-platform

然而，我有两个关于tasks.max设置的问题，这是必需的，而且非常重要，但是对于实际设置这个值的细节是模糊的。如果我有一个具有n个分区的主题，我希望从该主题中使用数据并将其写入某个接收器(在我的示例中，我正在写入S3)，我应该将tasks.max设置为什么？我应该将它设置为n吗？我应该将其设置为2n吗？直觉上，我似乎想要将值设置为n，这就是我一直在做的事情。如果我改变我的Kafka主题并增加主题上的分区怎么办？我将不得不暂停我的卡

浏览 4提问于2017-01-28得票数 28

回答已采纳

1回答

调整Kafka的S3文件大小

amazon-s3、apache-kafka、apache-kafka-connect、confluent-platform

我正在尝试深入了解S3连接器的flush.size和rotate.interval.ms配置。我部署了S3连接器，我的文件大小不一，从6 kb一直到30 mb，不知道这里是否有人能帮助我建议如何获得几乎相同的文件大小。以下是我的设置：flush.size= 200000、rotate.interval.ms=10min 基于这个git 中的一个示例，我们也尝试了滚动我们自己的连接器，但我们仍然无法使文件大小接近于相同的大小

浏览 0提问于2019-11-09得票数 1

1回答

火花s3写入(s3与s3a连接器)

amazon-web-services、apache-spark、amazon-s3、parquet、amazon-emr

我正在处理一个运行在EMR上的作业，它在s3上节省了数千个分区。分区是年/月/日。我有过去50年的数据。现在，当spark写入10000个分区时，使用s3a连接大约需要1小时。它非常慢。").write.mode("append").partitionBy("year", "month", "day").parquet("s3a://mybucket/data")

浏览 1提问于2021-11-16得票数 2

2回答

卡夫卡将partition.duration.ms与同花顺尺寸之间的属性关系联系起来？

apache-kafka、apache-kafka-connect

设置这些属性的背后应该是什么想法？

浏览 0提问于2018-10-11得票数 4

回答已采纳

2回答

卡夫卡S3连接器如何保证交货？

amazon-s3、apache-kafka、apache-kafka-connect、confluent-platform

连接器将提交一个50记录的文件，或者在300000ms(5分钟)之后提交一个文件。如果连接器上传一个文件到s3，但未能提交给卡夫卡，卡夫卡将如何重新上传相同的记录，将覆盖s3文件，因为我有一个旋转时间表间隔设置？这不会导致s3中的复制吗？

浏览 1提问于2020-04-16得票数 0

回答已采纳

1回答

合流S3连接器澄清

amazon-s3、apache-kafka、apache-kafka-connect

我们使用confluent的s3连接器将avro数据从主题发送到s3。我们有3个代理节点，在所有3个节点上都有汇合的S3-连接器正在运行。在连接器的配置文件中，我们有两个主题和tasks.max=1。，因为我们有三个S3-连接器，它们是如何从每个主题读取的(每个主题有3个分区和2个复制因子)。，，我们在每个连接器中有两个主题。它们是启动不同的线程并行地从这两个主题读取数据，还是按顺序使用(每次从一个主题读取)？

浏览 4提问于2020-05-22得票数 0

1回答

了解雪花卡夫卡连接器配置优化参数

snowflake-cloud-data-platform、apache-kafka-connect

我正在研究从Kafka到雪花的2000张表，使用Kafka连接平台的雪花连接器。我想了解如何优化以获得最佳吞吐量。对于Kafka和Kafka设置的建议也是受欢迎的，尽管我的主要兴趣是理解连接器参数。我们目前每个主题只有一个部分，主题使用RoundRobin分区器分布在30个连接器任务中。我们跨越所有主题的最大消息大小被配置为3MB，我们使用的是AVRO和lz4压缩。我设想增加分区的数量是我的主要杠杆，但我也怀疑，随着配置参数的改变，2000个事件/秒可能低于in。我怀疑应该调整

浏览 3提问于2021-08-12得票数 1

点击加载更多