腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
设置
kafka-connect以从远程代理获取数据
apache-kafka
、
remote-server
、
apache-kafka-connect
我正在尝试
设置
Kafka连接接收器
连接器
。Kafka connect是Kafka connect worker (
confluent-3.2.0
)的一部分。我在机器A上启动并运行了一个Kafka代理(
confluent-3.2.0
)。我想在另一台机器B上
设置
Kafka-connect-sink
连接器
,以使用自定义的Kafka-connect-sink
连接器
jar消费消息。那么,我是否应该通过将classpath
设置
为Kafka- Connect -si
浏览 1
提问于2017-06-09
得票数 0
1
回答
confluent-3.2.0
S3
连接器
默认
分区
设置
amazon-web-services
、
amazon-s3
、
apache-kafka
、
apache-kafka-connect
我已经能够成功地将我的主题数据流写到我的
s3
存储桶中,然而,数据是按数字
分区
的(partition=0)。当前显示:(亚马逊
S3
>存储桶名称>主题>测试> partition=0谢谢你的帮助,沃萨姆
浏览 5
提问于2017-06-29
得票数 0
回答已采纳
2
回答
卡夫卡连接是否可以让机架知道,以便我的
连接器
从一个代理读取所有
分区
?
amazon-web-services
、
amazon-s3
、
apache-kafka
、
apache-kafka-connect
、
confluent-platform
我想建立一个卡夫卡连接
连接器
,它将从卡夫卡经纪人到亚马逊
S3
的所有数据进行备份,我正在尝试使用MSK来实现它。"client.rack&quo
浏览 16
提问于2022-01-31
得票数 2
1
回答
事先不知道的主题卡夫卡
连接器
接收器
python
、
apache-kafka
、
apache-kafka-connect
我的目标是将这些新主题连接到特定的接收器(
s3
或雪花,还没有决定),这样在这些主题中发布的消息就会在那里结束。如果不可能,是否有一种方法可以通过所有消息连接到公共主题,但根据消息ID创建不同的表(在雪花中)或
s3
目录?此外,对于
s3
,消息是作为单独的json文件添加的,对吗?没办法把它们合并成一个文件?
浏览 4
提问于2022-01-10
得票数 0
2
回答
卡夫卡连接
S3
连接器
与TimeBasedPartitioner的OutOfMemory错误
amazon-s3
、
out-of-memory
、
apache-kafka-connect
我目前正在使用将卡夫卡消息复制到
S3
,并且在处理后期数据时出现了OutOfMemory错误。 因此,在24小时的后期数据中
浏览 1
提问于2018-06-21
得票数 21
回答已采纳
1
回答
如何用ODBC连接雅典娜和Power BI
amazon-s3
、
powerbi
、
amazon-athena
] { "Action": [ "
s3
:GetObject", "
s3
:ListBucket","
s3
:ListBucketMul
浏览 1
提问于2019-11-14
得票数 1
回答已采纳
3
回答
当一个文件从
S3
桶加载时,Spark创建了多少个
分区
?
apache-spark
、
hadoop
、
amazon-s3
、
rdd
如果文件是从HDFS加载的,
默认
情况下,spark会为每个块创建一个
分区
。但是,在从
S3
桶加载文件时,
S3
如何决定
分区
呢?
浏览 7
提问于2016-05-11
得票数 13
回答已采纳
1
回答
具有100个
分区
和50K刷新大小的DefaultPartitioner与TimeBasedPartitioner
S3
上载性能差异
amazon-s3
、
amazon-ec2
、
apache-kafka
、
apache-kafka-connect
、
s3-kafka-connector
我在MSK无服务器集群中使用带有3个副本和2个ISR的100
分区
主题。我的
S3
接收器
连接器
配置。io.confluent.connect.storage.partitioner.DefaultPartitioner
浏览 6
提问于2022-10-28
得票数 0
1
回答
使用kafka key的kafka
s3
连接器
分区
apache-kafka
、
apache-kafka-connect
如何在
s3
连接器
中使用kafka msg key作为
分区
标准,或者如何获取key并将其存储在
s3
对象中,谢谢!
浏览 18
提问于2020-08-24
得票数 0
回答已采纳
1
回答
KAFKA
分区
数据实现每日数据
apache-kafka
同时让我知道是否有可能在每日基础上创建一个
分区
。
浏览 0
提问于2018-04-27
得票数 0
1
回答
kafka connect
S3
连接器
内存分配
apache-kafka
、
apache-kafka-connect
由于java.lang.OutOfMemoryError的原因,我的
S3
连接器
(下面的配置)失败。据我从不同的帖子(例如here)了解,内存分配大约是(
s3
部分大小)* (#kafka
分区
)*(#
分区
创建的
分区
)。我正在阅读一个60个
分区
的主题,我的
分区
程序可以创建几十个
分区
,最小s3.part.size是5MB(由
连接器
强制执行,我会满足于5%)。这只适用于这个
连接器
吗? 是否有其他配置可以帮助我
浏览 18
提问于2020-11-04
得票数 0
1
回答
用键分割卡夫卡连接
s3
接收器
amazon-s3
、
apache-kafka
、
apache-kafka-connect
、
s3-kafka-connector
我们能用键在
s3
接收器
连接器
中分割输出吗?如何在
连接器
配置中只保存每个键的最新10条记录或仅保存10分钟前的数据?或使用键和时间段进行
分区
。
浏览 13
提问于2022-08-14
得票数 0
回答已采纳
1
回答
卡夫卡与自定义timestamp.extractor连接
apache-kafka
、
apache-kafka-connect
、
confluent-platform
当我试图读取从Kafka到
S3
的消息时,我在向Kafka连接类路径添加jar时遇到了问题。 目标是基于时间戳在
分区
中写入消息,时间戳是Kafka消息中键的一部分。
浏览 1
提问于2017-12-18
得票数 4
回答已采纳
2
回答
Kafka Connect分布式tasks.max配置
设置
的理想值是什么?
amazon-s3
、
apache-kafka
、
apache-kafka-connect
、
confluent-platform
然而,我有两个关于tasks.max
设置
的问题,这是必需的,而且非常重要,但是对于实际
设置
这个值的细节是模糊的。如果我有一个具有n个
分区
的主题,我希望从该主题中使用数据并将其写入某个接收器(在我的示例中,我正在写入
S3
),我应该将tasks.max
设置
为什么?我应该将它
设置
为n吗?我应该将其
设置
为2n吗?直觉上,我似乎想要将值
设置
为n,这就是我一直在做的事情。 如果我改变我的Kafka主题并增加主题上的
分区
怎么办?我将不得不暂停我的卡
浏览 4
提问于2017-01-28
得票数 28
回答已采纳
1
回答
调整Kafka的
S3
文件大小
amazon-s3
、
apache-kafka
、
apache-kafka-connect
、
confluent-platform
我正在尝试深入了解
S3
连接器
的flush.size和rotate.interval.ms配置。我部署了
S3
连接器
,我的文件大小不一,从6 kb一直到30 mb,不知道这里是否有人能帮助我建议如何获得几乎相同的文件大小。以下是我的
设置
:flush.size= 200000、rotate.interval.ms=10min 基于这个git 中的一个示例,我们也尝试了滚动我们自己的
连接器
,但我们仍然无法使文件大小接近于相同的大小
浏览 0
提问于2019-11-09
得票数 1
1
回答
火花
s3
写入(
s3
与s3a
连接器
)
amazon-web-services
、
apache-spark
、
amazon-s3
、
parquet
、
amazon-emr
我正在处理一个运行在EMR上的作业,它在
s3
上节省了数千个
分区
。
分区
是年/月/日。 我有过去50年的数据。现在,当spark写入10000个
分区
时,使用s3a连接大约需要1小时。它非常慢。").write.mode("append").partitionBy("year", "month", "day").parquet("s3a://mybucket/data")
浏览 1
提问于2021-11-16
得票数 2
2
回答
卡夫卡将partition.duration.ms与同花顺尺寸之间的属性关系联系起来?
apache-kafka
、
apache-kafka-connect
设置
这些属性的背后应该是什么想法?
浏览 0
提问于2018-10-11
得票数 4
回答已采纳
2
回答
卡夫卡
S3
连接器
如何保证交货?
amazon-s3
、
apache-kafka
、
apache-kafka-connect
、
confluent-platform
连接器
将提交一个50记录的文件,或者在300000ms(5分钟)之后提交一个文件。如果
连接器
上传一个文件到
s3
,但未能提交给卡夫卡,卡夫卡将如何重新上传相同的记录,将覆盖
s3
文件,因为我有一个旋转时间表间隔
设置
?这不会导致
s3
中的复制吗?
浏览 1
提问于2020-04-16
得票数 0
回答已采纳
1
回答
合流
S3
连接器
澄清
amazon-s3
、
apache-kafka
、
apache-kafka-connect
我们使用confluent的
s3
连接器
将avro数据从主题发送到
s3
。我们有3个代理节点,在所有3个节点上都有汇合的S3-
连接器
正在运行。在
连接器
的配置文件中,我们有两个主题和tasks.max=1。 ,因为我们有三个S3-
连接器
,它们是如何从每个主题读取的(每个主题有3个
分区
和2个复制因子)。,,我们在每个
连接器
中有两个主题。它们是启动不同的线程并行地从这两个主题读取数据,还是按顺序使用(每次从一个主题读取)?
浏览 4
提问于2020-05-22
得票数 0
1
回答
了解雪花卡夫卡
连接器
配置优化参数
snowflake-cloud-data-platform
、
apache-kafka-connect
我正在研究从Kafka到雪花的2000张表,使用Kafka连接平台的雪花
连接器
。我想了解如何优化以获得最佳吞吐量。对于Kafka和Kafka
设置
的建议也是受欢迎的,尽管我的主要兴趣是理解
连接器
参数。我们目前每个主题只有一个部分,主题使用RoundRobin
分区
器分布在30个
连接器
任务中。我们跨越所有主题的最大消息大小被配置为3MB,我们使用的是AVRO和lz4压缩。我设想增加
分区
的数量是我的主要杠杆,但我也怀疑,随着配置参数的改变,2000个事件/秒可能低于in。我怀疑应该调整
浏览 3
提问于2021-08-12
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券