腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
spark
批量
加载
kafka
主
题中
的
所有
记录
apache-spark
、
apache-kafka
、
apache-spark-sql
、
kafka-consumer-api
我想要
加载
所有
的
记录
从
kafka
主题
使用
火花,但
所有
的例子,我已经看到
使用
火花流。我怎么才能
加载
消息fwom
kafka
一次?
浏览 14
提问于2019-06-21
得票数 1
回答已采纳
1
回答
Kafka
:将源从MySQL切换到
Kafka
apache-kafka
、
kafka-consumer-api
来自MySQL和
Kafka
主题
的
事件数据。我们将从MySQL
加载
历史数据,然后切换到
Kafka
,以便当前
的
data.Mysql ID也会流入
Kafka
。因此,消息包含事件ID。
Kafka
流事件将
使用
spark
作业进行处理,并最终将数据摄取到报表中。 问题:
如何
加载
历史数据并实时切换到
Kafka
源。 1-创建临时
使用
者组以存储
所有
分区的当前偏移量和
浏览 18
提问于2020-01-23
得票数 0
1
回答
从writeStream读取到json文件,但在HDFS json文件中只找到一条消息。
json
、
apache-kafka
、
spark-structured-streaming
只需设置一个hadoop/
kafka
/星火,一个节点演示环境。奇怪
的
是,在hadoop "output/test“目录下,我可以找到一个创建
的
json文件,但只有一个消息。卡夫卡
的
所有
新消息都不会更新json文件。但是我想把卡夫卡
的
所有
信息都存储在一个json文件中。我尝试过控制台(writeStream.format(“控制台”)或kafak(writeStream.format("
kafka
&quo
浏览 2
提问于2022-08-27
得票数 0
1
回答
Spark
结构流
批量
查询
apache-spark
、
pyspark
、
spark-structured-streaming
我是第一次接触
kafka
和
spark
structured streaming。我想知道
spark
in batch模式是
如何
知道从哪个偏移量读取
的
?如果我指定"startingOffsets“为”最早
的
“,我只会得到最新
的
记录
,而不是分区中
的
所有
记录
。我在两个不同
的
集群中运行了相同
的
代码。df =
spark
\ .read
浏览 0
提问于2020-10-24
得票数 0
1
回答
如何
在MySQL表中捕获新
的
插入
python
、
mysql
我想捕获提交到Python表中
的
新插入,并在MySQL中处理这些
记录
。 例如:在一个"Order“表中,每次客户下订单时都会插入一条新
记录
。我想实时捕捉对Table所做
的
更改,并在Python中处理它,以便例如将此
记录
写入csv文件。 要做到这一点,最佳
的
方法是什么?我在考虑每秒运行一个脚本,跟踪表
的
总计数,每当计数上升时,我就拉出最新
的
x行。但也许有一种更简单、更可靠
的
方法? 干杯!
浏览 10
提问于2021-07-28
得票数 0
回答已采纳
2
回答
使用
pyspark批处理作业读取
Kafka
的
最新
记录
apache-spark
、
apache-kafka
我正在pyspark中执行一个批处理作业,其中
spark
将每5分钟读取一次
kafka
主
题中
的
数据。df =
spark
\ .format("
kafka
") \ .test") \ .option("startingOffsets", &quo
浏览 2
提问于2020-03-04
得票数 0
1
回答
如何
比较两个
spark
streaming作业
的
性能?
scala
、
apache-spark
、
serialization
、
apache-kafka
我
的
spark
工作是
使用
kafka
主
题中
的
数据并执行一些操作。区别在于序列化,一个是
使用
java序列化,另一个是
使用
kryo序列化。
如何
比较这两个流作业,因为它们在同一时间间隔内具有不同
的
每秒输入数量和不同
的
输入
批量
大小?
浏览 12
提问于2019-12-04
得票数 1
1
回答
Spark
Streaming job
如何
在
Kafka
主题上发送数据并保存在Elastic中
java
、
spring-boot
、
apache-spark
、
apache-kafka
、
spark-streaming
我正在做一个数据分析项目,在这个项目中,我从CSV文件中读取数据,在
Kafka
主题上遍历该文件,并
使用
Spark
Streaming来
使用
该
Kafka
主题数据。我在一个单一
的
项目中
使用
的
所有
组件。现在,在
使用
Spark
Streaming消费数据后,我必须对其进行一些计算,我必须将数据保存到elastic search中,并且我必须将该数据发送到另一个主题。,即在Elastic Search中保存数
浏览 0
提问于2019-06-04
得票数 0
1
回答
如何
通过REST API从数据库中流式传输数据?
database
、
apache-spark
、
apache-kafka
、
django-rest-framework
、
streaming
我有大量数据存储在Postres数据库中,我需要
使用
Django通过REST API将数据发送到客户端。要求是以块
的
形式发送数据,而不是一次性将整个内容
加载
到内存中。但是有没有其他更好
的
选择呢?我听说过
Kafka
和
Spark
的
流媒体应用程序,但我检查过
的
这两个教程往往涉及流媒体实时数据,如与Twitter数据交互等。但是,
使用
这两个应用程序中
的
任何一个可以从数据库中流式传输数据吗?如果是,那么我
如何
浏览 25
提问于2019-06-16
得票数 0
1
回答
单
记录
kafka
消费者和
kafka
批量
消费者
的
基本区别是什么?
spring-kafka
我正在
使用
spring-
kafka
2.2.8,试图理解单个
记录
消费者和
批量
消费者之间
的
主要区别是什么。 据我所知,从一个主
题中
读取消息/字节对于单个
记录
消费者和
批量
消费者来说没有什么不同。唯一
的
区别是
如何
提交偏移量。并因此进行错误处理。我
的
理解正确吗?请确认。
浏览 170
提问于2020-10-17
得票数 0
回答已采纳
1
回答
如何
从
Kafka
Topic中获取
记录
总数并保存到HDFS中?
java
、
apache-spark
、
hadoop
、
apache-kafka
、
spark-streaming-kafka
全,Dataset ds1=ds.filter(args[5]);
浏览 4
提问于2020-05-22
得票数 1
1
回答
kafka
max.poll.records不适用于火花流。
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-consumer-api
我
的
火花流版本是2.0,
kafka
版本是0.10.0.1,火花流-
kafka
-0-10_2.11。我
使用
直接
的
方式获得卡夫卡
的
记录
,我现在想限制我在一批中获得
的
信息
的
最大数量。星星之火中
的
消费者数量是卡夫卡中
的
分区数?那么火花流中
记录
的
最大数量是max.poll.records*consumers?
浏览 1
提问于2018-09-27
得票数 2
1
回答
kSQLDB声明密钥字段在流或表上创建随机密钥
apache-kafka
、
ksqldb
我正在
使用
kSQLDB并从一个主题创建一个流,当我显式声明一个KEY时,我会得到一个不属于我
的
键
的
随机值。如果删除KEY关键字,我需要
的
值实际上是在Id列中指定
的
。 -- omitdeclaring id as the key
浏览 3
提问于2021-10-20
得票数 0
1
回答
如何
在
Spark
Streaming 2.3.1中将每条
记录
写入多个
kafka
主题?
apache-spark
、
apache-kafka
、
spark-streaming
如何
在
Spark
Streaming 2.3.1中将每条
记录
写入多个
kafka
主题?换句话说,我有5条
记录
和两个输出
kafka
主题,我希望在两个输出主
题中
都有5条
记录
。问题没有谈到结构化
的
流媒体案例。我正在寻找结构化流媒体
的
具体。
浏览 16
提问于2018-07-23
得票数 1
1
回答
Spark
Kafka
Producer抛出过多打开文件异常
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-producer-api
我正在尝试运行一个用Java编写
的
Spark
Kafka
Job,以每批产生大约10K条
记录
到
Kafka
主题。这是一个
spark
批处理作业,它在循环中顺序读取100个(总共100万条
记录
) hdfs零件文件,并
批量
生成10K条
记录
的
每个零件文件。我正在
使用
org.apache.
kafka
.clients.producer.KafkaProducer接口org.
浏览 0
提问于2020-06-03
得票数 0
1
回答
Spark
avro获取org.apache.
spark
.SparkException:在
记录
解析中检测到格式错误
的
记录
apache-spark
、
apache-kafka
、
apache-spark-sql
、
spark-streaming
、
avro
在我
的
Spark
streaming工作中,我试图从
Kafka
主
题中
读取Confluentavro消息,并获得“在
记录
解析中检测到错误
的
记录
”。object AvroReadMessage extends A
浏览 0
提问于2019-12-16
得票数 0
1
回答
如何
保证debezium生成
的
topic事件顺序,存储在
kafka
中并发送给
spark
?
apache-spark
、
apache-kafka
、
debezium
、
change-data-capture
我
使用
debezium捕获
所有
更改并将其发送给
kafka
。后来,我读取了
Spark
的
所有
信息,并
使用
jdbc将其发送到Apache Phoenix。我正在
使用
debezium和一个重路由选项,它只将
所有
表
的
更改发送到一个
kafka
主题。有了这个配置,我确信我可以按顺序阅读
spark
中独特
的
kafka
主题。但我
的
问题是:如果我<e
浏览 96
提问于2019-05-03
得票数 0
3
回答
Pyspark结构化流
Kafka
配置错误
apache-spark
、
pyspark
、
apache-kafka
、
apache-spark-sql
、
spark-structured-streaming
我之前已经成功地
使用
了pyspark for
Spark
Streaming (
Spark
2.0.2)和
Kafka
(0.10.1.0),但我
的
目的更适合于结构化流媒体。我尝试在线
使用
示例:ds1 =
spark
.format("
kafka
").optio
浏览 2
提问于2017-07-07
得票数 1
1
回答
如何
在
使用
Spark
Java向
Kafka
Producer写入
Spark
Dataframe时控制
记录
数
dataframe
、
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-producer-api
我有一个包含两列
的
spark
数据帧,'keyCol‘列和'valCol’列。数据帧
的
大小非常巨大,接近1亿行。我想以小
批量
的
方式向
kafka
主题写入/产生数据帧,即每分钟10000条
记录
。此
spark
作业将每天运行一次,从而创建此数据帧
如何
在下面的代码中实现每分钟10000条
记录
的
小
批量
写入,或者请建议是否有更好/更有效
的
浏览 10
提问于2020-04-27
得票数 1
3
回答
火花流断言失败:在对4096进行轮询后,未能获得火花执行器-a-group a-主题7 244723248
的
记录
。
apache-spark
、
apache-kafka
、
spark-streaming
Kafka
DirectStream
的
火花流问题: 1)调整
spark
.streaming.
kafka
.consumer.poll.ms增长2)将执行器内存从1G调整为2G。, "1024") .config("
spark
.streaming.
k
浏览 4
提问于2017-02-16
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
为什么BAT互联网都爱用kafka?看完你就知道了
Spark Streaming 2.2.0 Example
Spark Streaming与Kafka 整合的改进
Apache Spark 2.4 内置的 Avro 数据源实战
Spark踩坑记:Spark Streaming+kafka应用及调优
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券