我是第一次接触kafka和sparkstructuredstreaming。我想知道spark in batch模式是如何知道从哪个偏移量读取的?如果我指定"startingOffsets“为”最早的“,我只会得到最新的记录,而不是分区中的所有记录。我在两个不同的集群中运行了相同的代码。集群A(本地机器)获取了6条记录,集群B( TST集群-第一次运
// As I understand things, DataFrame ops must be run
// on Workers as well as streaming,Spark和Kafka将自动协作,以确定要将多少个使用者线程部署到可用的工作节点上,这可能会导致对Kafka主题的消息进行并行处理。但如果我不想要多个平行的消费者呢?如果希望1和只有1的</