我正在尝试通过sparkstructuredstreaming从Kafka中读取数据。但是,在Spark 2.4.0.中,您不能为流设置组id (参见How to set group.id for consumer group in kafka data source in StructuredStreaming?)。然而,由于没有设置,spark只是生成组Id,而我停留在Gr
我使用spark(3.0.0)结构化流从kafka读取主题。下面的火花官方指南部分没有提到DB sink,它也不支持为update mode:写到files
目前,我将其输出到console,并希望将数据存储在文件或DB中。stackoverflow.com/questions/62738727/how-to-deduplicate-and-keep-latest-based-on-timestamp-field-in-spark-structured- h