我正在使用星火结构化流处理来自卡夫卡的数据。我将每条消息转换为JSON。但是,spark需要一个显式的模式才能从JSON获得列。使用DStreams的火花流允许执行以下操作其中jsons是RDD[String]。在星火结构流的情况下类似的方法(jsons是DataSet[String])Exception in thread
在火花流中,数据按批间隔进行处理。is first batch of data10s~15s is third batch of data是否有一个变量来识别火花流中的每一批数据如果有这样的变量:我可以获得batchID的值来识别哪一批数据,也可以通过batchID (如:window(……).filter(_.batchId == 1) )过滤数据或者有什么方法来区分每一批数据?