Spark streaming textFileStream和fileStream可以监控目录并处理Dstream RDD中的新文件。
如何获取DStream RDD在该特定时间间隔正在处理的文件名?
发布于 2020-05-05 05:53:47
或者,通过修改FileInputDStream,而不是将文件内容加载到RDD中,它只需从文件名创建RDD即可。
如果您实际上不想将数据本身读取到RDD中,或者希望将文件名作为您的步骤之一传递给外部命令,则这会提高性能。
只需更改filesToRDD(..)因此,它对文件名进行RDD,而不是将数据加载到RDD中。
https://stackoverflow.com/questions/29031276
复制相似问题