首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Spark streaming DStream RDD获取文件名

Spark streaming DStream RDD获取文件名
EN

Stack Overflow用户
提问于 2015-03-13 19:38:46
回答 3查看 3K关注 0票数 9

Spark streaming textFileStreamfileStream可以监控目录并处理Dstream RDD中的新文件。

如何获取DStream RDD在该特定时间间隔正在处理的文件名?

EN

Stack Overflow用户

发布于 2020-05-05 05:53:47

或者,通过修改FileInputDStream,而不是将文件内容加载到RDD中,它只需从文件名创建RDD即可。

如果您实际上不想将数据本身读取到RDD中,或者希望将文件名作为您的步骤之一传递给外部命令,则这会提高性能。

只需更改filesToRDD(..)因此,它对文件名进行RDD,而不是将数据加载到RDD中。

请参阅:https://github.com/HASTE-project/bin-packing-paper/blob/master/spark/spark-scala-cellprofiler/src/main/scala/FileInputDStream2.scala#L278

票数 0
EN
查看全部 3 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29031276

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档