前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark读取多个文件夹(嵌套)下的多个文件

spark读取多个文件夹(嵌套)下的多个文件

作者头像
sparkexpert
发布2022-05-07 14:40:06
3.1K0
发布2022-05-07 14:40:06
举报

在正常调用过程中,难免需要对多个文件夹下的多个文件进行读取,然而之前只是明确了spark具备读取多个文件的能力。

针对多个文件夹下的多个文件,以前的做法是先进行文件夹的遍历,然后再进行各个文件夹目录的读取。

今天在做测试的时候,居然发现spark原生就支持这样的能力。

原理也非常简单,就是textFile功能。编写这样的代码,读取上次输出的多个结果,由于RDD保存结果都是保存为一个文件夹。而多个相关联RDD的结果就是多个文件夹。

通过如下代码:

  //## read all files(files in different directorys)           val alldata = sc.textFile("data/Flag/*/part-*")           println(alldata.count())   

经过测试,可以实现对多个相关联RDD保存结果的一次性读取。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档