在实际工程中,经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。
幸运的是,spark原生是支持这种功能的。它可以批量地读取众多的文件,也可以按照一定的方式进行过滤。
命令十分简单。如下:
sc.textfile("/dir/*.txt")
其中DIR就是路径,而*.txt则是对某种类型的文件进行过滤。
通过这种方式,可以直接实现对众多小文件的快速读取。(而且还是多核并行的方式),比起传统的多线程操作,还是快多了。
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!