开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >spark批量读取大量小文件的办法

spark批量读取大量小文件的办法

sparkexpert

发布于 2022-05-07 14:23:22

1.1K0

发布于 2022-05-07 14:23:22

举报

文章被收录于专栏：大数据智能实战

在实际工程中，经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。

幸运的是，spark原生是支持这种功能的。它可以批量地读取众多的文件，也可以按照一定的方式进行过滤。

命令十分简单。如下：

sc.textfile("/dir/*.txt")

其中DIR就是路径，而＊.txt则是对某种类型的文件进行过滤。

通过这种方式，可以直接实现对众多小文件的快速读取。（而且还是多核并行的方式），比起传统的多线程操作，还是快多了。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2016-03-17，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.