问使用Spark在S3上处理单个文件
EN

Stack Overflow用户

提问于 2018-04-20 16:48:52

回答 1查看 309关注 0票数 2

我在S3上有一个文件，我希望使用Spark使用多个节点来处理该文件。spark是如何在幕后实现这一点的？每个工作节点是否从S3读取一部分数据(使用字节范围请求)？我想知道在HDFS和S3上使用Spark在并行处理方面有什么不同。当我使用电子病历的时候重要吗？

发布于 2018-06-10 05:00:02

spark如何在幕后实现这一点？

有许多公开文章解释了spark是如何像this一样工作的。

我想知道在HDFS和S3上使用

在并行处理方面有什么不同。当我使用电子病历的时候重要吗？

这取决于你的用例是什么。一般说来，它可以归结为：

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49937676

复制

相似问题

问使用Spark在S3上处理单个文件EN