我在S3上有一个文件,我希望使用Spark使用多个节点来处理该文件。spark是如何在幕后实现这一点的?每个工作节点是否从S3读取一部分数据(使用字节范围请求)?我想知道在HDFS和S3上使用Spark在并行处理方面有什么不同。当我使用电子病历的时候重要吗?
发布于 2018-06-10 05:00:02
spark如何在幕后实现这一点?
有许多公开文章解释了spark是如何像this一样工作的。
我想知道在HDFS和S3上使用
在并行处理方面有什么不同。当我使用电子病历的时候重要吗?
这取决于你的用例是什么。一般说来,它可以归结为:
Vs
https://stackoverflow.com/questions/49937676
相似问题