首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用Spark在S3上处理单个文件

使用Spark在S3上处理单个文件
EN

Stack Overflow用户
提问于 2018-04-20 16:48:52
回答 1查看 309关注 0票数 2

我在S3上有一个文件,我希望使用Spark使用多个节点来处理该文件。spark是如何在幕后实现这一点的?每个工作节点是否从S3读取一部分数据(使用字节范围请求)?我想知道在HDFS和S3上使用Spark在并行处理方面有什么不同。当我使用电子病历的时候重要吗?

EN

回答 1

Stack Overflow用户

发布于 2018-06-10 05:00:02

spark如何在幕后实现这一点?

有许多公开文章解释了spark是如何像this一样工作的。

我想知道在HDFS和S3上使用

在并行处理方面有什么不同。当我使用电子病历的时候重要吗?

这取决于你的用例是什么。一般说来,它可以归结为:

  • 您会选择S3而不是HDFS作为持久存储选项,它可以包含超出EMR集群生命周期的数据。
  • 无限制(理论上)存储限制。
  • 高服务级别协议和SLAEMR上的HDFS是短暂的。因此,您不需要让集群保持运行即可获得数据。etc

Vs

  • HDFS在I/O操作、中间/临时数据位置方面速度更快,因为S3通信涉及互联网上的应用编程接口调用。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49937676

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档