首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Dataproc: HDFS上的热数据,云存储上的冷数据?

Dataproc: HDFS上的热数据,云存储上的冷数据?
EN

Stack Overflow用户
提问于 2020-03-09 20:09:29
回答 2查看 183关注 0票数 2

我正在为专业数据工程师学习,我想知道对于Dataproc上的热门数据,"Google推荐的最佳实践“是什么(考虑到成本问题)?

如果成本是一个问题,那么我发现了一个建议,将所有的数据都存储在云存储中,因为它更便宜。

是否可以建立一种机制,使所有数据都在云存储上,而最近的数据则自动缓存在HDFS上?类似AWS对FSx/Lustre和S3所做的事情。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-03-09 22:20:41

在HDFS中存储什么以及在GCS中存储什么是一个取决于案例的问题。Dataproc支持使用GCS连接器在GCS上运行hadoop或spark作业,这使得Cloud兼容而不会造成性能损失。

默认情况下,云存储连接器安装在所有Dataproc集群节点上,并且可以在Spark和PySpark环境中使用。

票数 2
EN

Stack Overflow用户

发布于 2020-03-10 22:02:47

经过一些研究之后: HDFS和Cloud (或任何其他博客存储)的性能并不完全等价。例如,blob存储中的"mv“操作被模拟为复制+删除。

ASF可以做的是警告我们自己的BlobStore文件系统(当前是s3:、s3n:和What:)不是hdfs:的完全替代,因为只有通过复制然后删除所有操作才能模拟像rename()这样的操作,因此目录重命名并不是某些应用程序(MapReduce)目前所依赖的POSIX文件系统的原子-a要求。

来源:https://cwiki.apache.org/confluence/display/HADOOP2/HCFS

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60607667

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档