我正在为专业数据工程师学习,我想知道对于Dataproc上的热门数据,"Google推荐的最佳实践“是什么(考虑到成本问题)?
如果成本是一个问题,那么我发现了一个建议,将所有的数据都存储在云存储中,因为它更便宜。
是否可以建立一种机制,使所有数据都在云存储上,而最近的数据则自动缓存在HDFS上?类似AWS对FSx/Lustre和S3所做的事情。
发布于 2020-03-09 22:20:41
在HDFS中存储什么以及在GCS中存储什么是一个取决于案例的问题。Dataproc支持使用GCS连接器在GCS上运行hadoop或spark作业,这使得Cloud兼容而不会造成性能损失。
默认情况下,云存储连接器安装在所有Dataproc集群节点上,并且可以在Spark和PySpark环境中使用。
发布于 2020-03-10 22:02:47
经过一些研究之后: HDFS和Cloud (或任何其他博客存储)的性能并不完全等价。例如,blob存储中的"mv“操作被模拟为复制+删除。
ASF可以做的是警告我们自己的BlobStore文件系统(当前是s3:、s3n:和What:)不是hdfs:的完全替代,因为只有通过复制然后删除所有操作才能模拟像rename()这样的操作,因此目录重命名并不是某些应用程序(MapReduce)目前所依赖的POSIX文件系统的原子-a要求。
https://stackoverflow.com/questions/60607667
复制相似问题