首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >同步HDFS数据和google云存储数据(用于BDR)

同步HDFS数据和google云存储数据(用于BDR)
EN

Stack Overflow用户
提问于 2022-02-16 20:59:39
回答 1查看 354关注 0票数 0

为了在GCP中实现Cloudera备份和AWS类功能的灾难恢复,我正在寻找一些替代方案。

下面的方法会有效吗?

  1. 将GCP连接器添加到on-prem Cloudera集群中
  2. 然后用hadoop dist-cp复制
  3. 然后用gsutil rsync [OPTION]... src_url dst_url同步hdfs源目录到gcs目录。

如果上面的方法是不可能的,那么在Google云存储(GCS)中实现Cloudera BDR还有其他选择吗?

EN

回答 1

Stack Overflow用户

发布于 2022-02-17 09:29:01

目前,Cloudera的备份和灾难恢复不支持局限性中列出的Google。请通过此链接查看整个文档以获得配置Google云存储连接

上述方法将有效。我们只需要添加几个步骤就可以了:

  1. 我们首先需要使用云互连或云VPN在or网络和Google网络之间建立一个私有链接。
  2. 数据传输需要Dataproc集群。
  3. 使用Google连接到主实例。
  4. 最后,您可以运行DistCp命令来移动数据。

有关更详细的信息,您可以查看有关使用DistCp将数据复制到云存储的完整文档。

谷歌也有自己的BDR,你可以检查这个数据恢复规划指南

请注意,不能成为集群的默认文件系统。

您还可以检查以下链接:与Google合作伙伴合作

您可以使用以下连接器:

  • 在Spark (或PySpark)或Hadoop应用程序中使用gs://前缀。
  • hadoop:hadoop fs -ls gs://bucket/dir/file
  • 云控制台云存储浏览器。
  • 使用gsutil cpgsutil rsync命令。

您可以在使用连接器上查看这个完整的文档。

如果你有问题请告诉我。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71149205

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档