了解如何将 Kudu 数据从 CDH 迁移到 CDP。
当您将 Kudu 数据从 CDH 迁移到 CDP 时,您必须使用 Kudu 备份工具来备份和恢复您的 Kudu 数据。
您可以使用Kudu 备份工具kudu-backup-tools.jar 备份Kudu 中的所有数据。
Kudu 备份工具运行 Spark 作业,该作业会根据您指定的内容构建备份数据文件并将其写入 HDFS 或 AWS S3。请注意,如果您要备份到 S3,则必须提供 S3 凭据以进行 spark-submit,如指定凭据以从 Spark 访问 S3 中所述
Kudu 备份工具在第一次运行时为您的数据创建完整备份。随后,该工具会创建增量备份。
重要
增量备份和恢复功能仅适用于 CDH 6.3.0 及更高版本。因此,如果您有活动的摄取过程,例如 Spark 作业、Impala SQL 批处理或 Nifi 在 Kudu 中插入或更新数据,您可能需要在开始完整备份之前暂停这些过程,以避免在开始 Kudu 备份过程后丢失数据更改.
运行以下命令以启动备份过程:
spark-submit --class org.apache.kudu.backup.KuduBackup <path to kudu-backup2_2.11-1.12.0.jar> \
--kuduMasterAddresses <addresses of Kudu masters> \
--rootPath <path to store the backed up data> \
<table_name>
其中
如果您正在备份到 S3 并看到“线程“main”中的异常java.lang.IllegalArgumentException:路径必须是绝对的”错误,请确保 S3 路径以正斜杠 ( /)结尾。
例子:
spark-submit --class org.apache.kudu.backup.KuduBackup /opt/cloudera/parcels/CDH-7.2.1-1.cdh7.2.1.p0.4041380/lib/kudu/kudu-backup2_2.11.jar \
--kuduMasterAddresses cluster-1.cluster_name.root.hwx.site,cluster-2.cluster_name.root.hwx.site \
--rootPath hdfs:///kudu-backups \
my_table
在 Kudu 中备份数据后,您可以将数据复制到目标 CDP 集群,然后使用 Kudu 备份工具将其恢复。
如果您在旧集群中应用了任何自定义 Kudu 配置,那么您必须手动在目标集群中应用这些配置。
如果您更改了 的值tablet_history_max_age_sec并计划在目标集群上运行 Kudu 的增量备份,我们建议将其重置tablet_history_max_age_sec为默认值 1 周(请参阅https://issues.apache.org/jira/browse/KUDU-2677)。
常用修改配置标志的示例:
手动应用自定义配置后,重新启动 Kudu 集群。
sudo -u hdfs hadoop distcp hdfs:///kudu/kudu-backups/* hdfs://cluster-2.cluster_name.root.hwx.site/kudu/kudu-backups/
spark-submit --class org.apache.kudu.backup.KuduRestore <path to kudu-backup2_2.11-1.12.0.jar> \
--kuduMasterAddresses <addresses of Kudu masters> \
--rootPath <path to the stored backed up data> \
<table_name>
其中
如果您已备份到 S3 并看到“线程“main”中的异常java.lang.IllegalArgumentException:路径必须是绝对的”错误,请确保 S3 路径以正斜杠 ( /)结尾。
sudo -u hdfs spark-submit --class org.apache.kudu.backup.KuduRestore /opt/cloudera/parcels/CDH-7.2.0-1.cdh7.2.0.p0.3758356/lib/kudu/kudu-backup2_2.11.jar \
--kuduMasterAddresses cluster-1.cluster_name.root.hwx.site \
--rootPath hdfs:///kudu/kudu-backups \
my_table
原文链接:https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/data-migration/topics/cdp-data-migration-kudu.html