专栏首页容器计算【HDFS】distcp报错Check0sum mismatch
原创

【HDFS】distcp报错Check0sum mismatch

本来想写个 spark 任务来导数据的,但是时间有限,为了快速实现把数据从 HDFS 集群 A 转移到集群 B,还是选择用 hadoop distcp 命令来拷贝数据。具体的命令如下。

hadoop distcp hdfs://clusterA/xxx hdfs://clusterB:/xxx

没想到报错了。

错误信息的分析也很简单,就是没有 Check-sum 这个文件。看一下 help 信息。

# bin/hadoop distcp
usage: distcp OPTIONS [source_path...] <target_path>
              OPTIONS
 -async                 Should distcp execution be blocking
 -atomic                Commit all changes or none
 -bandwidth <arg>       Specify bandwidth per map in MB
 -delete                Delete from target, files missing in source
 -f <arg>               List of files that need to be copied
 -filelimit <arg>       (Deprecated!) Limit number of files copied to <= n
 -i                     Ignore failures during copy
 -log <arg>             Folder on DFS where distcp execution logs are
                        saved
 -m <arg>               Max number of concurrent maps to use for copy
 -mapredSslConf <arg>   Configuration for ssl config file, to use with
                        hftps://
 -overwrite             Choose to overwrite target files unconditionally,
                        even if they exist.
 -p <arg>               preserve status (rbugp)(replication, block-size,
                        user, group, permission)
 -sizelimit <arg>       (Deprecated!) Limit number of files copied to <= n
                        bytes
 -skipcrccheck          Whether to skip CRC checks between source and
                        target paths.
 -strategy <arg>        Copy strategy to use. Default is dividing work
                        based on file sizes
 -tmp <arg>             Intermediate work path to be used for atomic
                        commit
 -update                Update target, copying only missingfiles or
                        directories

注意 -skipcrccheckt-update 两个命令要一起用,用过之后,在拷贝数据文件之后,就不会再去校验 Check sum 文件了。

Reference

  1. https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Delta Lake 学习笔记(四) - 名词解释

    在了解 Delta Lake 之前,我觉得有必要解释一下经常出现的一些名词,这里收集记录一下。如果跟我一样是菜鸡,可能你也需要看一下…

    runzhliu
  • Cmd Markdown 迁移备份的流程

    作为 Cmd Markdown 付费用户两年多了,一直很喜欢在上面写技术博客,后来索性有些生活上的杂记也在这上面写了,实在是个好工具。

    runzhliu
  • Spark Kubernetes 的源码分析系列 - scheduler

    这一块代码可以理解为 Spark 是如何实现一个基于 K8S 的调度器,来调度生成 Executor Pod 的。

    runzhliu
  • Cypress系列(13)- 详细介绍 Cypress Test Runner

    https://www.cnblogs.com/poloyy/category/1768839.html

    小菠萝测试笔记
  • 【学习】七天搞定SAS(二):基本操作(判断、运算、基本函数)

    SAS生成新变量 SAS支持基本的加减乘除,值得一提的是它的**代表指数,而不是^。 * Modify homegarden data set with ass...

    小莹莹
  • java java查询当前广播域在线主机及主机名

    java查询当前广播域在线主机及主机名,不是多线程速度很慢,另外isReachable设置低于2000就会返回false,目前原因未知。。慢慢学习。。

    葫芦
  • 【学习】七天搞定SAS(二):基本操作(判断、运算、基本函数)

    ? 今天开始注重变量操作。 SAS生成新变量 SAS支持基本的加减乘除,值得一提的是它的**代表指数,而不是^。* Modify homegarden dat...

    小莹莹
  • CENTOS7 SYSTEMCTL说明 原

    PS:RHEL7和CentOS7出来有一段时间了,拿出点时间研究下,有几个地方跟6和5系列相比改变比较大,估计不少童鞋有点不太习惯。下面简要举例说明改变比较大的...

    domain0
  • VR带给教育的改革

    Michael Bodekaer: This virtual lab will revolutionize science class 文心: They us...

    杨熹
  • 从这篇YouTube论文,剖析强化学习在工业级场景推荐系统中的应用

    【导读】本文作者根据两篇工业界背景的论文解答了 RL 在推荐场景需要解决的问题与困难,以及入门需要学习得相关知识点。

    AI科技大本营

扫码关注云+社区

领取腾讯云代金券