作为背景,我们有两个集群,目前用于生产和开发。作为其中的一部分,我们正在将文件(使用hadoop -update)从生产集群复制到由活动进程生成的开发集群(即它实际上也是一个DR集群)。
Hadoop版本在两个集群上是相同的:Hadoop2.6.0-cdh5.12.1
然而,开发集群仅占活动集群存储容量的65%左右。为了解决这个问题,我们有一个默认的复制因子3用于live,2用于开发。
我注意到从实时复制到开发的文件的复制因子为3。我已经阅读了一些文件,并认为这是它的行为方式,即使这不是我希望它表现的方式。
我有两个问题要问:
谢谢你的帮助。
发布于 2017-12-19 00:56:41
我做了一些测试,并做了以下工作:
hadoop distcp -update $SOURCE $TARGET
更改为hadoop distctp -D dfs.replication=2 -update $SOURCE $TARGET
hdfs dfs -setrep -w 2 $TARGET
修改复制因子。磁盘空间已经开始下降,所以我认为这是一个成功。也许有一天我能声称我知道自己在做什么。
https://stackoverflow.com/questions/47866794
复制