现代数据中心中的分布式存储体系结构的设计使得每个数据有2-3个副本,因此当机器故障时仍然可用。
据我所知,所有复制失败的可能性仍然不是零,考虑到操作的规模,必须有可能发生这种情况。大型数据中心如何防止这种故障,特别是当它是重要的数据,如您的电子邮件或图像?进一步的冗余只能使这种失败变得不太可能,而不是不可能的。
发布于 2016-01-21 17:05:17
纽约科技谈话系列:谷歌如何备份互联网很好地解释了谷歌是如何管理备份和实现可靠性的。基于文本的解释是这里。
最重要的是,会谈内容如下:
同样,正如另一个答案所指出的那样,只可能覆盖所有的基础,并确保概率如此之低,而数据丢失窗口(一个备份失败与其他备份重建之间的数据丢失窗口)非常低。
发布于 2015-12-31 04:02:23
让我们假设一个给定的硬盘在一年内有50%的失败几率(不,这不是基于任何真实的统计数据,只是一个任意的高估)。
这意味着一个给定小时内的.5 / (365 * 2) ~ 0.0057%
失败概率(假设一年中的所有小时平均分配失败概率)。
适当配置的集群应该检测到节点的下降速度相当快,并对节点负责的数据进行额外的复制。我感到相当安全,声称这将发生在<1小时(很可能是在分钟数)。
所以我们真正想问的是,所有包含单个数据的节点都会在很短的时间内死去,以至于不能从现有的节点中重新复制数据。
对于两个副本的数据,这给我们0.000057^2 ~ 3.25 * 10^-9 = 0.0000000325%
。
三份,0.000057^3 ~ 1.86 * 10^-13 = 0.00000000000186%
。
这并不能解释额外的非现场备份等等。所以,虽然这不是不可能的,但我敢打赌你更有可能丢失你的数据,因为太阳耀斑炸掉了整个数据中心,而不是任意的硬盘故障。
https://stackoverflow.com/questions/34540714
复制相似问题