分布式存储系统可靠性：系统量化估算

原创

用户8639654

修改于 2021-08-13 11:21:50

3790

修改于 2021-08-13 11:21:50

文章被收录于专栏：云计算运维

一、引言

我们常常听到衡量分布式存储系统好坏的两个指标：可用性和可靠性指标。

可用性指的是系统服务的可用性。一般按全年可用时间除以全年时间来衡量可用性的好坏，平常我们说的 SLA指标就是可用性指标，这里就不展开细说。

可靠性指标指的是数据的可靠性。我们常说的数据可靠性11个9，在对象存储中就意味着存储一千亿个对象大概会有1个文件是不可读的。由此可见，数据可靠性指标给分布式存储系统带来的挑战不言而喻。

本文就重点来分析一下分布式系统的数据可靠性的量化模型。

二、背景

数据的重要性不必多说，基本上数据可以称得上是企业生命力的核心，是企业赖以生存的根本。因此数据的可靠性是基础的基础，任何数据的丢失都会给企业造成无法计算和弥补的损失。

随着数据规模的日益增大，环境更加复杂，我们大体可以把威协数据可靠性的因素归为几大类：

硬件故障：主要是磁盘故障、还有网络故障、服务器故障、IDC故障；
软件隐患：内核BUG，软件设计上的BUG等；
运维故障：人为误操作。

其中，第1类的硬件故障中又以磁盘故障最为频繁，坏盘对于从事分布式存储运维的同学来说再正常不过了。

因此，我们接下来从磁盘故障这个维度来尝试量化一下一个分布式系统的数据可靠性。

三、数据可靠性量化

为了提高数据的可靠性，数据副本技术和EC编码冗余技术是分布式系统可靠性最常用的手段了。以多副本为例，副本数越多，数据的可靠性肯定越高。

为了对分布式系统的数据可靠性作一个量化估算，进一步分析得到影响存储数据可靠性的因素主要有：

N：分布式系统磁盘的总数，可以很直观理解，磁盘的数量是和可靠性强相关，N的大小与数据的打散程度有很大关系。
R：副本数，副本数越高数据的可靠性肯定越高，但同时也会带来更大的存储成本。
T：RecoveryTime出现坏盘情况下数据恢复的时间，这个也很好理解，恢复时间越短，数据的可靠性越高。
AFR：Annualized Failure Rate磁盘的年度故障率，这个和磁盘本身的质量相关，质量越好，AFR越低，数据的可靠性越高。
S：CopySet数量，一个盘上的数据的冗余在集群中的打散程度，打得越散，则有可能任意坏3块盘就刚好有数据的冗余数据都丢失。所以，仅从打散程度这个维度看，打散程度越小越好。

因此，我们可以用一个公式表示分布式系统的全年数据可靠性：

3.1 磁盘年故障率：AFR

AFR：Annualized Failure Rate又称为硬盘年度失败概率，一般用来反映一个设备在全年的使用出故障的概率，可以很直观的理解，AFR越低，系统的可靠性越高，因为AFR与系统的数据可靠性强相关；而这个指标通常又是由另一个磁盘质量指标MTBF（Mean Time Before Failure）推算出来，而MTBF各大硬盘厂商都是有出厂指标的，比如说希捷的硬盘出厂的MTBF指标为120W个小时。以下为AFR的计算公式：

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

分布式