服务器失效那些事

腾讯技术工程官方号

发布于 2018-01-30 15:33:37

5.7K0

引言

服务器出现故障是大家都非常关心的，而服务器由CPU，内存，磁盘，主板，电源等多种部件组成，一定会有一定的失效率。本文介绍服务器失效的特性及一些部件的失效标准，探讨降低服务器失效对业务的影响。

经常会有运维同事说，我刚拿到几周的新上架服务器就出现了故障，为什么这么新的服务器就故障了？那么我们就来聊聊服务器的失效，各个部件的失效特性以及在什么水平的失效率算正常失效率。

现在公司服务器数量越来越多，已经达到70多万节点的级别。服务器由主板、CPU、内存、硬盘、PCIE卡、电源等多个部件组成，每一种部件受到环境、材料、制造工艺以及运输安装等因数的影响，都有一定的失效率，无法避免。而腾讯云、IEG游戏，金融支付等业务对系统的可靠性都有很高的要求。因此系统可靠性不能单纯依靠服务器硬件来保障，而应该在应用层利用软件架构弹性冗余来保证。

我们先介绍一个词：MTBF，即平均故障间隔时间，英文全称是“Mean Time Between Failure”。是衡量一个产品（尤其是电器产品）的可靠性指标，单位为“小时”。概括地说，产品故障少的就是可靠性高。产品的故障总数与寿命单位总数之比叫“故障率”（Failure rate）。我们用λ表示故障率，那么故障率的倒数就叫做平均故障间隔时间（Mean Time Between Failures），即：MTBF=1/λ。

除了MTBF，常常用来表示失效率的还有FIT（Fail In Time）,是109设备-小时下（例如一千个零件运转百万小时，一百万个零件运转一千小时……等）预期的失效次数FIT和MTBF之间的关系是MTBF = 1,000,000,000 x 1/FIT。

举个例子，目前企业级机械硬盘厂家公布的MTBF一般是2,000,000小时。那么，这是什么意思呢？是不是说，我们的每一块硬盘都可以使用2百万个小时不出故障呢？回答当然是NO。这个数据表达的是这款硬盘的一个平均率，根据公式λ=1/MTBF可以算出，故障率为λ=1/2,000,000，换算成年故障率的话，为λ=1/2,000,000*24*365=0.44%。也就是说，这种硬盘年故障率不超过0.44%都是处于合理的区间。

介绍完MTBF后，我们再介绍硬件故障浴盆曲线。电子产品的寿命都符合浴盆曲线，可分为三个阶段：

1、早期失效期：由于设计，原材料，生产等可能出现的原因而导致在产品投入使用的初期，产品的故障率较高，且具有迅速下降的特征。

2、偶然故障期：在产品投入使用一段时间后，产品的故障率可降到一个较低且基本处于平稳状态，只有随机失效产生，MTBF即要得到这一阶段的寿命。

3、耗损故障期：在产品投入使用到达使用寿命时间后，产品就会进入由于老化、疲劳、磨损、腐蚀等耗损性因素引起的耗损故障期，其特点是产品的故障率迅速上升，很快出现产品故障大量增加直至最后报废。

那么下面我们再来看看各部件厂商公布的故障率情况吧：

1、首先来看硬盘的数据，我们举例希捷出货量非常大的2款SATA硬盘2T(ST2000NM0055)和4T（ST4000NM0035）的厂商官方失效率数据：厂商公布的MTBF为2百万小时，换算成年故障率为0.44%。硬盘受到读写量的影响巨大，随着时间越长，读写量越大，故障率也会随着升高。

2、我们再来看看内存的数据，厂商用FIT（FAIL IN TIME）来表示内存的失效率情况。下面举例Micron的PN为MTA18ASF2G72PDZ-2G3B1的16GB内存和PN为MTA36ASF4G72PZ-2G3B1的32GB内存厂商公布的故障率标准：

内存的失效率和使用的Die相关，Die的失效率高低决定了内存条的失效率。

*16GB（MTA18ASF2G72PDZ-2G3B1）是由18个Z01A Die组成，其FITs为：16*18=288 FITs

*32GB（MTA36ASF4G72PZ-2G3B1）是由36个Z01A Die 组成，其FITs为：16*36=576 FITs

3、那么CPU的失效率呢，我们来看看Intel公布的失效率标准DPPM（Defective Parts Per Million）。

我们看看E5-2670v3,E5-2620v3 2款CPU的失效率情况如下：

从表中可以看出，每百万颗的数量中，第一年都会有较大的失效率。2620v3为每百万失效500颗，2670v3是每百万失效1100颗。而第二年，第三年则非常小，超过3年后，又会升高。这个符合浴盆曲线特征。

4、主板和RAID卡失效率情况。主板是一个失效率较高的部件，他由上千个电子元器件组成，任何一个元器件的失效都可能造成主板的失效。而RAID卡部件其实是由RAID卡+电池+Cache 3部分组成，每个部件也都存在失效的可能。我们来看看H厂商的失效数据：

总结一下

1、服务器的各个部件都会存在一个失效率，无法避免。只要不超标准，就是正常的现象。目前除去发生批次性问题的情况外，我们现网各个部件的失效率都没有超过厂商公布的失效率。

2、并不是越新的服务器越稳定。服务器失效率本身符合浴盆曲线特性，在新机器使用的前3到4个月，故障率都会偏高一些，在接下来的2年时间里，失效率会下降到一个更低的状态，直到过保期，故障率又会大幅增长。

3、硬件冗余不能从根本上规避故障对业务影响。目前很多业务依靠RAID特性来规避磁盘失效造成IO中断的影响，但是这只是降低了概率而不能从根本上解决问题。因为RAID卡本身就会故障，会造成整机的IO中断。所以重要的数据和服务，必须要有热备才能防止数据丢失或服务中断。

有哪些降低服务器失效对业务的影响的方案？

虽然服务器失效是无法避免的，但是我们可以想办法降低业务受服务器失效的影响。比如故障预警就是一个好办法。目前服务器中心已经逐步推出一些故障预警服务,能够提前通知业务进行维修。比如目前已经推出的硬盘提前故障预警和自动修复服务器，准确率非常高，可以让业务提前授权主动更换硬盘。后续针对RAID失效、电源失效、风扇失效等故障的预警也会逐步推出，可以极大的降低业务受服务器故障的影响。另外，针对故障的精确定位功能也即将上线服务器，可以更快速精确的定位到故障部件，加快维修进度，快速恢复业务。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-07-26，如有侵权请联系 cloudcommunity@tencent.com 删除

运维

本文分享自腾讯技术工程官方号微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

运维

登录后参与评论

0 条评论

热度