首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >服务器失效那些事

服务器失效那些事

作者头像
腾讯技术工程官方号
发布2018-01-30 15:33:37
4K0
发布2018-01-30 15:33:37
举报

引言

服务器出现故障是大家都非常关心的,而服务器由CPU,内存,磁盘,主板,电源等多种部件组成,一定会有一定的失效率。本文介绍服务器失效的特性及一些部件的失效标准,探讨降低服务器失效对业务的影响。

经常会有运维同事说,我刚拿到几周的新上架服务器就出现了故障,为什么这么新的服务器就故障了?那么我们就来聊聊服务器的失效,各个部件的失效特性以及在什么水平的失效率算正常失效率。

现在公司服务器数量越来越多,已经达到70多万节点的级别。服务器由主板、CPU、内存、硬盘、PCIE卡、电源等多个部件组成,每一种部件受到环境、材料、制造工艺以及运输安装等因数的影响,都有一定的失效率,无法避免。而腾讯云、IEG游戏,金融支付等业务对系统的可靠性都有很高的要求。因此系统可靠性不能单纯依靠服务器硬件来保障,而应该在应用层利用软件架构弹性冗余来保证。

我们先介绍一个词:MTBF,即平均故障间隔时间,英文全称是“Mean Time Between Failure”。是衡量一个产品(尤其是电器产品)的可靠性指标,单位为“小时”。概括地说,产品故障少的就是可靠性高。产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate)。我们用λ表示故障率,那么故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),即:MTBF=1/λ。

除了MTBF,常常用来表示失效率的还有FIT(Fail In Time),是109设备-小时下(例如一千个零件运转百万小时,一百万个零件运转一千小时……等)预期的失效次数FIT和MTBF之间的关系是MTBF = 1,000,000,000 x 1/FIT。

举个例子,目前企业级机械硬盘厂家公布的MTBF一般是2,000,000小时。那么,这是什么意思呢?是不是说,我们的每一块硬盘都可以使用2百万个小时不出故障呢?回答当然是NO。这个数据表达的是这款硬盘的一个平均率,根据公式λ=1/MTBF可以算出,故障率为λ=1/2,000,000,换算成年故障率的话,为λ=1/2,000,000*24*365=0.44%。也就是说,这种硬盘年故障率不超过0.44%都是处于合理的区间。

介绍完MTBF后,我们再介绍硬件故障浴盆曲线。电子产品的寿命都符合浴盆曲线,可分为三个阶段:

1、早期失效期:由于设计,原材料,生产等可能出现的原因而导致在产品投入使用的初期,产品的故障率较高,且具有迅速下降的特征。

2、偶然故障期:在产品投入使用一段时间后,产品的故障率可降到一个较低且基本处于平稳状态,只有随机失效产生,MTBF即要得到这一阶段的寿命。

3、耗损故障期:在产品投入使用到达使用寿命时间后,产品就会进入由于老化、疲劳、磨损、腐蚀等耗损性因素引起的耗损故障期,其特点是产品的故障率迅速上升,很快出现产品故障大量增加直至最后报废。

那么下面我们再来看看各部件厂商公布的故障率情况吧:

1、首先来看硬盘的数据,我们举例希捷出货量非常大的2款SATA硬盘2T(ST2000NM0055)和4T(ST4000NM0035)的厂商官方失效率数据:厂商公布的MTBF为2百万小时,换算成年故障率为0.44%。硬盘受到读写量的影响巨大,随着时间越长,读写量越大,故障率也会随着升高。

2、我们再来看看内存的数据,厂商用FIT(FAIL IN TIME)来表示内存的失效率情况。下面举例Micron的PN为MTA18ASF2G72PDZ-2G3B1的16GB内存和PN为MTA36ASF4G72PZ-2G3B1的32GB内存厂商公布的故障率标准:

内存的失效率和使用的Die相关,Die的失效率高低决定了内存条的失效率。

*16GB(MTA18ASF2G72PDZ-2G3B1)是由18个Z01A Die组成,其FITs为:16*18=288 FITs

*32GB(MTA36ASF4G72PZ-2G3B1)是由36个Z01A Die 组成,其FITs为:16*36=576 FITs

3、那么CPU的失效率呢,我们来看看Intel公布的失效率标准DPPM(Defective Parts Per Million)。

我们看看E5-2670v3,E5-2620v3 2款CPU的失效率情况如下:

从表中可以看出,每百万颗的数量中,第一年都会有较大的失效率。2620v3为每百万失效500颗,2670v3是每百万失效1100颗。而第二年,第三年则非常小,超过3年后,又会升高。这个符合浴盆曲线特征。

4、主板和RAID卡失效率情况。主板是一个失效率较高的部件,他由上千个电子元器件组成,任何一个元器件的失效都可能造成主板的失效。而RAID卡部件其实是由RAID卡+电池+Cache 3部分组成,每个部件也都存在失效的可能。我们来看看H厂商的失效数据:

总结一下

1、服务器的各个部件都会存在一个失效率,无法避免。只要不超标准,就是正常的现象。目前除去发生批次性问题的情况外,我们现网各个部件的失效率都没有超过厂商公布的失效率。

2、并不是越新的服务器越稳定。服务器失效率本身符合浴盆曲线特性,在新机器使用的前3到4个月,故障率都会偏高一些,在接下来的2年时间里,失效率会下降到一个更低的状态,直到过保期,故障率又会大幅增长。

3、硬件冗余不能从根本上规避故障对业务影响。目前很多业务依靠RAID特性来规避磁盘失效造成IO中断的影响,但是这只是降低了概率而不能从根本上解决问题。因为RAID卡本身就会故障,会造成整机的IO中断。所以重要的数据和服务,必须要有热备才能防止数据丢失或服务中断。

有哪些降低服务器失效对业务的影响的方案?

虽然服务器失效是无法避免的,但是我们可以想办法降低业务受服务器失效的影响。比如故障预警就是一个好办法。目前服务器中心已经逐步推出一些故障预警服务,能够提前通知业务进行维修。比如目前已经推出的硬盘提前故障预警和自动修复服务器,准确率非常高,可以让业务提前授权主动更换硬盘。后续针对RAID失效、电源失效、风扇失效等故障的预警也会逐步推出,可以极大的降低业务受服务器故障的影响。另外,针对故障的精确定位功能也即将上线服务器,可以更快速精确的定位到故障部件,加快维修进度,快速恢复业务。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯技术工程官方号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 总结一下
  • 有哪些降低服务器失效对业务的影响的方案?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档