服务器失效那些事

引言

服务器出现故障是大家都非常关心的,而服务器由CPU,内存,磁盘,主板,电源等多种部件组成,一定会有一定的失效率。本文介绍服务器失效的特性及一些部件的失效标准,探讨降低服务器失效对业务的影响。

经常会有运维同事说,我刚拿到几周的新上架服务器就出现了故障,为什么这么新的服务器就故障了?那么我们就来聊聊服务器的失效,各个部件的失效特性以及在什么水平的失效率算正常失效率。

现在公司服务器数量越来越多,已经达到70多万节点的级别。服务器由主板、CPU、内存、硬盘、PCIE卡、电源等多个部件组成,每一种部件受到环境、材料、制造工艺以及运输安装等因数的影响,都有一定的失效率,无法避免。而腾讯云、IEG游戏,金融支付等业务对系统的可靠性都有很高的要求。因此系统可靠性不能单纯依靠服务器硬件来保障,而应该在应用层利用软件架构弹性冗余来保证。

我们先介绍一个词:MTBF,即平均故障间隔时间,英文全称是“Mean Time Between Failure”。是衡量一个产品(尤其是电器产品)的可靠性指标,单位为“小时”。概括地说,产品故障少的就是可靠性高。产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate)。我们用λ表示故障率,那么故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),即:MTBF=1/λ。

除了MTBF,常常用来表示失效率的还有FIT(Fail In Time),是109设备-小时下(例如一千个零件运转百万小时,一百万个零件运转一千小时……等)预期的失效次数FIT和MTBF之间的关系是MTBF = 1,000,000,000 x 1/FIT。

举个例子,目前企业级机械硬盘厂家公布的MTBF一般是2,000,000小时。那么,这是什么意思呢?是不是说,我们的每一块硬盘都可以使用2百万个小时不出故障呢?回答当然是NO。这个数据表达的是这款硬盘的一个平均率,根据公式λ=1/MTBF可以算出,故障率为λ=1/2,000,000,换算成年故障率的话,为λ=1/2,000,000*24*365=0.44%。也就是说,这种硬盘年故障率不超过0.44%都是处于合理的区间。

介绍完MTBF后,我们再介绍硬件故障浴盆曲线。电子产品的寿命都符合浴盆曲线,可分为三个阶段:

1、早期失效期:由于设计,原材料,生产等可能出现的原因而导致在产品投入使用的初期,产品的故障率较高,且具有迅速下降的特征。

2、偶然故障期:在产品投入使用一段时间后,产品的故障率可降到一个较低且基本处于平稳状态,只有随机失效产生,MTBF即要得到这一阶段的寿命。

3、耗损故障期:在产品投入使用到达使用寿命时间后,产品就会进入由于老化、疲劳、磨损、腐蚀等耗损性因素引起的耗损故障期,其特点是产品的故障率迅速上升,很快出现产品故障大量增加直至最后报废。

那么下面我们再来看看各部件厂商公布的故障率情况吧:

1、首先来看硬盘的数据,我们举例希捷出货量非常大的2款SATA硬盘2T(ST2000NM0055)和4T(ST4000NM0035)的厂商官方失效率数据:厂商公布的MTBF为2百万小时,换算成年故障率为0.44%。硬盘受到读写量的影响巨大,随着时间越长,读写量越大,故障率也会随着升高。

2、我们再来看看内存的数据,厂商用FIT(FAIL IN TIME)来表示内存的失效率情况。下面举例Micron的PN为MTA18ASF2G72PDZ-2G3B1的16GB内存和PN为MTA36ASF4G72PZ-2G3B1的32GB内存厂商公布的故障率标准:

内存的失效率和使用的Die相关,Die的失效率高低决定了内存条的失效率。

*16GB(MTA18ASF2G72PDZ-2G3B1)是由18个Z01A Die组成,其FITs为:16*18=288 FITs

*32GB(MTA36ASF4G72PZ-2G3B1)是由36个Z01A Die 组成,其FITs为:16*36=576 FITs

3、那么CPU的失效率呢,我们来看看Intel公布的失效率标准DPPM(Defective Parts Per Million)。

我们看看E5-2670v3,E5-2620v3 2款CPU的失效率情况如下:

从表中可以看出,每百万颗的数量中,第一年都会有较大的失效率。2620v3为每百万失效500颗,2670v3是每百万失效1100颗。而第二年,第三年则非常小,超过3年后,又会升高。这个符合浴盆曲线特征。

4、主板和RAID卡失效率情况。主板是一个失效率较高的部件,他由上千个电子元器件组成,任何一个元器件的失效都可能造成主板的失效。而RAID卡部件其实是由RAID卡+电池+Cache 3部分组成,每个部件也都存在失效的可能。我们来看看H厂商的失效数据:

总结一下

1、服务器的各个部件都会存在一个失效率,无法避免。只要不超标准,就是正常的现象。目前除去发生批次性问题的情况外,我们现网各个部件的失效率都没有超过厂商公布的失效率。

2、并不是越新的服务器越稳定。服务器失效率本身符合浴盆曲线特性,在新机器使用的前3到4个月,故障率都会偏高一些,在接下来的2年时间里,失效率会下降到一个更低的状态,直到过保期,故障率又会大幅增长。

3、硬件冗余不能从根本上规避故障对业务影响。目前很多业务依靠RAID特性来规避磁盘失效造成IO中断的影响,但是这只是降低了概率而不能从根本上解决问题。因为RAID卡本身就会故障,会造成整机的IO中断。所以重要的数据和服务,必须要有热备才能防止数据丢失或服务中断。

有哪些降低服务器失效对业务的影响的方案?

虽然服务器失效是无法避免的,但是我们可以想办法降低业务受服务器失效的影响。比如故障预警就是一个好办法。目前服务器中心已经逐步推出一些故障预警服务,能够提前通知业务进行维修。比如目前已经推出的硬盘提前故障预警和自动修复服务器,准确率非常高,可以让业务提前授权主动更换硬盘。后续针对RAID失效、电源失效、风扇失效等故障的预警也会逐步推出,可以极大的降低业务受服务器故障的影响。另外,针对故障的精确定位功能也即将上线服务器,可以更快速精确的定位到故障部件,加快维修进度,快速恢复业务。

原文发布于微信公众号 - 腾讯技术工程官方号(Tencent_TEG)

原文发表时间:2017-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯云人工智能

云智AI预付费资源包 限时8折优惠!

吼吼吼~ 云智AI 预付费资源包已经正式上线啦!!!从现起至1月31日限时8折优惠中~

7.9K0
来自专栏吴伟祥

怎么选择和快速搭建个人博客 转

目前比较流行的博客实现可以分为三种方式,各有不同程度的技术门槛、功能支持、主题颜值等。接下来将会通过实例展示不同的博客形式。

3262
来自专栏机器人网

无人机飞行控制器电路设计及仿真实验结果

在无人机飞行控制系统中,飞行控制器是其核心部件,它负责飞行控制系统信号的采集、控制律的解算、飞机的姿态和速度,以及与地面设备的通讯等工作。随着无人机越来越广泛的...

42210
来自专栏ThoughtWorks

什么是框架?| 洞见

In computer programming, a software framework is an abstraction in which softwar...

1172
来自专栏琯琯博客

awesome-API

博客 Blogger - Blogger API v3 版本允许你创建新的博客, 编辑或者删除已经存在的博客, 查询符合特定标准的博客. Medium - 访问...

1.2K13
来自专栏机器人网

解读工业机器人的大脑:控制系统基础

如果工业机器人只有主体和驱动器,机械臂是不能正常工作。原因是传感器输出的信号没有起作用,驱动电动机也得不到驱动电压和电流,所以机器人需要有一个控制器,用硬件坨和...

3546
来自专栏梁源的专栏

iOS10凌晨1点发布,小源带你一起升级体验过程

1093
来自专栏landv

学习汇编语言的15大好处

1393
来自专栏佳爷的后花媛

黑客故事:如何逼小偷把 iPhone 还回来的

看到一哥们太给力了,忍不住分享下.身边有太多朋友手机被偷了,要是get到这个技能.啧啧!!!还愁没有妹子?哈哈哈. 有个问题要问一问:假期有没有丢手机?以下是...

1793
来自专栏顶级程序员

厉害了!小学生用大数据研究苏轼,结论出人意料;Google开源Abseil;使用弱凭证 npm包易受入侵;RStudio 1.1

0、厉害了骚年!小学生用大数据研究苏轼,结论出人意料 ‍ ? 苏轼的诗词大部分人都读过,一些名篇名句也都能脱口而出。但是,苏轼诗词里面用得最多的一个词是什么...

3744

扫码关注云+社区

领取腾讯云代金券