Google对数据中心成本模型的分析——下

(接上文《Google对数据中心成本模型的分析——上》

三、案例分析

虽然变量繁多,但通过观察不同行业的小部分数据中心案例,仍有助于我们理解这些成本因素的影响大小。首先我们看一个典型的新建于美国的,IT负载规模为几兆瓦的数据中心(大约是uptime institute Tier 3等级)。它装满了大量的机架式高端服务器产品(以某公司配置为2个CPU、48G RAM、四个硬盘的PowerEdge R520为例),其峰值功率大约为340W,某年的价格大约为7700美元,其它的一些变量参数如下:

1.某年美国工业电费平均价格为6.7美分/每度电;

2.贷款利率约为8%;

3.服务器约三年完成折旧;

4.数据中心基础设施约12年完成折旧,每瓦造价按10美元;

5.数据中心的非电费运营成本约为每瓦每个月4美分;

6.该数据中心的PUE按行业平均水平1.8来计算(若为谷歌的数据中心则PUE可为1.1);

7.服务器寿命三年,每年服务器的维保费用约为服务器价格的5%;

8.服务器的平均运行功耗约为峰值功耗的75%;

根据前面的这些限定,图2则是前面案例A中包含了数据中心和服务器相关各子部分CAPEX和OPEX等的每年TCO分布图。

图1 案例A的每年TCO分布图

这个案例是典型的传统数据中心,服务器方面的支出占了TCO的大头,每月成本的78%左右都花在了服务器购买和维护中了。然而,采用低成本的标准商用服务器(可能可靠性也会低些),或者更高的电费价格,也会大大改变这个TCO分布图中各子部分的比例。案例B(参考图3)就是一个采用了价格更低、运行更快、峰值功率高达500W的服务器,但服务器价格却只有约2000美金。数据中心选址在一个电费较高,每度电10美分的地方。案例B中,数据中心相关的成本占比就升到了39%,电费占比也升到了26%,而服务器占比则低至35%。换句话说,在案例B中,安放此类型服务器的托管成本构成中,数据中心基础设施和电费的总成本大约是服务器采购及维保总成本的两倍。

图2 案例B的每年TCO分布图

需要注意到,即便电价和服务器的功耗更高,案例B数据中心的3年总TCO还是要低于案例A的3年总TCO(案例B的总成本$6774对比案例A的总成本$11683),因为服务器的价格很低。从案例B中我们还可以看到,能耗相关的成本占比会日益增加,因为CPU的功耗(以及性能)在12年内增长了8倍,其年均增长高达19%。另外,低端服务器的销售价格则较为稳定。这样,服务器硬件的每瓦价格在降低,而电价及建设成本却一直在增加,换句话说,从长远看来,数据中心的基础设施相关成本(通常正比于服务器的数量和功耗)在TCO 中占比越来越高。

四、实际数据中心成本分析

实际上,现实世界里的数据中心成本会都比前面模型中的成本更高,因为前面模型中的数据中心负荷都跑到了100%设计功率,服务器的CPU利用率也非常高,但实际情况是现实生活中这些条件很难同时发生。比如,因为数据中心的建设周期长,所以往往需要预留部分机柜空间用于未来的业务部署需求。因此机房通常不会很快装满,基础设施也不会很快达到设计功率,可能有些数据中心需要长达一两年之后才能达到较高负载率。此外,服务器通常也不会跑满到峰值功率。峰值功率为500W的服务器,实际正常运行的功率往往只有300W,这样服务器的运行功耗负载率只有60%左右,因此每台服务器每月的实际运行成本会比前面的模型中更高。总之,数据中心的负载率越低,相应的单位运行成本就越高。

因此提升数据中心的负载率可以降低单位服务器的运行成本,但是提升负载率却并不像看起来那么简单,因为设备厂家给出的设备功耗需要考虑100%的CPU 利用率情况,但如果实际运行的CPU 利用率只有30%(比如某台峰值为300W 的服务器在30%的CPU 利用率下实际运行负载只有200W),考虑PUE 等因素,数据中心的可用容量有大约30%被搁置。另一方面,假如我们设计机房的时候按200W 服务器的实际运行功耗来设计,但如果在月底的某个繁忙时间,CPU 利用率短时间跑满到300W,这个时候数据中心内部就可能会发生过热风险,或者会触发配电空开跳闸。类似的,如果为了满足业务的变化需求,在新上架的服务器中增加部分内存或者硬盘等来提升性能,这样设备功耗增加了,但机房却无法提供更多的额外电力。因此实际建设中,数据中心会预留部分空间和电力用于满足这些设备变化和峰值负载冲击。通常预留范围为20%-50%,这意味着现实生活中的数据中心很少运行到其设计的额定功率,可容纳10MW关键负荷的数据中心在较长一段时间内实际运行负荷往往只有4-6MW 。

五、部分负载数据中心的成本模型

对于部分负载数据中心的TCO 建模,我们通过空置率来调整数据中心成本模型中各子项

的占比。比如,一个有三分之一空置率的数据中心,其数据中心相关OPEX 运行成本会增加50%,比如前面案例B 中的数据中心,如果有50%的机柜空置率,那么数据中心相关的成本会占主要部分,而只有25%的成本在服务器侧。考虑到前面提到的数据中心未来扩容预留,这个数字并不夸张。因此,提高数据中心的使用效率,比如通过峰值限功率封顶等技术,可以大大节省数据中心的实际运行成本。对于一个采购成本为2000 美金的普通服务器而言,如果数据中心运行在满负载利用率时的单台服务器TCO为6774美元,则一半负载利用率情况下单台服务器的TCO将高达9443美元。

图3 案例C的每年TCO分布图

服务器CPU利用率非满载运行也正面会影响数据中心运营成本,因为服务器的实际运行功耗减少了。但是,这种节省是值得挑战的,因为减少这些服务器上运行的应用也很可能相应产生更少的应用价值,目前我们的TCO 模型还无法覆盖到这些方面。因为前面提到的TCO都是只针对物理意义上的基础设施,而不包括运行在这些硬件上的软件应用。为了测量这种端到端的性能,我们可以通过应用层面的价值来作为基准,比如完成多少量的银行交易,或者支撑多少的网络搜索能力等,再除以TCO 来衡量。打个比方,比如我们有一个每个月花费1 百万美金的数据中心,每个月可以完成1 个亿的交易量,那么每个交易的成本是1美分。但如果发生交易拥塞(仍可以支撑1 个亿的交易量),当月只完成5000万笔交易,那么每笔交易的成本则变成了2 美分。因此前面我们只分析了硬件层面基础设施的利用率,但需要时刻注意,软件性能以及服务器利用率也同样非常关键。

综上,在长远看来,数据中心的基础设施相关成本(通常正比于服务器的数量和功耗)会在TCO占比中越来越高。空置率高或者负载率不高的数据中心,其数据中心相关OPEX 运行成本也会增加很多,因此提高数据中心的使用效率,如通过扩容挖潜或峰值限功率封顶等技术,可以大大节省数据中心的实际运行成本。

(全文终)

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需注明出处并保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

原文发布于微信公众号 - 腾讯数据中心(Tencent_IDC)

原文发表时间:2016-10-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java学习网

程序员如何提一个好问题

开始 我实际上是那种总是会问出愚蠢问题或“不好”问题的大信徒。我一直在问人们一些愚蠢并且完全可以通过谷歌搜索或搜索代码库解决的问题。大多数时候我都不愿意自己去搜...

2975
来自专栏机器人网

高水平自动化工程师是如何炼成的?

成长篇:如何成为一名合格的工程师 初入工控行业的年轻人,肯定梦想着早日成为一名合格的电气工程师。 个人觉得,首要任务,需要具备以下几个能力: 能用计算机进行...

3356
来自专栏我是攻城师

你选的不是专业,而是阶级

4415
来自专栏ThoughtWorks

重构的七宗罪 | TW洞见

今日洞见 文章作者/配图来自ThoughtWorks:禚娴静。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体、网...

3356
来自专栏腾讯社交用户体验设计

欢迎来到后 ASO 时代

1413
来自专栏谦谦君子修罗刀

程序员面试闪充--简历书写

对于职场来说,简历就如同门面。若是没想好,出了差错,耽误些时日倒不打紧,便是这简历入不了HR的眼,费力伤神还不能觅得好去处,这数年来勤学苦练的大好光阴,岂不辜负...

3505
来自专栏liulun

程序员的时间管理哲学——打造自己的分时管理系统

  说实在话,我接触的很多人,都是浑浑噩噩的过日子,脚踩西瓜皮——滑到哪儿算哪儿;

1493
来自专栏极客猴

618 购物节买什么?当然是书

时光荏苒,2018年已经过半。又到一年一度的”618”购物节,是时候来一波”买买买”。如果你目前想改变下自己,为自己的未来奋斗。可以少买一两件衣服,少买一两箱零...

1082
来自专栏云传输

案例分享|足球频道实现全媒体素材高效传输,为球迷带来视听盛宴

2014年9月4日国务院第七次足球工作座谈会确定内蒙古为全国足球改革与发展工作唯一试点省区。9月15日下午,内蒙古自治区政府召开推进足球改革发展电视电话会议,自...

1574
来自专栏程序员笔记

如何做好一个计划

1062

扫码关注云+社区

领取腾讯云代金券