前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google对数据中心成本模型的分析——下

Google对数据中心成本模型的分析——下

作者头像
腾讯数据中心
发布2018-03-16 16:50:33
4.8K0
发布2018-03-16 16:50:33
举报
文章被收录于专栏:腾讯数据中心腾讯数据中心

(接上文《Google对数据中心成本模型的分析——上》

三、案例分析

虽然变量繁多,但通过观察不同行业的小部分数据中心案例,仍有助于我们理解这些成本因素的影响大小。首先我们看一个典型的新建于美国的,IT负载规模为几兆瓦的数据中心(大约是uptime institute Tier 3等级)。它装满了大量的机架式高端服务器产品(以某公司配置为2个CPU、48G RAM、四个硬盘的PowerEdge R520为例),其峰值功率大约为340W,某年的价格大约为7700美元,其它的一些变量参数如下:

1.某年美国工业电费平均价格为6.7美分/每度电;

2.贷款利率约为8%;

3.服务器约三年完成折旧;

4.数据中心基础设施约12年完成折旧,每瓦造价按10美元;

5.数据中心的非电费运营成本约为每瓦每个月4美分;

6.该数据中心的PUE按行业平均水平1.8来计算(若为谷歌的数据中心则PUE可为1.1);

7.服务器寿命三年,每年服务器的维保费用约为服务器价格的5%;

8.服务器的平均运行功耗约为峰值功耗的75%;

根据前面的这些限定,图2则是前面案例A中包含了数据中心和服务器相关各子部分CAPEX和OPEX等的每年TCO分布图。

图1 案例A的每年TCO分布图

这个案例是典型的传统数据中心,服务器方面的支出占了TCO的大头,每月成本的78%左右都花在了服务器购买和维护中了。然而,采用低成本的标准商用服务器(可能可靠性也会低些),或者更高的电费价格,也会大大改变这个TCO分布图中各子部分的比例。案例B(参考图3)就是一个采用了价格更低、运行更快、峰值功率高达500W的服务器,但服务器价格却只有约2000美金。数据中心选址在一个电费较高,每度电10美分的地方。案例B中,数据中心相关的成本占比就升到了39%,电费占比也升到了26%,而服务器占比则低至35%。换句话说,在案例B中,安放此类型服务器的托管成本构成中,数据中心基础设施和电费的总成本大约是服务器采购及维保总成本的两倍。

图2 案例B的每年TCO分布图

需要注意到,即便电价和服务器的功耗更高,案例B数据中心的3年总TCO还是要低于案例A的3年总TCO(案例B的总成本$6774对比案例A的总成本$11683),因为服务器的价格很低。从案例B中我们还可以看到,能耗相关的成本占比会日益增加,因为CPU的功耗(以及性能)在12年内增长了8倍,其年均增长高达19%。另外,低端服务器的销售价格则较为稳定。这样,服务器硬件的每瓦价格在降低,而电价及建设成本却一直在增加,换句话说,从长远看来,数据中心的基础设施相关成本(通常正比于服务器的数量和功耗)在TCO 中占比越来越高。

四、实际数据中心成本分析

实际上,现实世界里的数据中心成本会都比前面模型中的成本更高,因为前面模型中的数据中心负荷都跑到了100%设计功率,服务器的CPU利用率也非常高,但实际情况是现实生活中这些条件很难同时发生。比如,因为数据中心的建设周期长,所以往往需要预留部分机柜空间用于未来的业务部署需求。因此机房通常不会很快装满,基础设施也不会很快达到设计功率,可能有些数据中心需要长达一两年之后才能达到较高负载率。此外,服务器通常也不会跑满到峰值功率。峰值功率为500W的服务器,实际正常运行的功率往往只有300W,这样服务器的运行功耗负载率只有60%左右,因此每台服务器每月的实际运行成本会比前面的模型中更高。总之,数据中心的负载率越低,相应的单位运行成本就越高。

因此提升数据中心的负载率可以降低单位服务器的运行成本,但是提升负载率却并不像看起来那么简单,因为设备厂家给出的设备功耗需要考虑100%的CPU 利用率情况,但如果实际运行的CPU 利用率只有30%(比如某台峰值为300W 的服务器在30%的CPU 利用率下实际运行负载只有200W),考虑PUE 等因素,数据中心的可用容量有大约30%被搁置。另一方面,假如我们设计机房的时候按200W 服务器的实际运行功耗来设计,但如果在月底的某个繁忙时间,CPU 利用率短时间跑满到300W,这个时候数据中心内部就可能会发生过热风险,或者会触发配电空开跳闸。类似的,如果为了满足业务的变化需求,在新上架的服务器中增加部分内存或者硬盘等来提升性能,这样设备功耗增加了,但机房却无法提供更多的额外电力。因此实际建设中,数据中心会预留部分空间和电力用于满足这些设备变化和峰值负载冲击。通常预留范围为20%-50%,这意味着现实生活中的数据中心很少运行到其设计的额定功率,可容纳10MW关键负荷的数据中心在较长一段时间内实际运行负荷往往只有4-6MW 。

五、部分负载数据中心的成本模型

对于部分负载数据中心的TCO 建模,我们通过空置率来调整数据中心成本模型中各子项

的占比。比如,一个有三分之一空置率的数据中心,其数据中心相关OPEX 运行成本会增加50%,比如前面案例B 中的数据中心,如果有50%的机柜空置率,那么数据中心相关的成本会占主要部分,而只有25%的成本在服务器侧。考虑到前面提到的数据中心未来扩容预留,这个数字并不夸张。因此,提高数据中心的使用效率,比如通过峰值限功率封顶等技术,可以大大节省数据中心的实际运行成本。对于一个采购成本为2000 美金的普通服务器而言,如果数据中心运行在满负载利用率时的单台服务器TCO为6774美元,则一半负载利用率情况下单台服务器的TCO将高达9443美元。

图3 案例C的每年TCO分布图

服务器CPU利用率非满载运行也正面会影响数据中心运营成本,因为服务器的实际运行功耗减少了。但是,这种节省是值得挑战的,因为减少这些服务器上运行的应用也很可能相应产生更少的应用价值,目前我们的TCO 模型还无法覆盖到这些方面。因为前面提到的TCO都是只针对物理意义上的基础设施,而不包括运行在这些硬件上的软件应用。为了测量这种端到端的性能,我们可以通过应用层面的价值来作为基准,比如完成多少量的银行交易,或者支撑多少的网络搜索能力等,再除以TCO 来衡量。打个比方,比如我们有一个每个月花费1 百万美金的数据中心,每个月可以完成1 个亿的交易量,那么每个交易的成本是1美分。但如果发生交易拥塞(仍可以支撑1 个亿的交易量),当月只完成5000万笔交易,那么每笔交易的成本则变成了2 美分。因此前面我们只分析了硬件层面基础设施的利用率,但需要时刻注意,软件性能以及服务器利用率也同样非常关键。

综上,在长远看来,数据中心的基础设施相关成本(通常正比于服务器的数量和功耗)会在TCO占比中越来越高。空置率高或者负载率不高的数据中心,其数据中心相关OPEX 运行成本也会增加很多,因此提高数据中心的使用效率,如通过扩容挖潜或峰值限功率封顶等技术,可以大大节省数据中心的实际运行成本。

(全文终)

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需注明出处并保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-10-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档