前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度剖析Google数据中心如何利用神经网络压榨PUE——下

深度剖析Google数据中心如何利用神经网络压榨PUE——下

作者头像
腾讯数据中心
发布2018-03-16 11:10:28
1.7K1
发布2018-03-16 11:10:28
举报
文章被收录于专栏:腾讯数据中心腾讯数据中心

理论模型与实验结果高度吻合

综前所述,可通过控制变量法建模仿真,从而得知各个运行变量参数对数据中心PUE的影响。这种灵敏度分析被用于评估某一参数变化带来的影响,并用于确定其最佳的设定值。下面的这些所有测试结果已被实际得到了验证。

图8(a)IT负载和PUE之间的关系

图8(b)运行冷机数量和PUE之间的关系

图8(a)展示PUE和服务器IT负载之间的关系,在0%到70%负载范围内PUE值快速降低。但在70%以上负载范围时PUE值却逐渐平缓。这个特点也在Google数据中心的历史PUE数据中得到验证:

由于负载增加带来PUE分母增加和冷却系统得到更有效的利用,初期的PUE值随IT负载增加而迅速降低,。而在重载下PUE VS IT的曲线逐渐趋于平缓,则因此时冷却系统已逼近其最大效率和运营能力。

图8(b)示出的PUE和工作制冷机数量之间的关系。正如预期:

有更多的冷水机组启动工作将带来PUE的显著增加。轻载下冷机制冷效率将以指数级降低。

所以PUE和运行冷机数量之间的关系为非线性。

图8(c)冷却塔数量和PUE之间的关系

图8(d)冷却塔出水温度和PUE之间的关系

图8(c)和8(d)示出的PUE和运行的冷却塔数目之间的关系,以及PUE和冷却塔出水平均温度(LWT)设定值之间的关系。从风扇的特性上判断,因为风扇功耗和转速之间是三次方的关系,

如果开启更多冷却塔, PUE将得到下降。分散相同的冷却负荷到更多的冷却塔,将让每个冷却塔运转在较低的平均风扇转速,从而降低总功耗。

同样地,在图8(d)中,这同样是因为风扇功耗和转速是成立方倍关系。图8(c)还表明了一个采用共享冷却水管道,将散热负荷分散到多个冷却塔的设计,要比每个冷却塔采用独立冷却水供回水管路的设计更为节能。

图8(e)冷冻泵数量和PUE之间的关系

图8(f)冷冻泵转速和PUE之间的关系

图8(e)和图8(f)展示了数据中心PUE和运行冷冻水泵(PWP)数量之间的关系,以及PUE和冷冻水泵转速之间的关系。

对于一个给定的冷冻泵转速,增加运行冷冻泵的数量将增加总的冷却能耗,并因此增大了PUE值。同样,提高冷冻泵平均转速,同时保持原有的冷冻泵数量,将会导致冷冻泵能耗成立方倍增加,最终提高了冷冻泵的能源开销。

图8(g)PUE和运行干冷器数量关系

图8(h)PUE和室外湿球温度关系

图8(g)展示了PUE和运行干冷器数量之间的关系。干冷器只是在冬季的几个月内运行,尤其是在周围的环境温度可能造成冷却塔结冰的情况下使用。

由于干冷器利用特殊闭式冷媒,冷冻水与室外冷空气之间通过冷媒进行热交换,但干冷器通常比传统的横流式冷却塔或逆流式冷却塔表现出更低的效率。

这个特性可以反映在PUE图,更多的干冷器运行将带来冷却功耗的线性上升。

图8(h)则展示了提高湿球温度带来的PUE变化。该曲线的形状和Google的历史PUE数值匹配良好,

较高的湿球温度限制了冷却塔的应用范围,需要更高的风扇转速和更多的机械制冷。而在左侧PUE略有增加,是因为在低湿球温度下开启了更多干冷器的缘故。

图9 室外空气焓值和PUE之间的关系

图9展示了PUE和外部空气的焓值关系。

当空气焓值增大,冷却塔数量、工作冷机数量、及这些额外大功率设备投入带来的总功耗上升,使得数据中心能耗非线性增大。

需要注意的是空气焓值比单独的湿球温度影响更大,因为前者能更为全面地衡量户外天气条件(包括环境空气的水分含量和比热等)

敏感性分析结论

室外空气焓值对数据中心PUE值的影响最大,紧随其后的是IT负载的影响、冷却塔出水温度LWT设定值。运行干冷器的数量也会显著影响数据中心的PUE值。

在实际应用中机器学习方法可以告诉我们两个结论:

1、当前数据中心可到达的最低PUE值,2、以及如何调整优化参数来实现这一目标。

在实际运行优化中,Google通过神经网络模型及过往数据的模拟分析,有一些如下的典型实际应用案例。

案例1、模拟过程供水温度的升高

在这项研究中,Google通过提高冷却塔出水温度LWT和冷却水补水泵的温度设定值,将送到服务器地板下冷冻水供水(PWS)的温度提升了3华氏度。图7所示为连续三周在同样的服务器负载和室外湿球温度条件下,较高的冷冻水供水温度PWS(显示为红色)的PUE分布,和运行在较低冷冻水供水温度(PWS)下的PUE出现频次比较(显示为蓝色)。两个分布曲线都有清晰的双峰,左侧峰值对应于仅由冷却塔的节能工作模式,右侧峰值对应于冷却塔和冷机同时运行的夏季条件下。根据模拟预测,分布曲线的左侧有约0.5%的平均PUE值差异(不完全重叠在一起)。而在右侧的PUE值差异更大,因为在高水温下,除非冷却塔已经达到了最大容量,否则冷机不会开机工作。

图10 对应于更高的PWS温度(红色)与低级PWS温度(蓝色)的PUE分布

案例2:输入错误的仪表倍率修正

2011年Q2,Google宣布将天然气发电量作为PUE计算的一部分。这需要在每个谷歌的数据中心安装自动化天然气计量表。然而,不同燃气表类型带来了混乱错误的测量倍率。例如,一些米表每1刻度对应1000立方英尺的天然气,而另外一些米表则是1:1或1:100的比例。数据中心运营团队在采用燃气供电时候发现PUE异常,实际计算得到的PUE值会高出机器学习的预测值的0.02到0.1。后来谷歌在原因查找时候发现该测量值是仪表倍率错误导致,故得到修正。

图11 机器学习发现错误的天然气倍率读数

案例3:数据中心冷站配置优化

这个案例中,数据中心需对电力基础设施计划性升级,为安全起见需迁移走40%的IT负荷。为了保持较高的数据中心运行效率,需要改变冷机系统的设置参数以匹配减少的IT负载。通过神经网络算法模拟PUE优化方向和运营人员专业知识,运营团队选择了一组新的运行参数,相比之前的配置参数,该数据中心的PUE值从1.22降低到了1.18,降幅达0.04,如图12所示。

图12 采用神经网络模拟调整冷站参数实现PUE降低

当然,机器学习的应用效果受到输入数据的质量和数量的影响。因此,数据中心拥有大量的运行数据来实现精确的数学模型就显得非常关键。若数据较少则该仿真结果的精度会降低。

图13(a) 采用神经网络前后PUE值的对比

图13(b)出现概率的分布

图13(b)展示了某个数据中心过去2年在不同室外湿球温度下的2000个PUE数据,用蓝色标识,绿色则是采用机器学习之后的PUE数值,可以发现两个特点:1、PUE值随着室外湿球温度升高增加很快,因为冷却塔的散热效率随着室外湿球温度的升高降低很快;2、采用机器学习优化后在同一湿球温度下的PUE值(如绿色点所示),比优化前要低很多,而且基本集中在范围很窄的两个较小区域内,分别对应冷机开启和冷机不用开启的两种情况。图13(a)到图13(c)分别对应几个数据中心优化前后的PUE比较,最大实现了约25%的节能,最小的也降低了10%,总体实现了平均15%的节能。

图14 B/C数据中心采用神经网络运营优化前后PUE值的对比

五,结论

数据中心规模的飞速增长使得能源效率优化显得日益重要,但因其复杂性却又难以简而化之。利用本文所阐述的神经网络机器学习方法,Google能将PUE降低到1.1以下,其预测的数据中心PUE精度为0.4%- 0.5%之间。

Google实践验证了

机器学习方法可以利用现有的传感器数据来模拟数据中心能源效率优化,并能实现10%-15%的节能,而且机器学习会告诉你如何优化数据中心的能效,包括模拟数据中心的参数配置评估,能效评估,并确定优化方案等,是一种非常有效的运营利器。

(全文终)

版权声明:本文为腾讯数据中心原创,转载需标明出处。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

本文部分图片来自互联网,如果涉及到版权问题,请联系serenadeyan@tencent.com。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-02-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档