前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌,如何成为数据中心行业的绝顶高手

谷歌,如何成为数据中心行业的绝顶高手

作者头像
腾讯数据中心
发布2020-04-13 12:40:32
2.1K0
发布2020-04-13 12:40:32
举报
文章被收录于专栏:腾讯数据中心腾讯数据中心

前言

谷歌作为全球最大的互联网公司之一,其数据中心以领先的建设技术、稳定的运维能力和可持续发展的核心价值观在数据中心行业广受好评。而谷歌数据中心是如何获得如今的“江湖地位”,又是怎样成为数据中心行业内绝顶高手的呢?今天就让我们跟随谷歌数据中心副总裁Joseph Kava的内部视角,一起来探秘谷歌数据中心。

作为现代社会重要的基础设施,数据中心的客户需求始终是其设计、建设和运营的立足点。在Joseph心目中,客户核心的需求是:

  • 高性能与规模弹性
  • 合适的选址
  • 运行可靠性
  • 安全性
  • 可持续性

正是对这些需求的有效回应和极致追求,造就了谷歌数据中心的江湖地位。接下来让我们逐一拆解谷歌回应这些需求的招式,看谷歌如何笑傲群雄!

01

高性能、高弹性的数据中心

将变电站、服务器、机架,制冷系统、运营模式等产品化、定制化和规范化,使谷歌能有效控制数据中心的总成本。然而控制成本不代表要牺牲性能,在高性能运算领域,谷歌数据中心也有自己的独门秘籍:

  • 定制服务器,减少服务器内部的不必要组件,只留下高性能的计算部件。
  • 在服务器中使用特制的Titan芯片,减少系统漏洞。
  • 通过独特的 Borg  系统,实现了资源的动态分布。
  • 重视灵活性与适应性,保证弹性扩展潜力并支持OCP的机架标准。
  • 运维团队驻扎数据中心现场,保障数据中心内软、硬件设施的部署、维护、升级和维修的快速可靠。

谷歌的现场硬件运维

  • 制冷系统不断创新,大约每18个月就对制冷系统进行一次创新。
  • 采取因地制宜的冷却措施。根据数据中心所在地的资源优势进行冷却方式的优化。如在芬兰使用海水,在美国东南部使用雨水和循环水,在比利时使用工业运河水来满足数据中心的散热需求。

谷歌创新地使用运河水、雨水制冷

02

合适的选址

在保证其数据中心高性能运行的同时,谷歌也在如何选址上下足了功夫。目前,谷歌在四大洲拥有和运营着16个单个规模数百英亩左右的数据中心园区。

在选址时,谷歌会在用户需求和建议的基础上,按照自身多年的经验积累,从以下几个维度判断用地是否合适:

  • 与用户之间的链接延迟
  • 长期的累计总成本
  • 园区的可扩展性,考虑谷歌数据中心未来十年内的扩展需求
  • 容灾能力
  • 针对地点的特异性设计的可能性
  • 可再生能源资源

当然,世界上从来没有一块完美的地,所以谷歌数据中心的最终选址往往是综合上述因素权衡出的最佳折衷方案。

谷歌数据中心园区分布

以下图中谷歌在比利时的数据中心的选址为例,巨大的用地规模,为数据中心后期的扩展提供了空间。同时,恰当的地理位置保证了谷歌能很好的对接到用户、人才、高质量的光纤和可再生能源。

比利时圣吉斯兰的谷歌数据中心

而谷歌在爱荷华州的数据中心则是谷歌在选址时重视园区可扩展性的一个突出案例,该园区现阶段建设占地300亩,相当于235个美国橄榄球场,但这仅占该园区设计开发空间的三分之一。

美国爱荷华州谷歌数据中心

03

运行的可靠性

谷歌数据中心的停机时间是所有主流云服务供应商里最短的,这主要归功于谷歌独特的设计与运营数据中心的方法以及其可靠的监控系统。

一方面,为了提高数据中心运行的可靠性,谷歌数据中心在设计阶段就很重视容错能力与在线维护能力。同时,在设计数据中心的初期,谷歌会为未来技术升级留有一定的空间,即使早期建设的数据中心也能适应当前为机器学习和AI场景下的TPU系统、芯片级水冷技术等新技术。

另一方面,在运营过程中,谷歌通过事故处理透明化的方法促进员工的学习和进步。而且,谷歌还有一个“不责备错误”的机制保证他们可以更好的从错误中吸取教训。因此在谷歌数据中心的事故中,人为因素事故占比只有15%,远低于70%的行业平均值,而且谷歌数据中心中的人为因素造成的事故并没有导致数据中心停机。

数据中心事故原因分析与对比

与此同时,对数据中心内运营状态的充分监控也是谷歌保证运营可靠性的秘诀之一。他们会实时监控芯片,制冷系统,电力系统和安保系统的各个环节的数据,如服务器的温度,气压和流量,机械制冷系统的流量和压差等等,从而实时掌握数据中心的运行情况。

谷歌数据中心的数据监控系统

04

数据中心的安全性

安全性是数据中心的另一项硬性指标,谷歌也通过一套复杂的安全系统将数据中心安全性做到了极致。该系统可以归纳为以下几点:

  • 在物理安全层面,采用了层层深入的方式,从外围开始设置屏障,离数据中心本身越近的设施安全性越高,策略越严格。谷歌还利用自己的技术实现了对进入数据中心人员的实时监控。
  • 在人员管理层面,只有不到2%的谷歌员工曾经进入过数据中心。
  • 在信息安全层面,与物理防护相互呼应,谷歌建立了保护信息安全的专家团队。这个团队与物理安全团队彼此独立,相互检查。
  • 总体来看,谷歌将数据中心安全措施内置于系统的每个层级中,从数据中心本身、建筑物、安全原则、安全设计、一直到服务器本身和内置于服务器中的定制安全芯片,都有相应的安全措施来为客户保驾护航。

多层的物理安防策略

数据中心信息安全防护与物理防护并驾齐驱

05

数据中心的可持续发展

谷歌是第一家实现零碳足迹的公司。通过长期的技术与运营模式的积累和探索,谷歌在帮助自身和客户实现可持续发展的事业上交出了出色的答卷。谷歌对可持续发展的努力可归纳为三个方向:

(1) 提高能源效率

谷歌数据中心当前的平均PUE值为1.11左右,耗电量约为传统企业数据中心的一半。在同样用电量的情况下,谷歌数据中心现在的计算能力是其五年前的七倍。

谷歌数据中心的高能效与普遍的数据中心对比

谷歌数据中心的PUE曲线

在硬件和架构优化的基础上,谷歌也在尝试利用从数据中心获取的数据进一步提高能效,通过与DeepMind团队合作,使用AI技术来操作数据中心冷却系统。这个AI技术能实时查看19到20个数据中心的变量,并取得了将制冷系统的能耗降降低30%的成效(如下图)。由于AI系统的分析与控制的实时性,加之随着数据的积累,可以不断学习,调整策略,其效率相较于人类操控更高,节能潜力也更大。

AI技术控制数据中心运营减少30%制冷系统能耗

(2)使用可再生能源

谷歌是世界最大的可再生能源购买企业。自2007年起,谷歌就开始通过购买高碳补偿项目(植树造林,垃圾场甲烷气等项目)实现了碳中和的目标,并保持了10余年。

在2017年,除了连续十年达成碳中和目标之外,谷歌还宣布他们已经实现了可再生能源与企业用电量的匹配,即购买了足够的可再生能源,以抵消谷歌包括数据中心在内整个企业全部的能源消耗。谷歌现在拥有超过3.5GW的可再生能源合同,价值超过50亿美元。

谷歌的可再生能源发展路线图

通过倡导清洁能源和支持可再生能源采购项目,谷歌也在推动运营所在地的新能源建设。比如谷歌与中国台湾地区的第一个购电协议的签署。谷歌与中国台湾电力公司以及政府合作,修改了《中国台湾电力法》,使得谷歌可以购买可再生能源并将购买的能源输送到中国台湾电网中。这个项目在一个商业化鱼塘内部署了40,000个太阳能电池板 ,最大限度地提高土地利用效率并使当地水产养殖工人从中受益。

谷歌下一步的能源目标是建设无碳能源不间断直供的数据中心。目前,谷歌开发了一个分析工具,可以每小时分析一次数据中心的能耗,以了解其与无碳能源的匹配情况。通常来说数据中心的的无碳能源匹配值(使用的总能源里无碳能源的占比)会随时间变化。以下图北卡罗来纳州数据中心的数据为例,某些时段,无碳的能源匹配量可以达到82%,而在其他时间段,数据中心的无碳能源匹配量则为49%。

谷歌北卡数据中心与无碳能源的匹配情况

为了推动可再生能源的使用,谷歌近期联合了DeepMind使用机器学习(ML)来提高风力发电的可预测性。他们使用 ML对美国中部的一个700MW的风力发电场进行了优化实验,通过提前36小时预测风力输出(如下图所示),可以提前一天预测出每小时风电场向电网输送的电量。由于提前明确了向电网供应的电量,这个工具将该风电场的价值(可再生能源的价值)提高了约20%。

使用ML技术预测风电场的发电量

(3)推进循环经济体系

谷歌可持续发展战略的第三个要点是建立循环经济体系,实现零垃圾填埋目标。目前谷歌已经将其建设运营产生的废物的垃圾填埋场掩埋率降低到了9%。意味着谷歌生态链中产生的所有废物中只有9%(无论是来自建设还是运营中的废物)需要填埋。而谷歌取得如此优异掩埋率的秘诀可以总结为以下四点:

  • 持续维护设备,尽量的延长其使用寿命。
  • 重复使用设备,为已经不适用于某一服务的设备找到合适的场景进行二次利用。
  • 尽量利用回收组件制造新服务器,谷歌2018年用于机器升级的组件有19%来源于库存翻新。
  • 退役设备转售,当找不到设备的新用途时,谷歌会擦除所有存储数据的组件,然后再转售它们。在2018年,谷歌向二手市场转售了近350万个单位,以供其他组织再利用。

谷歌的循环经济体系

谷歌长期对可持续发展的坚持和投入取得了亮眼的成就,也获得了业界的认可。谷歌公司常年占据了CDP奖项榜的前茅。几年前,还在阿布扎比获得了Zayed未来能源奖。

谷歌获得的可持续发展方面的荣誉

后记

在这篇文章中,我们跟随着谷歌数据中心副总裁Joseph Kava的内部视角从客户对数据中心最关注的高性能,合适的选址与规模弹性,运行可靠性,安全性,能源可持续性等方面了解了谷歌的做法和理念。

总的来说,我们可以看到谷歌达成目前的成就离不开的是对创新和技术发展的执着追求,对未来长远的规划,对实践的重视和学习,对数据的依赖以及对可持续发展坚定的投入。

希望大家都能从这个分享中找到对自己工作有益的 “谷歌之道”,帮助推进更先进的数据中心技术与标准的发展,建立更有活力的技术社区和更可持续发展的互联社会。

【说明】本文仅供学习和交流,文中图片来自网络,如涉侵权,敬请联系删除,谢谢。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档