专栏首页云计算D1net巨人之地:构建超大规模云计算设施

巨人之地:构建超大规模云计算设施

如今,全球数字基础设施的建设是一项独特的协作活动,各国政府、研究机构和企业都在创建数据中心、电缆、基站、卫星、传感器的巨大网络中发挥作用。但是有一些行业厂商做出了无与伦比的贡献,通常是那些建立大型网络,并提供大量数字业务的公司,以及花费数十亿美元来进一步扩大其市场主导地位的公司。

如今,全球数字基础设施的建设是一项独特的协作活动,各国政府、研究机构和企业都在创建数据中心、电缆、基站、卫星、传感器的巨大网络中发挥作用。

但是有一些行业厂商做出了无与伦比的贡献,通常是那些建立大型网络,并提供大量数字业务的公司,以及花费数十亿美元来进一步扩大其市场主导地位的公司。

“十五年前,当我开始在谷歌公司工作时,当时并没想到谷歌公司将会构建世界上最大的网络,或者是世界上最大的计算基础设施,”谷歌公司副总裁Benjamin Treynor Sloss表示。他的工作是让谷歌公司的业务保持不间断运营,从搜索到地图,再到云平台的所有一切,

他说,“如果谷歌的业务停止运行,那这就是我的过错,维护业务运行是我的主要职责。”

当Sloss加入谷歌公司时,当时无法预测该公司及其基础设施要求的规模有多大。他说,“我当时只是知道在接下来的三个月中需要做很多事情,并在两到三年内将会得到更大的发展。”

而在微软公司,该公司数据中心战略和架构高级主管David Gauthier的经历与Sloss类似。他说,“我在微软公司工作了大约19年,而且我一直参与我们的数据中心基础设施的建设与运营。这是一段相当艰难的旅程,先是在微软公司早期的MSN,然后是Bing的原始算法搜索。而在当时成为一个超大规模厂商时,我认为微软公司并没有真正掌握将要发生的事情,那就是云计算,而云计算行业在很短的时间内得到指数级发展。”

谷歌公司也不得不应对这种非凡的增长,其进军云服务市场进一步加剧了这一趋势。“当我们开始提供公共云产品时,采用了正在使用和运行的数据中心、基础设施、网络、服务器,以及已经使用的所有内容。”Sloss说。

他表示,现在的目标是让谷歌云平台客户能够以与谷歌搜索或Gmail相同的可用性、性能以及功能丰富性来构建服务。

Sloss说,处理这一挑战需要仔细平衡想法、路线图和优先事项,并将他的工作比喻为是一个投资组合管理人员的工作。他说,“我的团队中有5000人,在每一个领域,我都有一些人员在接下来的三到六个月里做一些没有必要的事情。”

Sloss说,“谷歌公司许多员工正致力于迭代改进技术,而一部分员工则专注于成功概率较低的技术研发。这些事情必须齐头并进。我们鼓励员工遵循谷歌公司的70-20-10理念(核心业务占70%,核心相关项目占20%,不相关项目占10%)。我们每个季度都投入了大量的资金,并得到进一步的努力,以获得少数能真正完成的项目,转变为可以极大地推动业务发展的项目。”

“例如,使用机器学习来提高效率,提出这个问题的人来自其中的一个迭代团队,”Sloss说。 2016年,谷歌公司的DeepMind部门宣布将一个数据中心的能源使用效率(PUE)提高了15%。

有关谷歌公司采用该算法的广泛程度的细节有限:“我要说的是:正在推出这个算法,我们将在构建或改造新数据中心时继续推广,而人们需要了解我们目前拥有的大部分数据中心,他们已经从中受益。”Sloss说。

而微软公司的Gauthier说:“我们都在使用人工智能和机器学习来优化我们的基础设施,降低能源消耗,以及降低水和其他资源的消耗。”

容量问题

机器学习也被用来帮助进行容量规划。去年,亚马逊网络服务公司的首席执行官安Andy Jassy表示,“AWS公司最不了解的一个方面就是面临巨大的物流挑战,这是一项非常难以运营的业务。”

“当然,我们在许多领域使用机器学习,”AWS技术传播者Ian Massingham表示,“容量预测是一种经典的序列预测机器学习用例。那我们为什么不这样做呢?实际上也有客户这样做。游戏发行商Electronic Arts公司正在使用机器学习来规划自己的EC2容量队列,因此当他们推出新游戏时,他们已经准备好了足够的容量。”

“他们的介绍并不十分具体,但我可以采取一种非常有根据的猜测。”Sloss谈到了AWS公司的容量规划,“需求计划不仅仅是对需求曲线的简单推断。实际上有可预测的高峰和低谷,就像9月到5月之间谷歌搜索的需求增长,然后在6月到8月之间,很多学生放假时,需求曲线会变平。所以人们可以看到这些历史影响。我们可以规划容量,当人们谈论数十亿美元投资建设基础设施时,提高5%的效率变得非常重要。我们假设亚马逊公司也可能在做同样的事情,但没有对外公布,而我们已经做这样的事情已超过15年。”

Gauthier同样表示:“我认为我们可以使用机器学习,这是公平的,但无法证实。”

为了确保有足够的容量来满足突然的需求增长,每次Microsoft Azure启动新区域时,它都会确保其数据中心位置有新的空间,并且其公用事业提供商拥有额外的资源。“我们最不愿意做的就是开通一个全新的区域,并且没有增长。”Gauthier说,“我认为人们对于采用云计算还保持着拥有无限能力的幻觉。这确实是云计算面临的挑战,因为许多基础设施和硬件正在变得越来越成熟。我们如何进行容量规划以保持这种错觉,这正是比较矛盾的地方。”

保持对AWS所追求的突然容量转移控制的一种方法,就是限制客户可以在不与云计算公司讨论他们的计划的情况下启动多少个实例。“因此,如果客户想要超过这些账户限制,就需要提出一份申请表,快速审查其用例。”Massingham说,“然后我们知道潜在的消费足迹是什么,我们可以用它来告知我们的容量规划。”

为了提供过度配置而不会因此而损失过多的资金,AWS公司还运营着EC2现货市场,这是一个打折的拍卖式市场,如果客户采用一个经典的市场模型购买这些资源,另一个客户可以竞价购买可收回的资源。“人们所看到的是,我们试图恢复那尚未被利用的产能的边际成本,尚未出售用于需求使用或储备实例的产能。”Massingham说。

现货市场是AWS社区所要求的一项举措,Massingham认为该社区为云计算公司提供了独特的优势。

“我们很早进入云计算市场,由于某种原因,其他可能成为竞争对手的企业在当时没有意识到云计算的潜在影响,因此我们占据了先机。”他说。

而企业具有领先优势的是获得了大量客户反馈和使用的数据,“因此我们非常了解客户对现有服务的重要性,并有机会与客户讨论他们希望我们添加到服务中的内容和平台。”他说。

下一件大事

谈到云计算市场份额,AWS公司目前处于市场领先地位,但每个公司都有一个庞大的研发部门,试图找到未来发展更为重要的东西,改进功能或技术创新,这将给他们带来优势,或者削减他们内部服务的成本。

“我们实施了许多不同的计划,这些计划将持续两年到五年甚至更长时间,以试图让企业跟上技术的发展方向。”Gauthier说道。“我们看看数据中心的其他部分需要花费时间、资金和精力来运行,从发电机到UPS,再到配电系统,然后再了解设计的超大规模系统到底有多必要,通过分配工作负载来处理软件故障,并应对可用性挑战。“

AWS公司表示,正在尝试摆脱对电网的依赖,在过去五年中在机架级尝试采用氢气和甲烷气体动力燃料电池。Gauthier 表示,“为了消除电网的损失,消除变压器的所有配电挑战,并将它们整合到一个非常有效的系统中。我们的试点采用新能源的数据中心运行良好,它使我们能够向供应商生态系统展示使用燃料电池的可能性。”

Gauthier说,为此采用新能源的另一个优势是,能够消除数据中心柴油发电机需求的技术和产品都会使新建的数据中心获得许可变得更加容易。“我不能提供燃料电池何时进入生产数据中心的时间表,但我可以说这绝对是我们的首要任务。这是一项非常有趣的技术,它是我们与生态系统共享的东西。我们定期举办行业会议,甚至我们的一些竞争对手也会谈论技术,以及我们如何可以让这个行业更加成熟。”

美国能源部国家可再生能源实验室的一位消息人士与微软公司合作测试和应用燃料电池技术。谷歌公司代表已表示对该技术感兴趣,并参观这个实验室以了解更多信息。

Gauthier说,微软公司研发部门非常积极参与的另一个领域是高密度的机架冷却,可能使用液体冷却技术。随着人工智能和机器学习工作量的增加,“数据中心的功率密度不断增加,而我们正在密切关注风冷技术。此外,我们开始采用其他冷却技术方向。”

谷歌公司也在研究液体冷却技术。凭借其最新一代Tensor Processing Unit TPU 3.0,它首次采用了这项技术。“其他条件相同,液体冷却比空气冷却更加昂贵,因为将采用更多的管道、更多的铜材,以及更多的热交换器,必须冷却每个芯片。”Sloss说,“所以除非真的需要,否则不会这样做,但由于这些机器学习系统的功率密度越来越高,必须获得更好的冷却。”

在采用TPU和其他内部硬件产品之前,谷歌公司通常会让其数万名员工试用该设备。Sloss说,“当我们首次推出这样的产品时,其功能可能并不成熟,并且需要不间断运行。它实际上并不是一种可以作为服务提供的形式。”

在这种情况下,谷歌采用“dogfooding”的方法,即让谷歌公司自己的员工作为测试基础。“这是一个足够大的用户群,企业可以在公共场合找到各种各样的东西,并且拥有更宽容的受众。当提供一些技术并不成熟的产品时,谷歌公司不断进行完美更新,但却不会有关于这种产品的新闻报道。”

这个过程以及对创新的关注可以帮助企业在市场和技术方面保持领先,Sloss表示,“我们将谷歌公司视为第一家大规模实施云计算的公司,因为在1998年就开始构建这些技术产品。而当时一些拥有定制系统和定制数据中心的企业都认识到云计算在灵活性和经济性方面带来了巨大的好处。所以我并不担心会被所拥有的设计——我们现在设计的是每个企业都在投资的东西。但一个更有趣的问题可能是:云计算之后将会是什么? ”

同样,他认为这是一个投资组合的问题:“谷歌公司的总工程量中有多少利用了当今使用的基础设施,而不是使用下一代技术?我不知道我能否准确预测未来15年的基础设施会是什么样子。但我会看到谷歌公司仍然处在机器学习基础设施的最前沿,这与云计算基础设施几乎没有什么不同。对我来说,这是一个关于计算进展的一个有趣的新角度。”

规划停机时间

但Sloss警告说,创新需要牺牲。他创建了网站可靠性工程的概念,这个学科融合了软件工程的各个方面,并将其应用于IT运营问题。并且,他指出产品开发和SRE团队在创新速度和产品稳定性之间可能遇到结构性冲突。“这可以通过引入错误预算,即设定的错误百分比和停机时间来解决。” Sloss说。

那么是否有错误预算?Sloss说,“是的,它只是非常小,谷歌公司的可用性目标通常在5个9的范围内。”

Sloss说,如果用户无法访问谷歌网站时,很多原因与谷歌公司的业务中断毫无关系。而作为用户,实际上无法区分完全可用性和5个9的可用性。对人们来说它看起来完全一样。但是,供应商所需的努力和成本水平,以及从5个9到6个9所需的工程资源和特征速度的消耗实际上是巨大的。”

Sloss正是这么认为的,100%并不是企业大多数服务的可用性目标,这是关键。他说,“即使达到100%的可用性,但实际上人们对其体验可能是99%。一旦明白了这一点,那么问题是:什么样的可用性目标能让用户非常满意,能够以极快的速度和非常低的价格交付大量新产品的平衡?然后就要选择正确的点,这是至关重要的。”

实现大规模系统的高可用性,同时仍在不断发展和推出新功能,这给所有主要的云计算厂商带来了困难,因为每个公司都遭受了计划外停机和停机时间。

“我们在AWS内遇到了大多数提供商永远无法实现的扩展挑战。”Massingham说,“我们设计的系统可以解决大多数提供商从未设计过的挑战。当然,我们过去曾经遇到过服务事件,但人们可能已经注意到的一件事是,这些事件发生的频率比以往任何时候都要低得多。”他说。

微软公司减少这些事件数量的方法之一是简化数据中心的运营。“如今的数据中心越来越复杂,其中一些维修转移程序拥有75个或80个步骤,并且将在10或12种不同的动力传动系统中实现这一目标。”Gauthier说,“这只是大数定律,人们会犯错误。因此,我们在数据中心的设计上花了很多时间,考虑如何在维护情况下最小化必须采取的步骤。”

但Sloss说,基础设施的最大原因是软件漏洞。“当人们考虑云计算中的灾难事件时,他们往往会关注那些戏剧性的事情:如果发生火灾怎么办?如果发生爆炸怎么办?如果发生大规模停电怎么办?如果发生地震怎么办?而实际问题却是软件漏洞。”

出于这个原因,该公司在冷存储方面进行了大量投资,因为弹性要求企业拥有一个漏洞无法接触的离线存储。

Sloss 表示,“即使我们遇到过最引人注目的问题,重点仍然是‘这个错误应该由谁负责?'它的主题是:‘如何修复我们的分析、流程、系统等等,在将来不会发生这种情况?’这种理念完全适用于我们现在在公共云中所做的事情,因为在公共云中,人们无法控制谁在使用系统。”

总之,这些行业巨头不得不改变经营方式,在这样做的同时,也可能改变其他公司的运作方式。

(来源:企业网D1Net)

本文分享自微信公众号 - 云计算D1net(D1Net02)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 广和:IService分布云 —— 云布中国 广和天下

    主持人: 欢迎大家回到CCS云计算高峰论坛。云计算、智慧城市是这个时代的热词,而将这两个热词串起来的,就是广和服务外包有限公司。基于中国地方政府的特殊性,智慧城...

    静一
  • 用于大数据的嵌入式分析和统计

    用于大数据的嵌入式分析和统计已经成为了业内一个重要的主题。随着数据量的不断增长,我们需要软件工程师对数据分析提供支持,并对数据进行一些统计计算。本文概要地...

    静一
  • 中国移动:中国移动云计算技术和研究和应用

    主持人: 作为全世界用户最多的运营商,中国移动的动作同样也牵扯着业界的神经。作为最早推出移动大云的运营商,中国移动目前进展如何呢?接下来中国移动通信有限公司研究...

    静一
  • 突破瓶颈,思考如何不断的提高自己

    我们中的大多数人在生活中凡事都想尽力做到最好,无论是工作,生活或者自己的学业或者其他的种种,都觉得自己已经很尽力了。但不久之前我才明白,无论是作为一个丈夫、朋友...

    小程故事多
  • 美团点评酒旅数据仓库建设实践

    在美团点评酒旅事业群内,业务由传统的团购形式转向预订、直连等更加丰富的产品形式,业务系统也在迅速的迭代变化,这些都对数据仓库的扩展性、稳定性、易用性提出了更高要...

    美团技术团队
  • 高频面试点:Android性能优化之内存优化(下篇)

    链接:https://juejin.im/post/5e72b2d151882549236f9cb8

    陈宇明
  • EXTJS7 BUG分析解决 form启用xhr2提交丢失所有表单数据

    路过君
  • Git常用命令速查表(收藏大全)

    Git的设置文件为.gitconfig,它可以在用户主目录下(全局配置),也可以在项目目录下(项目配置)。

    java思维导图
  • 深度学习也可以取悦女友

    深度学习目前在图像处理领域有着非常好的应用和研究,在医学领域可以用它在极早期判断癌症;在安防领域,可以用它来快速检索目标任务,进行可疑或危险人物的检测与抓捕;在...

    计算机视觉研究院
  • PostgreSQL 布隆索引 与 a big bang therory

    好吧我有点标题党,其实本期要说的是 bloom 过滤器的问题,但题目为什么是这样,一般来说我们如果要给一个大表来加索引,并且这个查询还要加挺多列的时候,是蛮头疼...

    AustinDatabases

扫码关注云+社区

领取腾讯云代金券