把旧数据“冷冻”起来,Facebook这是在干吗?

雷锋网授权转载 网站: http://www.leiphone.com/ 微信: leiphone-sz

当有人提到“可持续发展”这个词语的时候,第一个出现在你脑海里的肯定不会是数据中心。而实际上,这些有着庞大的计算机组、网络架构以及存储设备的大楼却是典型的耗电大户。原因就在于,为了保障这些设备正常运转,必须要有一个巨型的冷却系统来保证其一直在低温状态下运行。它们的配电系统会在这一制冷过程中损失近千瓦的电力。并且,为了保障设备不受突发状况导致的停电所影响,这些大厦往往还需要配备有备用电池和柴油发电机。而很明显,这两者并不是什么清洁能源,会严重影响周围的环境。

许多互联网巨头都在想办法改善这一状况——建设自己的数据中心。他们自己搭建自己的硬件系统,努力使得他们的数据中心更加环保。这样做对他们来说最直观的益处就是能够降低运营成本,并且运转起来相对也更加的便捷。很明显,有一些公司在环保方面下的力度很大,其中一个典型例子就是Facebook。Facebook大量采用自己自家的技术来搭建绿色环保的数据中心,并且把这种经验开放出来跟大家共享。Facebook最先进的阿尔图纳数据中心就采用了由廉价交换机组成的网状连接交换架构来提升性能,Facebook称之为下一代的数据中心——Data Center Fabric。这对于提升数据中心的网络性能、降低成本以及提高能效起到了非常关键的作用。

所有这一切都开始于8年前,当时Facebook正在着手设计其位于Prineville的第一个数据中心。Facebook自那时开始,就已经聘用了专门负责可持续发展的董事Bill Weihl,他直接对Facebook的环保工作负责。在此期间,Facebook已经做了很长时间的实验,来研究如何设计建立用可持续能源来供电的绿色数据中心。

冷存储(cold storage)

如今,Facebook的数据库中有数十亿的图片,而你肯定无法想像为了存储这些图片将会消耗掉多少电力。在2013年,Facebook的图片存储系统HayStack一共产生了1EB的数据流量。(1EB=1024PB;1PB=1024TB;1TB=1024GB)这个数字是非常惊人的。虽然这些图片在大多数情况下在被分享几周之后就很少再会被查看了,但是Facebook仍然需要保存他们,而且必须要确保即使是在硬盘出现故障的情况下也要保障图片文件的完整性。

这就意味着Facebook需要在数据中心保存大量的数据,为了保证这一点就需要其提供大量的电力。而Facebook的工程师则巧妙的利用了“负瓦特”,开发了一个名叫"Cold Storage"的系统。Cold Storage能够允许Facebook数据中心内超过一半的磁盘在任何时候关机,从而实现大幅降低功耗。现在,Facebook的存储团队正在考虑进一步节约能源,比如将老旧的图像拷入蓝光磁盘内。

目前Facebook已经在Prineville及 Forest 两个中心建设了两套cold storage系统。cold storage系统的每个服务器机柜可容纳1.92 PB的数据。因此,在完全架设完毕的情况下,每一个数据中心可以存储1EB的数据。而且Facebook在设计时还考虑到了未来。很多系统在规模扩大或者利用率上升时往往就会出现性能下降的问题,而Facebook的这套系统则从一开始设计时就考虑到了。Facebook的做法是每次增加容量时,都将软件对现有数据进行再平衡。也就是说将原有数据分配到新的硬件上,并释放之前用过的空间。这个过程并非实时进行,十分适合用于系统的逐步移植。这样既不影响系统的使用,又能逐步将数据迁移到新硬件上。如果把Cold Storage看作一块大硬盘的话,这种再平衡的做法就可以视为智能硬盘整理程序。

降低耗电是开发Cold Storage系统的主要目的之一。据介绍这套系统的耗电极低,仅需消耗传统数据中心 1/6的电量。其主要手段就是以空间换功耗——Facebook的数据中心占地面积非常大。但是随着以后单盘容量的提升,其存储规模还可以进一步扩大。同时由于cold storage存放的不是活跃数据,而是历史数据,所以 Facebook可以把冗余电力系统(不间断电源、柴油发电机、备用电池等)也抛弃了,从而进一步提升了能效。

为了尽可能降低能耗,Cold Storage 允许服务器不带硬盘一起启动,之后将由软件来控制其闲时时段。不过这样就要求Facebook对Open Vault的存储规范进行修改。Facebook最大的改动就是——每次只允许为每个托盘上的一块硬盘供电。为了避免软件bug错将所有硬盘都供电,导致数据中心保险烧坏,Facebook甚至还专门修改了每一块硬盘驱动器的固件。此外,由于不需要每次都给所有硬盘供电了,Facebook还通过一系列的优化成功使得机架的存储密度大大增加,与传统存储服务器相比,其耗电只有后者的 1/4。

提升能源使用效率

在2012年,纽约时报的一篇报道揭露了IT业数据中心效率低下,耗电量惊人的问题。自此之后,降低数据中心能耗效率值(PUE)便成了考核数据中心的热门指标之一。(PUE指数据中心总耗电量与IT设备耗电量的比值,这个值越接近1,数据中心的能耗效率就越高)。

而Facebook位于北卡莱罗纳的数据中心仅通过使用自然风制冷,并提高服务器硬件的耐热性能,就打造出了PUE能耗效率值仅为1.07的超级绿色数据中心。这个数值也大大超过了Google数据中心PUE能耗效率值——1.12。据介绍,Facebook使用Bin Maker软件分析天气数据,预测出北卡莱罗纳的温度和湿度,然后通过美国采暖、制冷和空调工程师协会(ASHRAE)的数据来判断是否需要使用空调。

此外,Facebook还根据其发布的Open Compute标准开发出了能耐受更高室内温度和湿度的服务器硬件,并通过改善传统数据中心电力供应链来减少在电力转换过程中的能源损失。对传统服务器来说,如果一个UPS坏了或者电源部件坏了,整个数据中心就瘫痪了,而对Open Compute来说,只是某个部分不能继续使用罢了。另外,在维修传统服务器时,维修人员必须将整个服务器拿出来,用工具拆开后才可以修理;而Open Compute则采用了通用电源插座,维修时直接通过滑轨拉出来就可以实现在线维修。为了进一步提高能源使用效率,甚至连数据中心楼道里的灯都是只有在人通过的情况下才会亮。Facebook在提高数据中心能源使用效率上下的功夫可见一斑。

专注大数据,每日有分享

覆盖千万读者的WeMedia联盟成员之一

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏架构师之路

带团队,boss需求怎么处理?

15年调到到家后,很长一段时间,我的leader是James,他给了我充分的信任与足够的支持,让我有机会对58到家技术体系做一个雏形的搭建。

1042
来自专栏BestSDK

综合搜索的困境

前几天看了品玩上一篇关于阿里旗下神马搜索新发布的蓝光模式的分析文章,所谓蓝光模式主要有3大特征: 1、高颜值,交互App化。即搜索某个query如“nba",...

2277
来自专栏知晓程序

各大 App 直接打开小程序!微信收割移动互联网的时间开始了

1303
来自专栏互联网数据官iCDO

【独家揭秘】中国互联网数据分析行业生态解析-(1)网站分析工具有哪些

与过去五年甚至仅仅只是跟过去三年相比,今天的中国互联网已经是翻天覆地的变化。 各位朋友能够随便举出很多很多的变化,可是我却很想看到这些变化背后更为本质的一些驱动...

2976

简谈“个人云”

现在,让我们在脑海设想一个简陋而无窗的房间,里面堆满了大量的金属的机器。所有的机器都用多色的电线连接在一起,并且房间时不时灯光闪烁。你会用什么比喻来形容这个场景...

2407
来自专栏Java架构师进阶

技术变化那么快,程序员如何做到不被淘汰?

 中国有很多年轻人,他们18,9岁或21,2岁,通过自学也写了不少代码,他们有的代码写的很漂亮,一些技术细节相当出众,也很有钻研精神,但是他们被一些错误的认识和...

873
来自专栏Crossin的编程教室

新手程序员应该知道的7件事

资深软件开发人员分享的一些关于专业化编程的经验和教训,这些经验教训都是经过多年历练总结得出的。 如果你刚进入专业的软件开发世界,那么得益于在计算机科学和编程方面...

3157
来自专栏AI科技评论

干货 | 多伦多大学博士生赵舒泽: 如何在FPGA上实现动态电压的调节?

AI 科技评论按:说起 FPGA,很多人可能都不熟悉,它的英文全称为 Field Programmable Gate Array,即现场可编程门阵列,也被称为可...

2906
来自专栏CDA数据分析师

译文 | 如何掌控你的客户关系管理数据?

CRM(Customer Relationship Management,客户关系管理)用于在企业经营中取得更高的效率。通过投入大量时间在CRM上,销售团队应该...

2487
来自专栏java一日一条

30多年程序员生涯经验总结

在我30多年的程序员生涯里,我学到了不少有用的东西。下面是我这些年积累的经验精华。我常常想,如果以前能有人在这些经验上指点一二,我相信我现在会站得更高。

1022

扫码关注云+社区

领取腾讯云代金券