【揭秘】深入 Facebook 人工智能大脑

【新智元导读】为了对抗谷歌机器学习开源软件TensorFlow,Facebook去年宣布开源硬件Big Sur。日前,Facebook 首次对媒体开放 Prineville 的新建数据中心,传说中的开源硬件 Big Sur 首次以实物亮相。在机器学习军备竞赛愈加激烈的当下,Facebook 准备通过开源获得硬件方面的优势:开源能树立名声,吸引更多人才;规模经济也可能降低 Facebook 的硬件支出;最重要的,开源是完善技术最快捷的方式。

Facebook 今天十分漂亮地在媒体上做了一次公关,目前为止,已经有超过 8 家数得上名字的国外科技媒体(现在多了中国的新智元),报道了这家公司位于 Prineville 的第二家数据中心,以及 Facebook 想要推广的主角——开源硬件 Big Sur。

媒体争相拍摄

深入 Facebook “大脑”

自去年以来,Facebook的用户和数据都大幅增长,Prineville 数据中心也随之扩建,增添了更多的高性能服务器,以支撑这家公司在大数据处理方面的需求,尤其是分析图像和视频。

现在,Facebook 在Prineville 新建的第二家数据中心面积已经超过了 9 万平方米,大楼精确地排成一排,好让来自西北干燥而凉爽的夏季风吹过。

从 Prineville 新数据中心楼顶看到的风景。选址 Prineville 是看中了这里的沙漠气候和干燥的空气,有利于数据中心工作。

Prineville 数据中心外的太阳能板,负责为数据中心的办公室供电。

针对散热优化的架构

Facebook 的 Big Sur 服务器基于高性能图形处理器(GPU)设计。这些芯片为AI技术的进步提供了支持。软件已经能更好地理解图像和语言,支撑更加智能的助理。

每台 Big Sur 服务器配有 8 个 Nvida Tesla M40 GPU(每个 M40 有 3072 CUDA 计算核),2 个 CPU 和 SSD 存储及热插拔风扇,计算速度达到 40 petaflop。

Big Sur 荧光绿的保护膜利用 Venturi 效应还具有加速空气流通的性能。

Facebook 最初想扩建数据中心时,当时市面上还没有合适的硬件,因此 Facebook 选择了自己研发。然后他们找到了 Nvidia。

Nvidia的副总裁Ian Buck说,他们第一次训练单个神经网络花了3个月。Ian 负责Nvidia公司的加速计算,与Facebook的AI团队、数据中心都有紧密合作。用新一版Nvidia GPU升级训练硬件后,所需时间减少到了1个月。Ian表示,现在使用 M40 的 Big Sur 不到一天就能训练一个神经网络。

研发这些服务器的工程师 Kevin Lee 说,Big Sur 帮助 Facebook 的研究员使用更多的数据来更快地训练软件。“这些服务器是专门用于AI研究和机器学习的,GPU 能将图片分割成极小的碎片再一次性将其全部处理。”

由于 GPU 非常耗能,Facebook 只能将其组装得更加分散,以免 GPU 过热,为冷却系统增加负担,同时增加能耗。将近 2.2 米高的机架,只放了 4 台 Big Sur 服务器。

Facebook 希望用更多更加强大的部件提升 Big Sur 的性能。Lee 表示,Big Sur 系统是模块化的,因此能够支持更新版本的GPU、服务器和机架设计。眼下,在正式投入使用前,Facebook的数据科学家和AI研究员能够登陆 Prineville 的服务器,访问 Big Sur 来训练离线算法。Lee说,这些算法有时要训练好几周甚至是几个月。

Lee 拒绝透露配置服务器的具体数量,但表示有 “thousands” GPU 在工作。

领跑机器学习军备竞赛

Facebook不是唯一建造大型数据中心或是使用大量GPU支持机器学习的公司。微软、谷歌,以及百度都在使用GPU帮助深度学习研究。

Facebook的不同之处在于,它开源了Big Sur和其他服务器的设计,以及Big Sur数据中心的计划。Facebook将这些信息发布在Open Compute Project,这是Facebook于2011年成立的非营利性项目,旨在鼓励计算机公司一起研发成本低、效率高的数据中心硬件设施。该项目被认为能帮助亚洲硬件公司的发展,也挤占了戴尔、惠普等传统供应商的市场份额。

Facebook 的AI研究负责人Yann LeCun说,在今年早期开源 Big Sur 时,他就相信开源设计能使更多机构参与制造强大的机器学习基础设施,从而加快该领域的发展。

不过,谷歌和微软也都参与了Open Compute Project项目,如果它们愿意,可以建造自己的 Big Sur。

此外,许多公司正在努力为深度学习研发新的芯片。谷歌在5月份宣布,已经开始使用自己设计的芯片TPU来支持深度学习软件的研发,如语音识别。不过,据 Lee 表示,TPU 更适合运行已经训练过的算法,而不是用于初始训练阶段,而这一阶段是 Big Sur 服务器要做的。

而且,现在谷歌正在研发第二代芯片。谷歌 CEO Pichai 表示年底即将推出 Assistant,已经有上亿人在测试。相比之下,Facebook 的Messager 平台虽然表现不错,但在用户数量以及由此造成的数据收集方面还稍逊于谷歌。

AI 是 Facebook 未来三大支柱之一。CEO Mark Zuckerberg 在4月份举办的开发者大会上介绍了公司未来10年的发展蓝图,并表示 Facebook.com 只是公司迈出的第一步,第二步是开发多个移动应用。Zuckerberg 希望 Facebook 10年后,能在互联网连接、无人机、AR、VR和AI方面占据领导地位。

对于 Facebook来说,目前巨头机器学习竞争激烈,开源硬件有着巨大的好处:首先,开源能树立名声,从而吸引更多的顶尖人才加入Facebook;其次,使用 Big Sur 设计的其他中小公司可以提升自己的服务,这样 Facebook 就可能外包业务,得到更好的结果同时进一步节省开支;第三,如果有足够多的人选择购买硬件设备,这种规模经济或许能进一步降低 Facebook 在硬件上的支出。

最重要的是,没有什么比开源能更好更快地改善设计结构和性能方案了,开源协作有助于创新设计,这也将为 Facebook 在机器学习硬件上带来优势。

当被问及Facebook是否正在研发自己的芯片,Lee说公司“正在考虑”。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-07-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

Python可以被用来做哪些神奇好玩的事情

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 如果你在周末、有WIFI的房间里不知...

38150
来自专栏量子位

田渊栋教你读paper的正确姿势

作者:田渊栋 Facebook|人工智能研究所 量子位 已获授权编辑发布 转载请联系原作者 作为入行数年的专业科研从业者,你每周看几篇论文? 这是一个知乎上的问...

36170
来自专栏VRPinea

VR还能这么玩?盘点那些小白也能轻松上手的艺术创作应用

37360
来自专栏人工智能快报

美国中情局人工智能系统可预测社会骚乱事件

美国科技新闻网站https://slashdot.org发表文章称,美国中情局(CIA)的人工智能系统可以预测社会骚乱事件。 美国中央情报局声称,借助于被虚拟现...

39560
来自专栏钱塘大数据

惊艳全球数据行业的16个数据可视化例子

数据是非常强大的。当然,如果你能真正理解它想告诉你的内容,那它的强大之处就更能体现出来了。 通过观察数字和统计数据的转换以获得清晰的结论并不是一件容易的事。必须...

38970
来自专栏大数据文摘

图解社交网络构建、信息扩散路径

27190
来自专栏DT数据侠

数据圈最残酷真相即将浮出水面

开篇提示:即便你不喜欢DT君今天的瞎bb,也务必坚持到文末惊喜处,这不是愚人节玩笑!

9600
来自专栏人工智能头条

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

16170
来自专栏大数据文摘

吴恩达刚刚注册了一个微信公众号,发布新书与课程中文版

25050
来自专栏无原型不设计

最意想不到的5个APP UI 设计范例

现如今,智能手机已成为人们生活中不可或缺的一个物件,琳琅满目的手机APP充斥着各大应用市场。对于普通人来说,他们的衣食住行因此而变得简单方便;对设计师们来说,...

44770

扫码关注云+社区

领取腾讯云代金券