首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Meta宣布推出新一代AI硬件平台Grand Teton,将英伟达 Hopper 架构引入数据中心

最近,Meta宣布推出下一代用于人工智能训练的硬件平台Grand Teton,与前代相比有多项优化,包括两倍的网络带宽及四倍的主机到 CPU 带宽升级。

Meta 公司工程副总裁Alex Bjorlin于近期的开放计算项目(OCP)全球峰会的主题演讲中宣布了这一消息。Grand Teton 的开放硬件设计是 Meta 对数据中心人工智能工作负载的最新迭代贡献,与前一代由三个“盒子”组成的 Zion-EX 不同,Grand Teton 的集成机箱让它可以更快、更容易地部署。Meta 还为 Grand Teton 设计了一个新的数据中心机架和冷却系统,用于支撑大型人工智能模型训练所需要的服务集群电力需求。Bjorlin 称:

Meta 是全心全意支持人工智能的,但人工智能的未来不可能完全由我们创造,而是通过合作,通过如 OCP 一样的组织分享想法和技术来创造。我们渴望继续合作,建立新的工具和技术以推进人工智能的未来。希望人们能加入我们的各种努力,无论是现在开发新的人工智能方法,还是从根本上重新思考未来的软硬件设计,我们对这个行业的未来发展非常乐观。

Meta 训练并部署了许多大型人工智能模型,其中不乏包含数万亿参数,需要等量规模数据集训练的模型,这也意味着他们会需要大量与 GPU 互联的服务器。Meta 自 2016 年起便开源了他们的人工智能硬件设计,且推出了Big Sur平台。去年,InfoQ 同步报道了 Meta 的最新迭代Zion-EX平台,该迭代是由数千计算节点组成集群,其中每个节点都含有四个 CPU 插座和八个 GPU。

图源:https://engineering.fb.com/2022/10/18/open-source/ocp-summit-2022-grand-teton/

然而,Zion 平台的每个节点都需要外部布线才能整合三个不同的组件:CPU“头部”、GPU 系统,以及一个交换系统。全新的 Grand Teton 则将这些组件全部整合到一个机箱之中,且该机箱也包括了电源、计算和网络接口,“以实现更好的整体性能、信号完整性和散热性能”。英伟达称,Grand Teton 还拥有英伟达基于Hopper架构H100 Tensor核心GPU。Meta 还更新了他们的底层存储平台:新版本的Grand Canyon在前代 Bryce Canyon 架构的基础上进行了改进,让 Meta 公司“达到驱动器的极限水平”。

在 Grand Teton 的设计之外,Meta 公司还发布了一款数据中心机架设计:开放式机架v3(ORV3)。与其他将电源架直连母线的机甲不同,ORV3 的电源架可以安装在任何位置,设计更加灵活。改进后的备用电源与前代仅支持 90 秒的供电相比,可提供长达四分钟的供电。ORV3 还支持多个电源架和 48 VDC 的输出,可部署处理高达 30 kW 的机架。Meta 还为这代更高的功率容量设计了新的冷却策略:ORV3 支持空气辅助液冷,设施水冷,以及“可选盲配液体冷却接口设计”。

Meta 公司设计的可互动 3D 模型可在这个官网找到。

原文链接:

Meta Announces Next Generation AI Hardware Platform Grand Teton

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/E3GhWKgg0YHy1OzmXg3U
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券