日本推出基于 Pascal GPU 的 AI 超级计算机

AI科技大本营

发布于 2018-04-26 14:43:43

7650

发布于 2018-04-26 14:43:43

在过去一年里，人们对高性能计算硬件和框架的共同兴趣促使超级计算和深度学习进入了同一领域。虽然大多数的研究都只局限于软件和应用方面，但一些超级计算机的研究中心已经在推出专门用于深度学习的新机器了。

在超级计算的尖端领域中，日本 RIKEN 计算科学高级研究所一直是走在前列的。在全球最快系统500强的排名中，该中心有一台由富士通制造的机器，叫 K Computer，排名第七；并且即将推出的 post-K super 将于2020年上线，这是一款基于 ARM 的 SPARC，一些人认为这可能是第一个真正的百亿亿运算级别的机器。

虽然 RIKEN 的团队已经在努力让他们的超级计算机在模拟化和机器学习中以更低的精度工作（我们将在本周对 Tokyo Tech/RIKEN 的 Satoshi Matsuoka 的专访文章做详细说明），但是日本研究中心正致力于通过全新的、更专用的计算机让深度学习和 AI 的速度更快，机器预计四月份在 RIKEN 的横滨工厂开始生产。

RIKEN Center 于2016年成立，在之后仅仅一年的时间里，RIKEN 的高级智能项目中心就将成为第一个有专用的 AI 超级计算机的研究中心。该机器将有24个 DGX-1 服务器节点，每个服务器节点具有八个 Pascal P100 GPU，来作为32个富士通 PRIMERGY RX2530 M2 服务器的补充。虽然这绝不是 DGX-1 盒的最大部署（Nvidia 曾凭借其124节点系统所配备的 Pascal 最新一代 P100 GPU 跻身前500名），RIKEN 如何在当前和未来的应用中混合使用当前的 HPC 和新的深度学习框架将会引起很大的关注。这个系统将能够实现四千万亿次的半精度性能——一个测量超级计算系统时不常被使用的度量，借此来衡量他们的双精度能力。除了已经优化的 DGX-1 设备的深度学习框架，富士通和 RIKEN 还会为软件堆栈的开发做出共同努力。

从某些方面来说，这台机器上的部分信息揭示了一个有趣的计算分裂——来猜猜 DGX-1 最强的是哪个部分。根据每个 DGX-1 节点129,000美元的预计定价，我们推测32个 PRIMERGY 节点的价格为10,000美元，所有准备就绪和配置完好的机器大约为400万美元。这是一个符合超级计算标准的小型系统，但是如果它最终能够以较低的精度完成一些 HPC 的工作负载，他将可以支持处理 8核 GPU 混合机器学习或者模拟的工作负载的情况。以上是我们在一些研究中心和研究圈获得的小道消息。

RIKEN 为新的AI系统设置的应用程序团队及其研究领域的内部列表。

Nvidia 用自己的124节点 DGX-1 超级计算机解决了一个难题，即多 GPU 扩展问题，这个问题困扰了早期的大量深度学习用户。基于 MPI 的开发仍在努力进行中，并被发布到开源生态系统中，这将使基于密集 GPU 的机器更容易被构建和使用。RIKEN、富士通和 Nvidia 团队已经解决了软件工作让硬件负载过高的问题，但真正的应用程序可扩展性将会带来一些有趣的见解。

前沿智能项目中心正在将 AI 工作扩展到更多领域，其中包括传统的超级计算模拟领域。项目中心当前的子组织包括专门致力于生物信息学、自然语言处理、医学工程、神经科学、数学等领域的专业组织，专注于安全、隐私以及人类与 AI 的通信方面的研究。

由于 RIKEN 将要推出基于 ARM 的系统，所以它已经在我们的关注列表之内了，但在此之前，因为 SPARC 架构的独特性，RIKEN 就深信自己会在 HPC 同行中脱颖而出，该架构已经被其许多顶级系统所采用。虽然这应该并不能保证它一直保持超级计算机500强列表顶部的核心地位，但除了新的 HPCG 基准测试外，该架构在 Graph 500 和 Green 500上都表现良好，这提供了一个超级计算机在现实世界中运行更准确的测量方法。这一点非常重要，因为研究中心的团队愿意超越传统的 X86 轨道进行模拟工作负载，这意味着他们可能处于在这些架构上将 HPC 和深度学习结合使用的前沿。

RIKEN 和日本的其他研究中心，包括 Tokyo Tech，也在我们的关注中，因为他们的研究工作集中如何让那些不具备单精度和双精度的应用程序使用单、双精度。我们期望那些以 AI 为核心的新的研究机构不但能够继续将现有应用程序推向更低的精度范围，同时还能基于开源深度学习框架来开发新的应用程序。

ericjang 评价： NVIDIA 把赌注放在了作为抽象层的 GPUs 上，并且几乎整个公司的研究都集中在这上面。软件和开发人员作为工具层也同样很重要。尽管定制化 AI 芯片的制造商（例如 Nervana）资源相对比较少，但他们也想与 NVIDIA 竞争。

本文作者 Nicole Hemsoth 是 The Next Platform 的联合创始人和共同编辑，并且还是长期致力于超级计算机的杂志 HPCwire 的前任编辑。

本文由 AI100 编译，转载需得到本公众号同意。

编译：AI100

原文链接：https://www.nextplatform.com/2017/03/06/japan-unveil-pascal-gpu-based-ai-supercomputer/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-03-16，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

深度学习

本文分享自 AI科技大本营微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

深度学习

登录后参与评论

0 条评论

热度

日本推出基于 Pascal GPU 的 AI 超级计算机

日本推出基于 Pascal GPU 的 AI 超级计算机

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐