前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世

AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世

作者头像
机器之心
发布2020-08-20 11:58:09
7120
发布2020-08-20 11:58:09
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:蛋酱、小舟、杜伟

历时 5 年,制程由 14nm 减至 7nm,更加重视 AI 推理性能,IBM 最新 POWER10 处理器将在商用领域打出一片天地。

在今年的 Hot Chips 2020 会议上,IBM 正式宣布了新一代 CPU POWER10。作为 Power 9 的继任者,POWER10 的处理效率是前者的三倍,同时又提供了更高的工作负载量和容器密度

基于 Power 9 处理器并使用 Nvidia Tesla GPU 作为加速器的 Summit,就是世界上最快的超级计算机之一。目前看来,继任者 POWER10 更加值得期待。

POWER10 的设计历时五年,拥有数百项新型以及正在申请的专利。早在 2015 年,IBM、三星和 IBM 研究联盟的其他成员生产了第一批测试芯片。它的独特之处在于,这是 IBM 的首款商用 7 nm 处理器

POWER10 架构师 William Starke 表示,单芯片模块产品最多不超过 15 个 SMT8 核心,双芯片模块产品最多不超过 30 个 SMT8 核心。

IBM POWER 系列芯片的发展路线图。

制程由 14nm 缩减至 7nm,更加重视 AI 推理性能

吞吐量和功率效率的提升部分得益于硅制程技术,该技术使得 POWER9 中使用的 14nm GlobalFoundries 制程缩减为三星的 7nm EUV。制程微缩使得 IBM 可以添加更多的核心和更多的缓存。

设计方法也有重大更改。新的设计更加模块化,具有新的核心核心微架构和新的 AI 指令。POWER10 还添加了更多的安全硬件。内存受到全内存加密保护,同时也没有降低速度。

此外,POWER10 还为多租户(multi-tenant)云工作负载内置了「嘈杂的邻居(noisy neighbor)」保护功能。为了确保云工作负载的安全性,处理器支持安全的 container。该架构通过其 PowerVM 虚拟机来管理程序和内存池聚合功能,以提升灵活性,通过 PB 级系统内存支持来处理各种工作负载。

考虑到 AI 越来越重要,IBM 增加了对其他指令和数据类型的支持。处理器通过新的可扩展指令集支持 Power 的 3.1 版本。POWER10 也意味着 IBM 更加重视 CPU 中的 AI 推理性能。

IBM 表示,推理处理中使用的矩阵数学函数可将性能提升 10-20 倍。缓存带宽上也有改进,以使 SIMD 单元获得数据。

越来越多的企业将 AI 部署到实际应用 AI 的运营工作负载中。所以,IBM 仍将支持训练加速器,例如 GPU 和 FPGA,但 AI 部署基于的推理使用的是训练创建的模型。

实际上,AI 的推理用途是能够产生商业实效的。IBM 将在 PCIe5.0 版本上通过 OpenCAPI 支持加速器。IBM 也放弃了英伟达的 NVLink 接口,因为 PCIe v5 提供了足够的带宽。

POWER10 的推理性能展示。

其他技术细节

IBM 在 Hot Chips 会议上展示了 POWER10 的大量技术细节。芯片面积为 600 平方毫米,具有 180 亿个晶体管。最多两个管芯可以被放入 POWER10 服务器的包中。

每个芯片具有 15 个活跃的 CPU 核,其中管芯上还有一个用于提升成品率的备用核。此外,每个 CPU 可以支持 8 个线程(虚拟 CPU),所以每个插槽中共计有 120 个线程。

管芯上缓存内存总量为 150MB 以上。在接口设置上,下一代 PCI Express Gen 5 具有 64 条通路,传输速度高达 32GT/s。

IBM POWER10 芯片的技术规格细节。

POWER10 将会有两个版本。一个版本采用双管芯封装,时钟频率达到 3.5GHz,并且能够连接 4 个插槽。另一版本为单芯片插槽,有更高的时钟频率,为 4GHz 或更高,最多可连接 16 个插槽。每个插槽的 PowerAXON 接口都支持超过 TB/s 级的带宽,而开放式内存接口(OMI)可以支持相同的带宽。

POWER10 最重要的创新就是它能在整个 POWER 服务器机架上聚合内存。本地内存通过低延迟、高带宽的 OMI 进行连接,从而提供高达 4TB 的内存以及高带宽,而且没有一般高带宽内存的限制和费用。OMI 还可被用于连接存储类内存(SCM)。

PowerAXON 接口可用于连接其他 16 个 POWER10 插槽,但也可以通过 OpenCAPI 连接到加速器。但它最有趣的用途是内存集群。本地处理器可以将其本地内存映射到相邻的处理器,因此需要更多内存的工作负载可以用相邻处理器的内存,而无需将页面交换到速度较慢的存储内存中。这种灵活性对于管理大型数据集来说至关重要。2PB 的地址空间使之变为了可能,而且这种内存共享功能也可以扩展到企业级系统。

从 CPU 设计到软件堆栈,POWER10 都展示出了 IBM 一直以来的企业级计算传统。更重要的是,它现在支持更多的 AI 功能、硬件辅助虚拟环境、更具扩展性的云部署以及更大的数据集处理,使其与现代企业和云工作负载更加相关。

与此前的 Power 系列处理器一样,POWER10 也向 OpenPower 基金会的 250 多个成员开放许可和允许修改,包括谷歌、英伟达、Mellanox、 Tyan 等企业。

参考链接:

https://www.forbes.com/sites/tiriasresearch/2020/08/17/ibm-POWER10-mega-chip-for-hybrid-cloud-is-revealed/?ss=ai#308a85a46d13

https://venturebeat.com/2020/08/16/ibm-unveils-POWER10-processor-for-big-data-analytics-and-ai-workloads/

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档