首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

深度学习搞起来!对标英伟达Tensor Core,AMD推出Matrix Core

机器之心报道

编辑:魔王、小舟

AMD 发布 Instinct MI100 加速器,它使用最新 Matrix Core 技术,是面向 HPC 和 AI 的新型加速系统。AMD 表示这是全球最快的 HPC GPU,也是首个超越 10 teraflops (FP64) 性能障碍的 x86 服务器 GPU。

当前,GPU 已经成为深度学习训练的标配,而针对深度学习中的 Tensor 操作,各大厂商在设计软硬件时都会做特别优化,其中知名的就是英伟达的 Tensor Core。

今日,对标英伟达 Tensor core,一直发展迅猛的 AMD 也推出了类似功能单元 Matrix Core。同时,基于 Matrix Core 技术,AMD 发布了新型 AMD Instinct MI100 加速器,据称是全球最快的 HPC GPU 和首个超越 10 teraflops (FP64) 性能障碍的 x86 服务器 GPU。

据 AMD 官方介绍,AMD Instinct MI100 GPU 配备了全新 AMD CDNA 架构,使用第二代 AMD EPYC 处理器,是面向 HPC 和 AI 的新型加速系统。

在性能上,MI100 为 HPC 提供了高达 11.5 TFLOPS 的 FP64 峰值性能,为 AI 和机器学习提供了高达 46.1 TFLOPS 的 FP32 Matrix 峰值性能。

与 AMD 的上一代加速器相比,MI100 凭借新的 AMD Matrix Core 技术,为 AI 训练提供了近 7 倍的 FP16 理论峰值浮点性能提升。

AMD Instinct MI100 为 HPC 和 AI 提供优秀的性能(图源:https://www.amd.com/zh-hans/products/server-accelerators/instinct-mi100)

MI100 的具体规格参见下表:

AMD 数据中心 GPU 和加速处理公司副总裁 Brad McCredie 表示:「AMD Instinct MI100 的推出,标志着 AMD 朝着百亿亿级计算迈出了重要的一步。这款新型加速器专为科学计算中重要的工作负载打造,结合 AMD ROCm 开放软件平台后,能够为科学家和研究人员在 HPC 中的工作提供坚实的基础。」

此外,AMD 还推出了 ROCm 4.0。ROCm 开发者软件平台旨在为百亿亿级计算提供基础,包括编译器、编程 API 和库。此次推出的 ROCm 4.0 针对基于 MI100 的系统进行了优化,将编译器升级为开源版本,并支持 OpenMP 5.0 和 HIP。经过 ROCm 4.0 优化,PyTorch 和 Tensorflow 框架可以基于 MI100 实现更高的性能。

AMD Instinct MI100 加速器的特性

以下是 AMD Instinct MI100 加速器的关键能力和特性:

AMD Instinct MI100 的关键特性一览表(图源:https://www.amd.com/system/files/documents/instinct-mi100-brochure.pdf)

全新的 AMD CDNA 架构:该架构专为 AMD GPU 适应百亿亿级计算时代而打造,是 MI100 加速器的核心,能够提供卓越的性能和能效。

适应 HPC 工作负载的 FP64 和 FP32 顶尖性能:峰值 FP64 和峰值 FP32 的性能分别达到 11.5 TFLOPS 和 23.1 TFLOPS,行业领先。

全新的 Matrix Core 技术:适合多种单精度和混合精度矩阵运算(如 FP32、FP16、bFloat16、Int8 和 Int4)的超强性能,从而提升 HPC 和 AI 的收敛性能。

第二代 AMD Infinity Fabric 技术:Instinct MI100 提供大约二倍的 PCIe 4.0 接口 P2P 峰值 I/O 带宽,每块 GPU 配置三条 AMD Infinity Fabric 总线,总带宽高达 340 GB/s。在服务器上,MI100 GPU 可以配置两个全连接 quad GPU hive,每个提供高达 552 GB/s 的 P2P I/O 带宽,从而实现快速数据共享。

超快 HBM2 内存:32GB 高带宽 HBM2 内存,时钟速率为 1.2 GHz,可以提供超高的 1.23 TB/s 内存带宽,以支持大型数据集,并消除数据进出内存的瓶颈。

支持业内最新的 PCIe Gen 4.0:支持最新的 PCIe Gen 4.0 技术,提供高达 64GB/s 的 CPU 到 GPU 理论数据传输带宽。

Amazon SageMaker1000元大礼包

ML训练成本降90%,被全球上万家公司使用,Amazon SageMaker是全托管机器学习平台,支持绝大多数机器学习框架与算法,并且用 IDE 写代码、可视化、Debug一气呵成。

现在,我们准备了1000元的免费额度,开发者可以亲自上手体验,让开发高质量模型变得更加轻松。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201117A05YMC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券