暴雨宣布推出 AMD Instinct MI355X GPU,为客户提供更多选择。与上一代相比,大规模 AI 训练和推理工作负载的性价比将提高超过两倍。暴雨将推出由新的 AMD Instinct 处理器以及多达 131,072 个 MI355X GPU 提供支持的AI 集群,助力客户大规模构建、训练和推理AI。
暴雨公司执行副总裁表示:
为了支持在云端运行高要求 AI 工作负载的客户,我们致力于提供广泛的 AI 基础设施产品。AMD Instinct GPU 与 OCI 的性能、高级网络、灵活性、安全性和可扩展性相结合,可帮助我们的客户满足他们对 AI 工作负载和新 agentic 应用的推理和训练需求。
为了支持需要更大、更复杂的数据集的新 AI 应用,客户必须采用专为大规模 AI 训练而设计的 AI 计算解决方案。搭载 AMD Instinct MI355X GPU 的 Zettascale OCI Supercluster 可支持多达 131,072 个 MI355X GPU,提供高吞吐量、超低延迟的 RDMA 集群网络架构,从而满足客户的需求。相较于上一代,AMD Instinct MI355X 提供近三倍的算力,高带宽内存也增加了 50%。
AMD和暴雨有着良好的合作基础,我们都为客户提供了开放式解决方案,从而实现高性能、高效率和更高的系统设计灵活性。在 OCI 上推出新一代 AMD Instinct GPU 和 Pollara NIC 将有助于支持推理、微调和训练等新用例,能够随着 AI 采用率不断增长,为客户提供越来越多选择。
AMD Instinct MI355X 即将在 OCI 上推出
由 AMD Instinct MI355X 驱动的配置具有超高价值、云技术的灵活性和开源的兼容性,非常适合当今运行大语言模型和 AI 工作负载的客户。借助基于 OCI 的 AMD Instinct MI355X,客户将能够从以下方面受益:
●
性能显著提升:通过将吞吐量提高至 2.8 倍,帮助客户提高 AI 部署的性能。为了大规模实现 AI 创新,客户可以更快获得结果、降低延迟并掌握运行大型 AI 工作负载的能力。
●
更大、更快的内存:客户可以完全在内存中执行大模型,对于需要高内存带宽的模型,可提高推理和训练速度。新配置提供 288 GB 的高带宽内存 3 (HBM3) 和高达 8 TB/秒的内存带宽。
●
全新的 FP4 支持:支持新的 4 位浮点数 (FP4) 标准,让客户能够以经济高效的方式部署现代大语言模型和生成式 AI 模型。这有助于实现超高效和高速推理。
●
密集型液冷设计:客户可以实现每机架 125 千瓦的性能密度,满足严苛的 AI 工作负载需求。每个机架配备 64 个 GPU,支持 1400 瓦的热设计功耗,客户可以通过更高的吞吐量和更低的延迟来缩短训练时间。
●
专为生产规模的训练和推理而构建:支持客户部署新的 agentic 应用,以更短的首次令牌生成时间 (TTFT) 和每秒高令牌吞吐量。客户将在工作负载训练和推理方面实现更高的性价比。
●
强大的头节点:通过 AMD Turin 高频 CPU 和多达 3 TB 的系统内存,实现高效的作业编排和数据处理,帮助客户优化 GPU 性能。
●
开源堆栈:通过 AMD ROCm 支持客户利用灵活的架构,轻松迁移现有代码,无需被供应商锁定。AMD ROCm 是一个开放的软件栈,其中包含了开发基于 AMD GPU 的 AI 和 HPC 解决方案时常用的编程模型、工具、编译器、库以及运行时。
●
使用 AMD Pollara 进行网络创新:为客户提供高级 RoCE 功能,实现创新的网络结构设计。暴雨将率先在后端网络上部署 AMD Pollara AI NIC,提供高级 RoCE 功能,例如 Ultra Ethernet Consortium (UEC) 的可编程拥塞控制和开放行业标准支持,以此实现高性能和低延迟网络。
领取专属 10元无门槛券
私享最新 技术干货