前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >性价比超H100,英特尔发布中国版Gaudi2 AI加速卡

性价比超H100,英特尔发布中国版Gaudi2 AI加速卡

作者头像
机器之心
发布2023-08-07 15:34:26
3150
发布2023-08-07 15:34:26
举报
文章被收录于专栏:机器之心机器之心

机器之心发布

编辑:泽南

英特尔会是国内生成式 AI 算力的更优解吗?

在大语言模型(LLM)领域,越强大的模型就越需要算力。最近有消息称,当前业界标杆 GPT-4 在训练中使用了约 2.5 万块 A100,训练时长超过 90 天

如此高门槛的生成式 AI 赛道上,各家科技公司的竞争却异常激烈,国内市场甚至出现了 AI 加速卡供不应求的状态。对于 AI 训练的算力,人们一直以来都在依赖 GPU,最近,英特尔面向国内提出了一个新的解决方案。

7 月 11 日在北京举行的发布会上,英特尔正式于中国市场推出第二代 Gaudi 深度学习加速器 ——Habana Gaudi2

昨天的活动中,英特尔介绍了 Gaudi2 芯片的性能,并讨论了面向中国市场的英特尔 AI 战略、最新 AI 相关产品技术进展和解决方案的应用。

「Gaudi 深度学习加速器的大语言模型训练能力进一步丰富了我们的人工智能产品阵列,」英特尔公司执行副总裁、数据中心与人工智能事业部总经理 Sandra Rivera 表示。「对于在中国运行深度学习训练和推理工作负载的客户来说,与市场上其他面向大规模生成式 AI 和大语言模型的产品相比,Gaudi2 是更理想的选择。除了在性能表现上超过 A100 之外,Gaudi2 在各种最先进的模型上相对于 A100 提供了约两倍的性价比。」

上周,英特尔 Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerf Training 3.0 基准测试的最新榜单上展示了令人印象深刻的结果。该基准由 MLCommons 发布,是业内广泛认可的 AI 性能行业标准。

Gaudi2 加速器在计算机视觉模型 ResNet-50(8 卡)、Unet3D(8 卡),以及自然语言处理模型 BERT(8/64 卡)上均取得了优异的训练结果,在每个模型上性能都优于 A100,部分任务上接近 H100

此外,在大语言模型 GPT-3 的评测上,Gaudi2 也展现了实力。它是仅有的两个提交了 GPT-3 LLM 训练性能结果的解决方案之一(另一个是英伟达 H100)。在 GPT-3 的训练上,英特尔使用 384 块 Gaudi 2 加速器使用 311 分钟训练完成,在 GPT-3 模型上从 256 个加速器到 384 个加速器实现了近线性 95% 的扩展。

「相比之下,英伟达在 512 块 H100 GPU 上的训练时间则为 64 分钟。这意味着,基于 GPT-3 模型,每个 H100 的性能领先于 Gaudi2 3.6 倍,」Habana Labs 首席运营官 Eitan Medina 表示。「性价比是影响 H100 和 Gaudi2 相对价值的重要考量因素。Gaudi2 服务器的成本要比 H100 低得多。即使还没有配备 FP8,Gaudi2 在性价比上也胜过了 H100。」

英特尔表示,Gaudi2 在 MLPerf 上提交的结果没有经过模型或框架的特殊调校,这意味着用户也可以在本地或云端部署 Gaudi2 时获得类似的性能结果。

Gaudi2 在服务器和系统成本方面还具有显著的成本优势,这使得它可以成为英伟达 H100 的有力竞争对手。

去年,英特尔旗下的 Habana Labs 推出了第二代 AI 训练加推理芯片 Gaudi2。与头一代产品相比,Habana Gaudi 2 使用的制程工艺从 16 纳米跃升至 7 纳米,在矩阵乘法(MME)和 Tensor 处理器核心计算引擎中引入了 FP8 在内的新数据类型,Tensor 处理器核心数量增至 24 个,同时集成了多媒体处理引擎,内存升级至 96GB HBM2E。

在当前生成式 AI 看重的扩展性能方面,国内版本的 Gaudi2 每张芯片集成了 21 个专用于内部互联的 100Gbps(RoCEv2 RDMA)以太网接口(相比海外版本略有减少),从而实现了低延迟的服务器内扩展。

为支持客户轻松构建模型,或将当前基于 GPU 的应用迁移到 Gaudi2 服务器上,英特尔提供的 SynapseAI 软件套件针对 Gaudi 平台深度学习业务进行了优化。SynapseAI 集成了对 TensorFlow 和 PyTorch 框架的支持,并提供众多流行的计算机视觉和自然语言参考模型,能够满足深度学习开发者的多样化需求。

而在 Hugging Face 平台上,已有超过 5 万个模型使用 Optimum Habana 软件库进行了优化。Sandra Rivera 表示,英特尔通过与 Hugging Face 的合作,平台上的现有的模型只需要花费几十秒时间就可以调通运行在 Gaudi 加速器上。

目前,已有 OEM 厂商推出了基于英特尔 AI 加速卡的产品。在发布活动中,英特尔宣布 Gaudi2 首先将通过浪潮信息向国内客户提供,其服务器集成了 8 块 Gaudi2 加速卡 HL-225B,还包含两颗第四代英特尔至强可扩展处理器。

在昨天的活动中,英特尔也透露了其在 AI 加速领域的未来发展方向。下一代 Gaudi 3 芯片预计在明年推出,将采用台积电 5 纳米制程,也会同期推出国内版。而在 2025 年左右,英特尔计划将 Gaudi 与其现有 GPU 产品线进行整合。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档