前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >牙膏厂「小核弹」!台积电7纳米AI加速GPU,性能顶老黄2个A100

牙膏厂「小核弹」!台积电7纳米AI加速GPU,性能顶老黄2个A100

作者头像
新智元
发布2022-05-12 23:11:04
1.6K0
发布2022-05-12 23:11:04
举报
文章被收录于专栏:新智元新智元


新智元报道  

编辑:David 好困

【新智元导读】英特尔又放大招!7纳米全新GPU专攻AI计算,2倍性能碾压老黄A100,这回「牙膏厂」是杀到英伟达家门口了?

最近,牙膏厂又支棱起来了!

5月10日,英特尔正式发布了面向AI训练和理解的第二代GPU处理器——Gaudi2。

制程上使用了台积电的7纳米工艺,甚至超过了目前自家最先进的CPU系列。

根据英特尔的测试,Gaudi2的性能最高可以达到英伟达A100的2倍。

兵临「老黄」城下?

Gaudi2以16nm的第一代Gaudi架构为基础,将TPU内核的数量从8个增加到了24个,同时也增加了对FP8数据格式的支持。

再加上全新的台积电7nm工艺,Gaudi2显著改善了训练性能,并提供高达40%的性价比提升。

在新数据格式的支持下,低分辨率推理数据和高分辨率训练数据实现了格式上的统一,在从训练转移到推理时,不必在「浮点」和「整形」之间转换模型。

这对AI计算来说是一个真正的福音。

内存方面,Gaudi2的封装内存增加了两倍,配备共计96GB的HBM2e内存组,带宽为每秒2.45TB。

相比起来,前一代的Gaudi1为4组8GB的HBM2内存。

不过在功耗方面,尽管有着16纳米到7纳米的制程上的飞跃,但Gaudi2的TDP仍从上一代的350w大幅增至600w。

有媒体预测,如果没有重大的架构变化,只靠新的先进制程和硬件升级,预计Gaudi2芯片性能将是前一代Gaudi1的2.5倍。

实际上,2.5倍这个数字,比英特尔官方发布的宣传对比图上的数字(3.2倍)略显保守。原因可能在于,这个图中使用的性能量度是单位时间内处理的图片数量。

在使用 BERT 模型的自然语言处理任务上,Gaudi2与英伟达的A100和V100相比,分别实现了2倍和5.3倍的性能提升。

在实际用例测试中,英特尔在Amazon Web Services上启动了DL1 Gaudi1实例,然后分别基于A100和V100显卡启动了p4d和p3实例,对比结果如下:

英特尔宣称,总体而言,与目前英伟达的解决方案相比,使用Gaudi2可以使训练成本最多降低75%。

7nm VS 4nm

不过,上面这些对比看下来,有一个问题是绕不过去的。

所有的对比中,都没有出现英伟达今年新推出的最强GPU加速器——H100。

目前英伟达还没有透露任何关于H100的具体性能测试结果,但是一直拿自己的「上等马」比对面的「中等马」,还是有点说不过去。

虽然具体测试没有跑,但是配置参数双方都已经公布,有外媒就根据已经公布的信息,对Gaudi2和H100进行了一番理论上的PK:

H100的HBM3内存比A100加速器中使用的HBM2e内存快1.5倍,FP16、TF32和FP64在新的Tensor Cores上则提供了3倍的性能提升。

所以有理由期待,H100在ResNet-50视觉训练工作负载上的性能提升倍数在1.5倍到3倍之间,放到上面的图上,就是每秒处理4395到8790张图片的性能。

而且,H100的最终表现可能更接近这个范围的上限,会与Gaudi2的性能拉开相当大的差距。

此外,根据英伟达自己的介绍,H100的整体性能可以达到A100的6倍。

加上全新NVLink Switch System的优化,在大型计算工作负载任务场景下,性能可以再次得到提高。

不差钱的英特尔:万事不决「买买买」

说到搞CPU,英特尔一直是专家,无论是家用平台还是服务器都是如此。

即使后来或由于图安逸、或由于技术困难而被扣上了「牙膏厂」的名号,但在CPU领域,英特尔的底气一直很足。

但在其他芯片上,比如用于AI计算加速的GPU、用于可编程定制化计算的FPGA,再到芯片代工等领域,英特尔则充分发挥了另一种「财大气粗」的风格。

买!不差钱,就是买!

实际上,如果回顾一下近几年英特尔发起的收购,它花在收购芯片初创企业上的钱,可以说是相当果断而高效。

2015年6月,以167亿美元收购FPGA巨头Altera

2016年8月,以3.5亿美元收购AI芯片公司 Nervana Systems

2019年12月,以20亿美元收购AI芯片公司 Habana Labs

2022年2月,以54亿美元收购芯片制造商高塔半导体

其中,2019年的这笔收购,买下的正是今天推出的Gaudi系列GPU加速器的初创公司。

Habana Lab一直从事GPU计算加速器的研发,在被英特尔收购前,该公司就在2019年1月和6月相继发布了两款面向AI任务的加速芯片。

第一款是Goya HL-1000 推理芯片,第二款就是Gaudi1 AI 训练芯片,正是英特尔今天发布的Gaudi2的前身。

英特尔认为,AI计算是未来的方向所在,在未来五年内,面向AI训练和推理的计算市场会达到500亿美元规模。如果这个预测成真,相信英特尔收购花出去的钱,很快就会赚回来。

但也许,这些都不是重点,目前英特尔正在计划为「至强」Xeon 服务器CPU集成AI功能,并计划在今年推出独立GPU。

让自己「越买越强」,同时让主要竞争对手感到害怕,才是巨头大战中的精髓所在。

英特尔一定希望,这些对手中包括英伟达。

One More Thing 值得一提的是,就在近日,英特尔刚刚发布了一款史上最快的笔记本电脑 CPU,一款 16 核的「性能野兽」。

从今年早些时候发布的第 12 代移动处理器产品线看,此前英特尔在移动端的产品分为三个层次:

适用于高性能笔记本电脑的 H 系列、适用于高端超薄设备的 P 系列,以及适用于最便携笔记本电脑和平板电脑的 U 系列。

但还有一个尚未解决且不容忽视的细分市场:移动工作站。

本次发布的Alder Lake-HX CPU正式填补了这一空白。

这是一款适用于发烧友游戏笔记本电脑和工作站的桌面级芯片。这些处理器由分为酷睿 i5、酷睿 i7 和酷睿 i9 的七个芯片组成,采用 BGA 封装,除了高度略低外,其余尺寸与台式机CPU完全相同。

如此性能带来的是高到飞起的功耗,数据显示,HX CPU初始功耗就达到了惊人的55w,峰值性能功耗更是飙升至157w。

这个功耗下,对于笔记本平台来说,电池续航已经不那么重要了,要考虑的是,需要配备多大的电源适配器的问题。

不知道两块砖头大小够不够。

参考资料:

https://www.nextplatform.com/2022/05/10/intel-pits-new-gaudi2-ai-training-engine-against-nvidia-gpus/

https://wccftech.com/intel-7nm-habana-gaudi2-greco-deep-learning-accelerators-2x-nvidia-a100-gpu/

https://habana.ai/training/gaudi2/

https://www.intel.com/content/www/us/en/newsroom/news/vision-2022-habana-gaudi2-greco.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 兵临「老黄」城下?
  • 7nm VS 4nm
  • 不差钱的英特尔:万事不决「买买买」
  • One More Thing 值得一提的是,就在近日,英特尔刚刚发布了一款史上最快的笔记本电脑 CPU,一款 16 核的「性能野兽」。
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档