首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

替换A800?事实上做不到

2023年10月17日,美国政府公布了《临时最终规则》,对于高性能计算芯片对华出口限制规则进行了升级,英伟达的H100、H800、A100、A800这些卡都将受限。

在国内人工智能、自动驾驶公司急需平替的时候,华为昇腾可以替换英伟达 A800的声音甚嚣尘上。

事实如此吗?

首先说明一点,虽然昇腾和英伟达H/A系列都属于AI芯片,但因技术路线不同,可比性并不大。

打个比方,手机处理器和服务器处理器,虽然功能都是提供通用计算,但是计算场景不同,芯片架构也不同,性能评判标准也不同。

我们都知道,美国针对中国的出口限制规则主要是面向高端的GPGPU卡,GPGPU的算力精度涵盖较广,应用的领域也更广泛,整个产业的生态相对完整,但是芯片设计相对比较复杂。GPGPU芯片一般会布局大量的双精度和单精度的计算区域,除了AI大模型、自动驾驶、深度学习等领域的推理和训练之外,GPGPU可以覆盖科学计算、工程计算等领域,比如药物设计、新材料、航空航天、基因工程,天气预报等多种新模型、新范式和融合算力的需求场景。

而华为的昇腾 910属于NPU,它的优势是大部分时间集中在低精度的算法,新的数据流架构或内存计算能力。NPU芯片的算力一般以半精度算力(FP16)和整型算力(INT8、INT4)为主,擅长处理视频、图像类的海量多媒体数据,不涉及高精度算力应用的领域。

所以从技术路线这个维度来看,无论是算力的精度覆盖范围、业务场景和应用对象,

因架构和应用场景的不同,从纸面参数来看,无论是算力类型、精度范围还是算力值的大小,昇腾910都无法与英伟达A800类比。

不过昇腾910在Peak FP16 Perf.(半精度)这个值高达280,而英伟达只有77.97。这里想引入一个概念,稀疏算力和矢量算力。

简言之,910是算力是稀疏过的,而A800的是矢量算力,稀疏完的值虽然高,但是业务场景表现的并不是那么全面,很多场景还是需要用矢量算力去衡量。拿稀疏算力去衡量一个综合算力中心或者地方智算的算力值,其实就是以偏概全。话说回来,A800的稀疏算力是312,还是比昇腾910要高。

最后再提一个点,就是卡间互联能力。

计算大模型其实是很多台GPU服务器协同提供算力,每台服务器也都有安装了多张GPU卡,像英伟达的NVLink可以实现8颗芯片互联,就是8路互联。

根据华为官方说法,“同一HCCS内处理器可做数据交换,不同HCCS内处理器不能通信。即同一Pod分配的昇腾 910 AI处理器(若小于或等于4)必须在同一个HCCS环内,否则任务运行失败。”也就是说,昇腾910只能做到4路互联。这意味着,如果上千卡集群训练,昇腾910速度要打不少折扣。昇腾910产品手册中也提到了亲和性策略说明、资源申请约束等,需要优化调试才能用,生态普适性也待提升。

客观来说,昇腾与英伟达产品还存在一定差距,在某些计算场景可以做替代,但是很难做到英伟达H/A系列提供普适AI算力的程度。国产AI芯片还需认清差距,努力追赶!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ob9S1913UuCN1FHbP_7seV1g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券