2023年10月17日,美国政府公布了《临时最终规则》,对于高性能计算芯片对华出口限制规则进行了升级,英伟达的H100、H800、A100、A800这些卡都将受限。
在国内人工智能、自动驾驶公司急需平替的时候,华为昇腾可以替换英伟达 A800的声音甚嚣尘上。
事实如此吗?
首先说明一点,虽然昇腾和英伟达H/A系列都属于AI芯片,但因技术路线不同,可比性并不大。
打个比方,手机处理器和服务器处理器,虽然功能都是提供通用计算,但是计算场景不同,芯片架构也不同,性能评判标准也不同。
我们都知道,美国针对中国的出口限制规则主要是面向高端的GPGPU卡,GPGPU的算力精度涵盖较广,应用的领域也更广泛,整个产业的生态相对完整,但是芯片设计相对比较复杂。GPGPU芯片一般会布局大量的双精度和单精度的计算区域,除了AI大模型、自动驾驶、深度学习等领域的推理和训练之外,GPGPU可以覆盖科学计算、工程计算等领域,比如药物设计、新材料、航空航天、基因工程,天气预报等多种新模型、新范式和融合算力的需求场景。
而华为的昇腾 910属于NPU,它的优势是大部分时间集中在低精度的算法,新的数据流架构或内存计算能力。NPU芯片的算力一般以半精度算力(FP16)和整型算力(INT8、INT4)为主,擅长处理视频、图像类的海量多媒体数据,不涉及高精度算力应用的领域。
所以从技术路线这个维度来看,无论是算力的精度覆盖范围、业务场景和应用对象,
因架构和应用场景的不同,从纸面参数来看,无论是算力类型、精度范围还是算力值的大小,昇腾910都无法与英伟达A800类比。
不过昇腾910在Peak FP16 Perf.(半精度)这个值高达280,而英伟达只有77.97。这里想引入一个概念,稀疏算力和矢量算力。
简言之,910是算力是稀疏过的,而A800的是矢量算力,稀疏完的值虽然高,但是业务场景表现的并不是那么全面,很多场景还是需要用矢量算力去衡量。拿稀疏算力去衡量一个综合算力中心或者地方智算的算力值,其实就是以偏概全。话说回来,A800的稀疏算力是312,还是比昇腾910要高。
最后再提一个点,就是卡间互联能力。
计算大模型其实是很多台GPU服务器协同提供算力,每台服务器也都有安装了多张GPU卡,像英伟达的NVLink可以实现8颗芯片互联,就是8路互联。
根据华为官方说法,“同一HCCS内处理器可做数据交换,不同HCCS内处理器不能通信。即同一Pod分配的昇腾 910 AI处理器(若小于或等于4)必须在同一个HCCS环内,否则任务运行失败。”也就是说,昇腾910只能做到4路互联。这意味着,如果上千卡集群训练,昇腾910速度要打不少折扣。昇腾910产品手册中也提到了亲和性策略说明、资源申请约束等,需要优化调试才能用,生态普适性也待提升。
客观来说,昇腾与英伟达产品还存在一定差距,在某些计算场景可以做替代,但是很难做到英伟达H/A系列提供普适AI算力的程度。国产AI芯片还需认清差距,努力追赶!
领取专属 10元无门槛券
私享最新 技术干货