摩尔线程首度公开S5000参数:1000TFLOPS FP8算力、80GB显存、训练精度与H100差距不到1%。舆论欢呼“国产GPU紧咬国际旗舰”,但若仅将此解读为“差距缩小”,则完全误读了这份成绩单的战略分量。
真正的杀手锏,不是S5000在AI训练上追平H100,而是它在科学计算上完胜H100——这是一个极其罕见的“精度倒挂”格局。
H100的“偏科”与S5000的“全科”路线分野
H100为AI而生,为Transformer深度优化,但在FP64双精度科学计算场景——分子动力学、气象模拟、石油勘探——它甚至不如自家上一代V100。这是英伟达的主动取舍:用面积换取更高AI吞吐。
而S5000选择了另一条路:FP8到FP64全精度覆盖,且每一档都不妥协。SPONGE分子模拟引擎中,S5000性能达H100的1.7倍;DSDP分子对接工具中,跑出8.1倍碾压。这不是“局部优化”,这是硬件架构层面的代际差异——当英伟达为AI抛弃科学计算时,摩尔线程用一套硬件同时承接了两种需求。
这意味着,S5000不是“国产版H100”,而是一张比H100更“完整”的GPU。对于国家级超算中心、科研院所、能源勘探机构而言,H100并非最优解,S5000才是那个“既能训大模型、又能跑真实物理模拟”的全科选手。
0.62%误差背后的“训练权”交接
智源研究院RoboBrain 2.5训练中,S5000千卡集群与H100集群的Loss误差仅0.62%。这一数字的产业含义极为沉重:国产GPU不仅解决了“能不能训”的问题,更解决了“训出来对不对”的问题。
过去国产芯片常被诟病“跑分亮眼、实战露怯”——单卡指标不差,但一进集群训练,Loss漂移、收敛异常、需人工反复调参。S5000将误差压进千分之六,意味着开发者可以像信任CUDA一样信任MUSA,将训练任务无感迁移。这是从“可用”到“好用”的分水岭。
万卡集群落地,国产算力完成“规模论证”
10EFLOPS算力、60% MFU、90%线性扩展效率、千卡加速比超90%。这些数字指向一个事实:S5000已不是实验室样板,而是承载着真实万亿参数大模型训练任务的量产工具。
2025年底,行业还在争论“国产芯片能否支撑万卡集群”;2026年2月,答案已写进夸娥集群的运行日志里。当有效训练时间占比突破90%,当DeepSeek-V3 671B在单卡Prefill吞吐超4000 tokens/s——国产GPU已从“追赶参数”阶段,正式迈入“交付服务”阶段。
最残酷的竞争,从来不是在对手擅长的赛道里缩短一厘米差距,而是在它转身离去的荒野上,建起一座灯火通明的城市。