首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >黄仁勋CES 2026主旨演讲【完整中文实录】

黄仁勋CES 2026主旨演讲【完整中文实录】

作者头像
Hello工控
发布2026-01-12 13:37:48
发布2026-01-12 13:37:48
3300
举报
文章被收录于专栏:Hello工控Hello工控

每年的CES都是科技圈必须关注的大事件!我们也重点看了观看NVIDIA 创始人兼CEO黄仁勋在CES 2026上的直播演讲回放!【中文版本的演讲稿整理好在文末查看哦!约2万字】

核心就一点:

我们通过开场的介绍视频片段:

其中印象深刻的是:

未来的5到10年,自动驾驶基本上是汽车的标准配置。任何一辆行驶的汽车都由人工智能驱动,同时也具备镜像的功能,把任何处理的数据信息过程做好记录,且配备安全防护系统。

AI的发展已经促使芯片架构重构!为了更大的数据量及AI Tokens的请求量,重新研发芯片架构,几乎推翻了原先的架构。

AI深入了各行各业,特别是工业应用上,与西门子等工业巨头合作,极大地改进和提升在工业场景中的效率。

实际上,AI之所以没那么快落地,还是要完整的理解和分析整个物理的世界,所以,很重要的一点就是要训练大量的真实世界的响应数据。

所以,下一代的AI是什么?

有了物理AI,就能极大的程度上去进行模拟仿真,不但能减少模型训练成本,同时,也加快模型落地的效率。

实际上,对于工业上的应用,Physical AI是可以重塑我们制造业的整个工作。未来的工厂,有AI提前验证和纠正,能极大地把时间节省出来!缩短整个项目的完成周期,真正造福所有实体制造的相关人员。

网上整理的图片,非常不错:

完整版本的视频可以到这里观看:

https://www.nvidia.cn/events/ces/

整个演讲视频的文字稿贴在下方:


各位请就座。活动即将开始。(无法识别,疑似语音干扰或乱码)这比我名字还带劲。我体内有团火,你等着被点燃吧。(无法识别,疑似口语片段)嘿!嘿!对!娜塔莉,燥起来!火力全开!准备,上!有请英伟达创始人兼CEO黄仁勋登台!拉斯维加斯的朋友们,大家好!新年快乐!欢迎来到国际消费电子展(CES)。今天我们准备的内容可不少,足足有15公斤的材料要向大家展示。见到各位真是太高兴了。现场观众席坐了3000人。

中庭还有2000人正在观看直播。据说四楼本该空着的区域,现在也挤满了上千名观众。英伟达展区所有人都在收看这场主题演讲,当然还有全球数百万观众将通过直播共同开启新的一年。要知道,计算机行业每10到15年就会迎来一次革新。从大型机到个人电脑,个人电脑到互联网,互联网到云计算,云计算到移动设备——平台迁移不断发生。每当应用程序世界锁定新平台时,这就是所谓的平台迁移。你要为一台新型计算机开发新的应用程序。

但这次不同,实际上同时发生了两个并行的平台变革。在我们转向AI的同时,应用程序也将构建在AI之上。起初人们以为AI本身就是应用程序。实际上,AI确实可以充当应用程序。但你需要在AI之上构建更复杂的应用。不仅如此,软件开发方式和运行模式也发生了根本性改变。计算机产业的整个技术栈都在被重新定义。你不再编写软件,而是训练软件。运行平台也从CPU转向了GPU。

过去应用程序都是预先录制、编译后在设备上运行的,而如今的应用能理解上下文语境。并能从零开始生成每个像素、每个标记——计算方式已发生根本性变革。这得益于加速计算和人工智能的发展。这个五层架构的每一层都在被重构...这意味着约十万亿美元规模...过去十年的计算体系正在以全新方式实现现代化转型。这意味着每年数千亿美元...每年两三千亿美元的风投资金正涌入这个新领域的创新与升级。

这意味着百万亿美元级产业——其中几个百分点的研发预算正转向人工智能。总有人问资金从何而来?答案就在这里。人工智能的现代化进程,就是研发预算从传统方法转向AI技术的转型过程。大量资金涌入这个行业,难怪我们忙得不可开交。过去这一年也不例外。过去这一年简直不可思议。过去这一年...稍等有个幻灯片马上来。这就是平时不练习的后果。这是今年第一场主题演讲。希望也是你们今年的第一场。

如果不是的话,那你们之前肯定忙得够呛。这可是我们今年的开场首秀。我们要把这些陈年旧事清理干净。2025年真是不可思议的一年。感觉所有事情都在同一时间爆发式发生。事实上也确实如此。首要问题当然是规模损耗。2015年,首个我认为会改变局面的语言模型确实带来了巨大变革。它叫BERT。2017年又出现了Transformer架构。

直到五年后的2022年,ChatGPT的横空出世才真正让世界意识到人工智能的潜力。在那之后一年又发生了件大事。ChatGPT推出的首个01模型——也是首个具备推理能力的模型——具有彻底革命性意义。我们提出了"测试时缩放"这个概念,它其实是个非常符合常识的做法。我们不仅通过预训练让模型学习,还通过强化学习进行后训练,使其掌握更多技能。现在又有了测试时缩放,说白了就是让模型具备实时思考能力。

实现真正的实时思考。人工智能每个发展阶段都需要海量算力支撑,而计算定律仍在持续扩展。大语言模型性能不断提升。与此同时,2024年又出现了一项重大突破。到2025年,代理系统开始崭露头角。这类系统迅速普及,几乎渗透到各个领域。这些代理模型具备推理、检索、研究、工具使用、未来规划和结果模拟等能力。突然间开始解决极其重要的问题。我最喜欢的智能体模型之一叫Cursor,它彻底改变了英伟达的软件开发方式。

智能体系统将从此真正腾飞。当然,还存在其他类型的人工智能。我们知道大语言模型并非信息的唯一形式。宇宙中存在信息的地方,存在结构的地方,我们都能训练大语言模型。让某种形式的语言模型去理解这些信息,解析其表征,并转化为人工智能。其中最重要的一项就是物理人工智能。能理解自然法则的人工智能。当然,物理人工智能关乎AI与世界的交互,但更关乎世界本身。信息被编码后形成的数据体系,这就是所谓的AI物理。

在物理AI领域,存在着能与现实世界交互的AI系统,同时也存在AI物理这一概念。这类AI能够理解物理定律。最后要提的是去年最重要的进展之一——开源模型的突破。现在我们可以预见,当开源创新兴起时,AI将无处不在。当全球每个行业、每家企业都开始创新时。与此同时,开源模型去年真正迎来了爆发式发展。事实上,去年我们见证了DeepSeek R1的突破——首个具备推理能力的开源模型。

它让全球为之震惊,并彻底点燃了这场技术革命。这实在是令人振奋的成果。我们对此非常满意。如今全球涌现了各式各样的开放模型系统,我们确信开放模型也已跻身技术前沿。虽然仍落后顶尖模型约半年,但每六个月就有新模型问世,且这些模型正变得越来越智能。正因如此,下载量呈现爆发式增长,增速快得惊人。因为初创企业、大公司、研究人员、学生乃至几乎所有国家都想参与这场AI革命。数字形态的智能,怎么可能让任何人掉队呢?

去年,开放模型确实给人工智能领域带来了革命性变革。整个行业都将因此重塑格局。其实我们早先就有所预感。你可能听说过,几年前我们就开始建造并运营自己的AI超级计算机。我们称之为DGX云。很多人问:你们是要进军云计算业务吗?答案是否定的。我们打造这些DGX超级计算机是供自用。事实上,我们投入运行的超级计算机价值数十亿美元,专门用于开发开源模型。我对我们正在推进的工作感到无比自豪。

这些成果正开始吸引全球及各行业的广泛关注。因为我们在众多领域开展前沿AI模型研究。比如我们在数字生物学领域的蛋白质研究。La protina技术能实现蛋白质的合成与生成。Open fold 3则用于解析蛋白质结构。EVO 2如何理解多种蛋白质,这标志着细胞表征研究的开端。Earth 2人工智能,能理解物理定律的AI。

我们与Forecast Net和Cordiff合作的项目,彻底改变了人们进行气象预测的方式。Neotron目前正在进行开创性的研究工作。首个混合Transformer SSM模型,速度惊人,因此能进行长时间深度思考。也能快速思考并生成极其智能的答案——虽然思考时长有限。Neimotron 3是突破性成果,未来我们将陆续推出其升级版本。Cosmos是前沿开放世界基础模型,能理解世界运行规律。

Groot人形机器人系统,具备关节活动与移动能力。这些模型与技术正被整合应用,且每个项目都对全球开放。我们向全球开放前沿的人类与机器人模型。今天我们要重点聊聊Alpamo,我们在自动驾驶汽车领域的研究成果。我们不仅开源模型,连训练这些模型的数据也一并公开。因为只有这样,才能真正让人信服这些模型的生成过程。我们开源所有模型。还协助用户进行衍生开发。

我们有一整套工具库——Nemo库,包括物理Nemo库和Clarono库。每个Biono库都是AI生命周期管理系统,能处理数据、生成数据。涵盖模型训练、创建、评估、安全防护直至部署的全流程。这些库虽然极其复杂,但全部开源,并构建在这个平台之上。英伟达是前沿AI模型的构建者,我们的构建方式非常独特——完全以开源开放的方式进行。这样我们就能让每家企业、每个行业、每个国家都能参与这场AI革命。

我为团队正在推进的工作感到无比自豪。事实上,如果你留意图表数据,会发现我们对行业的贡献是无可比拟的。未来各位会看到我们不仅持续发力,甚至可能进一步提速。这些模型同样具备世界级水准。所有系统都宕机了。圣克拉拉可从没出过这种状况。难道是因为拉斯维加斯那边?肯定是有人在城外中了头奖吧。所有系统都瘫痪了。好吧,我的系统好像还没恢复,不过没关系。我...我都是临场发挥的。

这些模型不仅代表着前沿能力、完全开源,还在各大排行榜上名列前茅。这是我们深感自豪的领域。它们在智力测评中稳居榜首。我们拥有能理解多模态文档(也就是PDF)的重要模型。世界上最有价值的内容都存储在PDF里,但需要人工智能。来解析内容、理解含义并辅助阅读。我们的PDF检索器和解析器都是世界顶尖水平。我们的语音识别模型绝对是世界一流水平。

我们的检索模型——包括基础搜索、语义搜索、AI搜索——堪称现代人工智能的数据库引擎,全球顶尖。因此,我们长期占据各类排行榜首位。这是我们引以为豪的领域。所有这些技术都是为了赋能你们构建AI智能体。这确实是具有突破性的研发方向。记得当初ChatGPT刚问世时,人们都说:"哇,它给出的结果很有趣,但经常胡编乱造"。它之所以会"幻觉",是因为能记住过去的所有信息,却无法预知未来的所有当下信息。

因此它必须建立在研究基础上。在回答问题之前,必须进行基础性研究。这种推理能力在于判断:我需要做研究吗?需要使用工具吗?如何将问题拆解成多个步骤?每个步骤都是AI模型已知如何处理的。通过组合这些步骤,它能完成从未做过、也未经训练的任务。这就是惊人的推理能力。即便遇到全新情况,我们也能将其分解成——基于过往经验的已知规则或知识来处理。如今AI模型所具备的推理能力简直强大得不可思议。

智能体的推理能力为各种应用场景打开了大门。我们不再需要让AI模型在第一天就掌握所有知识。就像人类也不必初出茅庐就无所不知,关键是在任何情况下都能推理出解决方案。大语言模型已经实现了这个根本性突破。它们能结合强化学习、思维链、搜索规划等多种技术手段。强化学习让我们获得了这项基础能力,而且相关技术现已完全开源。但真正令人振奋的是另一个突破——我最初是在Arvin的Perplexity上见证的。

Perplexity这家AI搜索公司,确实是家极具创新力的企业。当我发现他们能同时调用多个模型时,不禁拍案叫绝。我们当然会这么做。当然,人工智能也会在推理链的任何环节调动全球顶尖的AI系统来解决问题。这正是AI具备多模态能力的原因——它们能理解语音、图像、文本、视频、3D图形乃至蛋白质结构。它既是多模态的,也是多模型的——能够灵活调用最适合任务的算法模型。从本质上说,它还是多云架构的。

因为这些AI模型分布在不同平台,它同时也是混合云架构——尤其对企业用户而言。无论是机器人还是其他设备,可能部署在边缘节点、无线电基站,也可能在企业内部或医院——需要实时数据处理的场所。无论应用场景如何,我们已经看清未来AI应用的形态。或者可以这样理解:未来的应用都将构建在AI体系之上。这就是未来智能体的基础框架——这种具备自主行动能力的AI基本架构。

我刚才提到的多模态AI能力,如今已经为整个行业按下加速键。各类AI初创企业因此蓬勃发展。得益于开源模型和我们提供的工具,现在你还能:定制专属AI,教会它别人未曾涉及的技能——让AI以独到方式获得智能,这是别人做不到的。而你完全可以实现。这正是我们通过Neimotron、Nemo等开源模型项目想要达成的目标。只需前置一个智能路由系统,这个路由就像管理者,能根据你的指令意图分配任务。

哪种模型最适合该应用场景,能有效解决这个问题。好,现在考虑这个架构时,你实际拥有了什么?这个架构的妙处在于,你突然获得了一个既能完全自主定制的人工智能。你可以训练它掌握公司特有的专业技能,那些涉及行业机密的、需要深厚领域知识的技能。或许你已经拥有训练这个AI模型所需的所有数据。另一方面,这个AI本质上始终处于技术前沿。你一方面始终站在技术最前沿,一方面又能完全定制化,另一方面它还应该能直接运行。

因此我们决定做个最简单的示例,方便大家理解使用。我们把这整套框架称为"蓝图",目前已经开发了多个蓝图方案。这些方案已集成到全球各大企业的SAS平台中,取得的进展让我们非常欣慰。不过今天要演示的,是一个人人都能上手的简易范例。我们来打造一个个人助手吧。我希望它能帮我管理日程、邮件、待办事项,甚至能兼顾智能家居监控。通过Brev平台,我将DGX Spark改造成了个人云服务。

这样无论是使用云GPU还是DGX Spark,操作界面都能保持一致。借助Frontier模型的API接口,我能快速入门。我希望它能协助处理邮件事务。于是,我为我的智能体开发了一个邮件调用工具。我希望自己的邮件内容保持私密性。所以我会在Spark本地运行的开源模型上增加这个功能。现在针对不同任务,我希望智能体能调用最适合的模型。因此我会采用基于意图的模型路由系统。

这样涉及邮件的指令会在我的Spark上处理,其他任务则调用Frontier模型。我希望助手能与现实世界互动,所以准备接入Hugging Face的Reachi迷你机器人。通过工具调用,我的智能体可以控制Reichi的头部、耳朵和摄像头。我想给Richi添加语音功能,特别喜欢11 Labs的技术,准备接入他们的API。嗨,我是运行在DGX Spark上的Richi。

嘿Richi,我今天有哪些待办事项?你今天的任务清单。采购食品杂货——鸡蛋、牛奶、黄油,再把新剧本发给Jensen。好,我们给Jensen发个更新版吧。告诉他下班前就能搞定。没问题。Richi,还有个草图。能把它做成建筑效果图吗?不错。现在拍个视频带我看看房间全景。给,这样很棒。通过Brev,我可以共享Spark和Reachi的权限,我准备分享给Anna。嘿Richi,Potato在干嘛呢?

它在沙发上呢。我记得你不喜欢这样。我这就叫它下来。Potato,快下来!开源技术发展到今天,能实现的东西简直令人惊叹。真想看看你能开发出什么新花样。这难道不神奇吗?但现在最妙的是,这些都已经变得轻而易举了。现在这些根本不值一提。可就在几年前,这些还都是天方夜谭。完全无法想象。这个基础框架,这种利用语言模型构建应用程序的基本方法——使用的是预训练且专有的语言模型。

这些是最前沿的模型。我们将它们与定制化语言模型结合,形成一套推理框架。该框架支持调用工具、访问文件,甚至能与其他智能体连接。这本质上就是现代人工智能应用——或者说现代应用程序的架构。而我们构建这类应用的速度快得惊人。注意看:即便输入它从未见过的信息,或是结构不符合预期的数据——它依然能通过推理尽力处理,做出最佳尝试。通过数据信息进行推理,尝试理解如何用人工智能解决问题。

好。那么这套基础框架现在正逐步整合我刚才描述的所有功能——我们有幸与全球顶尖的企业平台公司合作。比如Palunteer,他们整个AI数据处理平台现在正通过英伟达技术加速整合。Service Now是全球领先的客户服务和员工服务平台。Snowflake是云端数据平台的全球标杆。这些团队正在做的突破性工作令人惊叹。Code Rabbit已被英伟达全面采用。

Crowdstrike正在开发AI系统来检测AI领域的威胁。NetApp的数据平台现已集成英伟达语义AI技术。还搭载了智能代理系统来处理客户服务。但最关键的是这一点。这不仅是你现在开发应用的方式,更将成为你平台的用户界面。无论是Palanteer、Service Now、Snowflake还是我们合作的其他公司,智能体系统就是交互界面。不再是那种需要往方格里填数据的Excel表格。

也可能不再只是命令行操作。所有多模态信息交互都成为可能,你与平台的互动方式也更加......这么说吧,就像和人交流一样简单——这就是智能体系统对企业AI的革命。接下来是物理AI,这个领域...其实我多年来一直在探讨,我们已深耕八年。关键在于:如何将计算机里的智能...从通过屏幕和扬声器与人交互,升级为能与物理世界互动?意味着它能理解现实世界的常识规律。比如物体恒存性——我转头再看时,东西还在原处。

因果关系。我推它,它就会倒下。它能理解摩擦力和重力。它理解惯性。知道重型卡车在路上行驶时需要更多时间刹车,知道球会继续滚动。这些概念连小孩都懂,但对AI来说却完全陌生。因此我们需要建立一个系统,让AI能学习物理世界的常识和规律,同时也能从数据中学习。而数据相当稀缺,还要能评估AI是否正常运行——这意味着它必须在模拟环境中运作。

如果AI无法模拟物理世界对其行为的反馈,它怎么知道自己的行动是否符合预期?它必须有能力模拟物理世界对其行为的反应。模拟行为反馈至关重要,否则就无从评估。每次情况都不一样。因此这个基础系统需要三台计算机。第一台当然是我们熟知的英伟达制造的、用于训练AI模型的计算机。第二台是用于推理的计算机。执行模型推理。模型推理本质上是一台机器人计算机,可以运行在汽车、机器人、工厂或任何边缘设备上。

但还需要第三台专为仿真设计的计算机,仿真技术几乎是英伟达所有业务的核心。这是我们最擅长的领域,仿真技术堪称我们所有物理AI应用的基石。所以我们有三台计算机,以及在这些计算机上运行的多层架构——正是这些功能库让它们发挥作用。Omniverse就是我们的数字孪生平台,一个基于物理规律的仿真世界。正如我之前提到的,Cosmos是我们的基础模型——它不是语言基础模型,而是世界的底层模型。

同时也与语言系统相兼容。比如你可以问"球现在是什么状态",它会告诉你"球正在街上滚动"。所以这是世界基础模型,当然还有机器人模型。我们有两套机器人模型。其中一个叫Groot。另一个叫Alpamo,稍后我会详细介绍。当前物理AI最关键的挑战,在于首先要创建用于训练AI的数据。这些数据从何而来?不同于语言系统——我们通过创建大量文本作为AI学习的基准事实(ground truth)。

我们该如何教会AI理解物理学的本质规律?虽然有海量的视频数据——真的是海量视频——但远不足以涵盖我们所需的多样性和交互类型。于是顶尖学者们齐聚一堂,将原本用于计算的资源转化为数据资产。现在通过基于物理定律构建的合成数据生成技术——这些以客观事实为基准的数据,让我们能智能地筛选生成用于AI训练的数据集。例如画面左侧这个Cosmos AI世界模型的输入数据,其实来自交通模拟器的输出。

但单靠这种模拟器远不足以支撑AI学习。我们可以将其输入Cosmos基础模型,生成环绕视角视频——这些符合物理规律的真实场景,就能成为AI的学习素材。类似的应用案例简直数不胜数。让我来展示Cosmos的能力。物理AI的"ChatGPT时刻"即将到来,但挑战显而易见。物理世界复杂多变且难以预测。采集现实世界的训练数据既缓慢又昂贵,而且永远不够用。解决方案就是合成数据。

这一切始于NVIDIA Cosmos——一个开放的物理世界基础模型。它通过海量网络视频、真实驾驶与机器人数据,以及3D仿真进行物理AI预训练。Cosmos学会了世界的统一表征,能协调语言、图像、3D模型和动作。仅凭单张图像,它就能执行生成、推理和轨迹预测等物理AI技能。Cosmos能从3D场景描述生成逼真视频,根据驾驶遥测和传感器日志生成物理连贯的运动。

环绕视频可来自规划模拟器、多摄像头环境或场景指令生成。开发者能在Cosmos中运行交互式闭环仿真。当执行操作时,虚拟世界会实时响应。Cosmos具备推理能力——它能分析极端场景,将其分解为可理解的物理交互,并推演后续可能。Cosmos将算力转化为数据,既训练自动驾驶应对长尾问题,又教会机器人适应所有场景。我知道这听起来难以置信。Cosmos是全球领先的基础模型。世界级基础模型。

其下载量已达数百万次,全球广泛应用,正在为物理AI新时代奠定基础。我们自身也在使用这个系统。我们自己也用它来研发自动驾驶汽车,既用于场景生成,也用于效果评估。通过计算机模拟,我们就能实现相当于数十亿甚至数万亿英里的有效测试里程。目前我们已经取得了重大突破。今天,我们正式发布全球首个具备思考推理能力的自动驾驶AI系统——Alpio。Alpo采用端到端训练模式。从摄像头输入到执行输出全程贯通。

这些摄像头记录了海量里程数据,既有自动驾驶里程,也有人工驾驶示范数据。此外还有Cosmos系统生成的海量模拟里程。不仅如此,我们还精心标注了数十万例样本数据,用于训练车辆的驾驶能力。Alpha Mayo具备一项真正与众不同的能力。它不仅接收传感器信号,控制方向盘、刹车和油门,还会对即将执行的动作进行逻辑推理。它会提前告知你下一步动作。解释采取该动作的决策依据,当然还包括行驶轨迹规划。

所有这些系统都经过精密耦合训练,数据来源既包含人类标注也包含Cosmos生成的庞大数据集。最终呈现的效果简直令人惊叹。你的爱车不仅能如预期般驾驶,操作起来还无比自然流畅。因为它直接学习人类驾驶员的操作,且适用于所有驾驶场景。面对任何场景时,它都会进行推理判断:告知你将采取的动作,并预判你的潜在行为。这个技术之所以关键,在于现实驾驶中存在长尾效应。我们不可能穷尽收集所有潜在突发情况的驾驶数据。

无论在任何国家、任何可能发生的情况下,对所有人而言都是如此。但若将每个场景拆解开来,这种情况其实极不可能发生。分解成大量更小的场景后,你会发现它们其实都很容易理解。这些长尾问题会被拆解成系统能处理的常规场景。系统只需进行逻辑推理即可。现在让我们来看看。接下来你将看到的所有画面都是一镜到底。全程无需手动操作,自动导航直达目的地。系好安全带。哈利路亚!您已抵达。八年前我们就开始研发自动驾驶汽车了。

这是因为我们很早就意识到。深度学习和人工智能将彻底重塑整个计算架构。如果我们想真正理解如何把握方向。并引导行业走向这个新未来,就必须精通全栈建设。正如我之前所说,AI就像五层蛋糕。最底层是土地资源和基础设施。在机器人领域,最底层就是车辆本身。往上一层是芯片,包括GPU、网络芯片、CPU等各类芯片。再往上是基础设施层。就像我提到的,这里的基础设施特指实体设施。人工智能是包罗万象的宇宙与时空。

而在这之上则是各种模型架构。就像刚才演示的模型层级,这个模型名为"Alpha Mayo"。如今"Alpha Mayo"已经开源。我们完成了这项里程碑式的工作。动用了数千名研发人员。仅自动驾驶团队就有数千人规模。举个例子,我们的合作伙伴Ola——我注意到Ola的代表就在现场。梅赛德斯五年前就决定与我们合作,让这一切成为现实。我们相信未来会有十亿辆自动驾驶汽车驰骋在路上。

你可以选择租赁别人的自动驾驶出租车,也可以拥有自己的自动驾驶车辆。或者你也可以选择亲自驾驶——但每辆车都将具备自动驾驶功能。每辆车都将由AI驱动。这个架构中的模型层是Alpha Mayo,而应用层则是梅赛德斯-奔驰的系统。这是我们英伟达首次构建的完整技术栈,整个团队为此投入了长期研发。首批搭载我们技术的自动驾驶汽车将在第一季度上路测试,第二季度进军欧洲市场。

美国第一季度首发,欧洲第二季度跟进,亚洲市场预计第三、四季度启动——最厉害的是,我们将持续通过Alpha Mayo的迭代升级来优化系统性能。毫无疑问,这将成为规模最大的机器人产业之一。我们很荣幸参与其中,这些经验极大提升了我们助力全球机器人系统建设的能力。这种深刻认知源于我们自主搭建系统的能力,从底层基础设施到机器人系统所需的芯片设计,全都亲力亲为。

具体到这个案例——双Orin芯片架构,以及下一代双Thor芯片组。这些处理器专为机器人系统打造,具备最高等级的安全性能。这款车刚获得安全评级。它刚刚投入量产。梅赛德斯-奔驰CLA被NCAAP评为全球最安全车型,这是唯一一个——据我所知——实现全链路认证的系统,从每行代码、芯片到整体架构。整个传感系统采用多样化冗余设计,自动驾驶技术栈同样如此。Alpha Mayo技术栈经过端到端训练,具备超凡性能。

但除非你永远驾驶它,否则没人能保证绝对安全。因此我们的防护措施是部署另一套完整的自动驾驶软件栈作为底层保障。这套完整的自动驾驶系统具备完全可追溯性,我们花了约五六年时间——确切说是六七年才建成这第二套系统。两套系统互为镜像,同时我们还配有策略与安全评估器,用于判断当前路况是否具备足够信心实现安全驾驶。若评估通过,就交由Alpamo系统执行;若信心不足,安全策略评估器会判定。

切换至更简单可靠的基础防护系统,即回退到传统自动驾驶栈。我们是全球唯一同时运行双自动驾驶系统车企,所有安全系统都应具备多样性与冗余设计。我们的愿景是,终有一天每辆轿车、每辆卡车都将实现自动驾驶。我们一直在为实现这个未来而努力。整个技术栈采用垂直整合模式。当然,就梅赛德斯-奔驰而言,我们共同构建了完整的技术栈。我们将部署车辆。我们将运营技术栈。只要公司存在,我们就会持续维护这个技术栈。

不过,就像我们公司的所有业务一样,虽然构建完整技术栈,但它始终对生态系统开放。与我们合作开发L4级自动驾驶和机器人出租车的生态伙伴正在不断增加。我完全相信——其实这已经是我们的一项庞大业务了——它还会持续壮大。这对我们来说是笔大生意,因为他们要用它来训练数据、处理数据,还要训练他们的模型。有些情况下他们还用来生成合成数据。某些车企或公司基本上只负责制造车载电脑和芯片。也有些公司和我们进行全栈合作。

还有些公司只参与部分环节的合作。明白吗?所以用多用少都没关系。我唯一的要求就是尽可能多用点视频技术,不过整个系统都是开放式的。这将成为首个面向主流市场的大规模实体AI产品。现在这个AI市场——我想大家都会同意——正处在从非自动驾驶转向自动驾驶的转折点。这个转型很可能在未来十年内完成,我敢说普及率会非常高。全球大部分汽车将实现自动驾驶或高度自动化,但刚才我描述的基础技术——

通过三台计算机配合合成数据生成与仿真——这套技术适用于所有机器人系统。无论是关节式机械臂、移动机器人,还是完全的人形机器人。因此机器人系统的下一个发展阶段,你们懂的,就是机器人普及时代。这些机器人会以各种尺寸出现...对了,我还邀请了几位朋友过来——他们来了吗?伙计们快点儿!我还有很多内容要讲呢。赶紧的!你们通知R2-D2会到场了吗?还有C3PO呢?通知了吗?好吧,行吧。

过来。在此之前,有个特别有意思的事情是...你们有"杰森一家"那样的设备,里面装着微型杰森电脑。它们都是在Omniverse里训练出来的。想不想看这个?给大家展示下你们学习机器人行为的模拟器吧。你们想看看吗?好,我们来看看。请运行一下。看,是不是很神奇?就是这样学会当机器人的。整个过程都在Omniverse里完成。这个机器人模拟器叫Isaac。Isaac Sim和Isaac Lab。

想造机器人的朋友们注意啦——但谁都没法造出像你们这么可爱的机器人。不过现在大家看看,我们有这么多志同道合的机器人开发者伙伴。我们正在造大家伙。不过说真的,没人比你们更萌。但我们有Neurobot,还有Aubot。那边就是Aubot,看到没?这边还有LG的机器人。卡特彼勒刚发布了新款机器人。他们造的可是史上最大号的机器人。那个是给你家送外卖的机器人。它和Uber Eats是联动的。

这个是Surf Robot冲浪机器人。我超爱这些公司——Agility、Boston Dynamics,简直太厉害了。有手术机器人、Franka的机械臂机器人、Universal Robotics的机器人,种类多到难以置信。所以这就是下一个篇章了。未来我们会深入探讨机器人技术,但说到底重点不只是机器人本身。我知道你们最关心的是——是如何实现这个未来。而航空业将是全球最重要的产业之一。

即将被物理AI和AI物理学颠覆的产业,正是我们NVIDIA所有人创业的起点。如果没有接下来要谈到的这些公司,这一切都不可能实现。我很高兴从Cadence开始,所有企业都将加速这一进程。Cadence已将CUDA X集成到他们所有的仿真器和求解器中。他们拥有英伟达物理AI技术,将应用于各类物理工厂和厂房模拟。AI物理学也正被整合到这些系统中。

无论是电子设计自动化、静态时序分析,还是未来的机器人系统,我们都将采用相同的核心技术。正是这项技术成就了你们,现在它将彻底革新整个设计体系。新思科技——没有新思,您知道的,在芯片设计领域,新思和Cadence都是绝对不可或缺的存在。新思主导逻辑设计和IP模块,而Cadence则领军物理设计、布局布线、仿真验证领域。Cadence在仿真和验证领域的表现堪称卓越。

这两家公司正在进军系统设计和系统仿真的领域。未来,我们将在Cadence和Synopsys平台内完成芯片设计。我们将通过这些工具设计完整系统,进行全系统仿真与模拟。这就是未来——你们将直接诞生于这些设计平台之中。很震撼对吧?我们非常高兴能与这些行业领军者合作,就像将NVIDIA融入Palunteer那样。

在Service Now之后,我们正将NVIDIA引入计算密集的仿真行业——Synopsys和Cadence。今天我们还宣布,西门子也将采取相同举措。我们将把CUDA X物理AI、智能体AI及Neo Neotron深度集成到西门子的生态中。原因其实很简单。首先,我们设计了芯片架构,未来所有环节都将由英伟达提供算力加速。相信大家会对此感到非常满意。

我们将与智能体芯片设计师、系统设计师合作,共同推进芯片设计。就像现在智能体软件工程师辅助人类工程师编写代码那样。因此我们也会配备智能体芯片设计师和系统设计师。我们将在这个体系中创造你们。但之后还需要把你们制造出来。必须建造生产工厂,那些能将你们量产的设施。还需要设计组装你们所有人的生产线。这些制造工厂本质上将成为巨型机器人。难以置信对吧?我懂。我明白。所以设计全程将在计算机里完成。

制造过程也完全由计算机掌控。甚至在接触重力环境之前,早就能在计算机里完成测试和评估。说真的,你知道怎么应对重力吗?能跳吗?你倒是跳一个看看?好吧,行了行了。别显摆了,适可而止。所以...现在这个成就英伟达的产业啊,我真是特别高兴技术发展到...我们打造的解决方案在精密度和功能层面已达到全新高度,足以助力他们实现行业革命。最初与他们合作时播下的种子,如今已让我们有机会反哺其行业变革。

让我们看看即将与西门子展开的合作项目。看呐!实体AI技术的突破正让AI从屏幕走向现实世界。恰逢其时——全球正在兴建各类芯片工厂、计算设备厂、救命药厂,和AI设施,而随着劳动力短缺加剧,我们比任何时候都更需要实体AI与机器人驱动的自动化。这正是AI与全球最大实体产业的交汇点,也是英伟达与西门子合作的根基。近两个世纪以来,西门子始终是全球工业建设的基石。如今,它正为AI时代重塑工业版图。

西门子正将英伟达CUDA X库、AI模型及Omniverse平台整合至其电子设计自动化产品矩阵中,CAE和数字孪生工具相结合,我们正将实体人工智能引入完整的工业生命周期。从设计仿真到生产运营,我们正站在新工业革命的起点——这个由英伟达和西门子共同打造的实体AI时代,将引领下一代产业变革。很震撼对吧,各位?你们觉得呢?好的,我会紧紧抓住机会。只管牢牢把握住。

要知道,如果观察全球模型现状,OpenAI无疑是当前领先的令牌生成器。OpenAI生成的令牌数量远超其他任何平台。第二大阵营,大概要数开源模型了。我推测随着时间推移,由于众多企业和研究者的参与...开源模型涉及的领域和形态如此之多,它们终将成为规模最大的存在。我们来聊聊一位特别的人物吧。你们想听吗?今天就说说薇拉·鲁宾。薇拉·鲁宾,对,快讲讲她。她是美国天文学家。第一个观测到——

她发现星系外围物质的运动速度竟与中心区域相当。听起来确实有违常理。按牛顿物理学,就像太阳系中行星离太阳越远公转越慢才对。外圈行星绕太阳公转的速度比内圈行星更慢。除非存在看不见的天体——也就是她发现的暗物质——否则这种现象根本无法解释。这些占据空间的暗物质虽然不可见,正因如此,我们将下一代计算机命名为"薇拉·鲁宾"。这个命名很棒吧?我知道,确实很棒。薇拉·鲁宾系统正是为解决这个根本性挑战而设计的。

AI所需的计算量正在呈指数级增长。NVIDIA GPU的需求量也在疯狂上涨。因为AI模型的规模每年都以十倍的数量级增长。更不用说——就像我在01发布会提到的——那正是AI发展的转折点。现在的推理过程不再是单次输出答案,而是一个思维过程。为了教会AI如何思考,后训练阶段引入了强化学习和大量算力支持。这已经不再是监督微调——也就是模仿学习或监督训练——的时代了。现在采用的是强化学习。

本质上,计算机会通过不断试错迭代,自主学会如何完成任务。因此,预训练、后训练和测试阶段的算力需求都呈现爆炸式增长。现在每次推理时,我们都能直观看到AI的思考过程——而不再是一次性输出——这让我们非常欣赏。通常思考时间越长,给出的答案就越优质。因此测试阶段的规模扩张,导致每年生成的标记数量以5倍速增长。与此同时,AI领域的竞赛也愈演愈烈。每个人都在努力突破自我极限。每个人都在试图跨越新的边界。

而每当他们抵达新边界时,上一代AI模型的成本就会开始下降,每年降幅高达十倍。这种每年十倍的降幅其实揭示了一个更深层的事实。它表明这场竞赛异常激烈。所有人都在冲击新高度,而总有人能率先突破。因此归根结底,这本质上是个算力问题。计算速度越快,你就能越早抵达下一个前沿领域。所有这些变化都在同步发生。所以我们决定,必须每年都推动计算技术突破现有水平。一年都没有落下。一年半前我们就开始交付GB200了。

目前GB300已进入全面量产阶段。如果Vera Rubin想赶上今年投产,现在就必须启动生产。所以今天我很高兴宣布,Vera Rubin已正式投入量产。各位想看看Vera Rubin吗?好,跟我来。请播放视频。Vera Rubin来得正是时候,它将开启AI的新纪元。这就是我们打造它的故事。这个架构包含六枚芯片,通过极限代码设计实现协同运作。

这一切始于Vera——一款定制设计的CPU,其性能是上一代的两倍。而Reuben GPU与Vera从一开始就协同设计,能双向连贯地共享数据,速度更快、延迟更低。随后,17,000个组件被集成到一块Vera Rubin计算主板上。高速机器人以微米级精度放置元件,最终由Vera CPU和两块Reuben GPU完成组装。其AI算力高达100百亿亿次,是前代的五倍。

AI需要高速数据支持,Connect X9为每块GPU提供每秒1.66太比特的扩展带宽。Bluefield 4 DPU负责卸载存储与安全任务,让算力完全专注于AI运算。Vera Rubin计算托盘经过彻底重新设计,无电缆、无软管、无风扇。配备一块Bluefield 4 DPU、八块Connect X9网卡、两块Vera CPU和四块Reuben GPU。

这就是Vera Rubin人工智能超级计算机的核心计算模块。接下来是第六代MVLink交换机。数据吞吐量超越全球互联网总流量,连接18个计算节点,可扩展至72块Reuben GPU,实现一体化运作。然后是Spectrum X以太网光子交换机——全球首款512通道以太网交换机。搭载200Gbit共封装光学器件,可将数千机柜扩展为AI工厂。

历经15,000人年的研发,首台Vera Rubin MVL 72机柜正式上线。六款突破性芯片,18个计算单元,九组MVLink交换托盘,220万亿个晶体管,总重近两吨。这标志着Reuben技术向新前沿迈出了巨大飞跃。各位觉得如何?这是一个Reuben计算单元。16个机柜容纳1152块GPU。如你所知,每个机架装有72个Vera Rubin芯片,或者说72个Reubin单元。

每个Reubin单元实际上由两个GPU晶片连接组成。我待会儿会展示给大家看,不过这里有几个细节...嗯,我稍后再解释。我不能一次性把所有信息都透露出来。我们其实设计了六种不同的芯片。首先,公司内部有条很好的原则:新一代产品最多只能改动一两个芯片。但问题在于——正如所见,我们刚才描述的是每个芯片的晶体管总数。而众所周知,摩尔定律已经明显放缓了。

因此,我们每年能获得的晶体管数量增长,根本跟不上模型规模扩大十倍的速度。也跟不上每年生成token量增长五倍的速度。更难以应对token成本如此迅猛的下降趋势。如果行业要继续进步,这种增长速率是绝对无法持续的。除非我们采用激进的极限芯片设计——同时革新整个技术栈的所有芯片。正因如此,我们这代产品不得不彻底重新设计每一块芯片。刚才描述的每一块芯片,单独拿出来都值得开一场发布会。

放在过去,每块芯片都够一家公司专门研发的。它们每一块都是颠覆性的,都是同类最佳。Vera CPU让我特别自豪——在功耗受限的环境下它堪称典范。在功耗受限的条件下,Gray CPU的性能提升了两倍。它的每瓦性能是市面上最先进CPU的两倍。数据传输速率简直疯狂。它专为超级计算机设计,而Vera曾是一款惊艳的GPU。Grace也曾是款非凡的GPU。如今Vera大幅提升单线程性能、内存容量和整体表现。

这是块巨型芯片——Vera CPU。这是一颗CPU,与Reuben GPU相连。看看这大家伙,真是块巨型芯片。接下来我要重点介绍的,才是真正特别之处。这得三只手才忙得过来。我看得要四只手才行。好,这就是Vera中央处理器。它拥有88个CPU核心。这些核心设计为多线程架构。但Vera的多线程特性经过特殊设计,确保176个线程都能充分发挥性能。相当于有176个逻辑核心,但物理核心只有88个。

这些核心采用了名为"空间多线程"的技术打造。不过它的输入输出性能简直惊人。这是Reuben图形处理器。Blackwell架构的浮点性能提升了5倍。但关键要看最底层的指标。底层数据显示晶体管数量仅为Blackwell的1.6倍。这某种程度上反映了当今半导体物理的发展水平。如果我们不进行编码设计——不在整个系统中对每颗芯片进行极致编码设计——怎么可能实现每年至多1.1到1.6倍的性能提升?

毕竟晶体管总量就这么多。即便单个晶体管性能略有提升——比如25%——也不可能让整体性能100%释放。因此1.6倍就像个天花板,除非采取极端手段,否则年性能提升很难突破。我们称之为极限代码设计。这是我们做过最了不起的创新之一。它叫做MVF FP4张量核心。芯片内部的转换器引擎并非简单将4位浮点数塞入数据路径。而是一个完整的处理器单元,能动态自适应地调整精度和架构。

从而应对转换器的不同层级,实现更高吞吐量。既能在允许时降低精度,又能在需要时恢复至最高精度。这种动态调控能力。无法通过软件实现——毕竟运算速度实在太快。所以必须在处理器内部完成自适应处理。这就是MVF FP4的实质。当人们提到FP4或FP8时,这些术语对我们而言几乎毫无意义。原因在于,真正起作用的是一切算法中的张量核心架构。关于MVFP4,我们早已发表了相关论文。

它能保持的吞吐量与精度水平简直令人难以置信。这是突破性的成果。未来整个行业很可能会要求我们将这种格式和架构确立为行业标准。这完全是一场革命。正是因此,我们才能在晶体管数量仅增加1.6倍的情况下实现性能的巨大飞跃。好的。好,现在你有了一个强大的处理节点——就是这个处理器节点,里面装着...举个例子,我这样操作给你看。这东西...哇,超级沉啊!干这活儿可得身体倍儿棒才行。行吧,没问题。

我估摸着这家伙得有...怎么说也得几百磅重吧。我也觉得刚才特逗。得了吧,哪有那么夸张。人都走光了?才不会呢。好了好了,快看这个。这可是最后一个了。我们彻底革新了整个MGX机箱的设计。这个节点,从43根线缆到零线缆,六根导管精简到只剩这两根。组装这玩意儿要花两小时。运气好的话,也得两小时。而且大概率你会装错。还得重新测试、调试、再组装。作为我们首款解构式超级计算机,这种复杂的组装流程确实情有可原。

现在从两小时缩短到五分钟,80%液冷系统。现在是100%液冷。没错。这绝对是重大突破。好的。这就是全新的计算机箱架构,它将所有设备连接到机架顶部交换机——负责东西向流量的组件叫做Spectrox Nick。这是全球最顶尖的网卡。毫无疑问,这是英伟达收购的Mellanox技术——这家公司多年前就已加入我们。他们的高性能计算网络技术当之无愧是世界第一。

无论是算法、芯片设计、互联技术,还是上层的所有软件堆栈——特别是他们的RDMA技术,绝对是毫无争议的全球最佳。现在它还支持可编程RDMA和数据路径加速,让像AI实验室这样的合作伙伴能够——自主创建算法来控制系统内的数据流转。这款ConnectX9网卡与Vera CPU是协同设计的顶级产品,我们此前从未对外公布。直到CX9问世我们才真正发布它,因为这是专门为新型...您知道的...

Connect X9和CX8,还有Spectrum X彻底革新了人工智能领域的以太网技术。AI所需的以太网流量极其密集,对延迟要求也苛刻得多。这种流量瞬时激增的情况,是以太网从未遇到过的。所以我们创造了Spectrum X——专为AI打造的以太网。两年前我们发布了Spectrum X。如今NVIDIA已成为史上规模最大的网络技术公司。它的成功有目共睹,已被部署在无数应用场景中。

它正在席卷整个AI领域。性能表现令人惊叹——无论是200兆瓦还是千兆瓦级的数据中心。这可是数十亿美元的规模。假设一个千兆瓦数据中心造价500亿美元。以Spectrum X为例,其网络性能可提升10%吞吐量——实际提升25%也很常见。哪怕只提升10%,价值就高达50亿美元。网络成本几乎为零,难怪大家都选择Spectrum X。这简直不可思议。现在我们要开创一种全新的数据处理模式。

Spectral专攻东西向流量传输。我们最新推出的处理器叫BlueField 4。BlueField 4能驾驭超大规模数据中心。将其不同部分隔离开来,以便不同用户可以使用不同功能模块。确保所有组件在需要时都能实现虚拟化。这样就能卸载大量虚拟化软件、安全软件以及南北向流量的网络软件。因此每台计算节点都标配了Bluefield 4芯片。Bluefield 4还有第二个应用场景,我稍后会详细介绍。

这款处理器具有革命性意义,让我非常兴奋。这就是MVLink 6交换机,就在这里。就是这个交换机。在这个MVLink交换机内部,配备了四颗这样的交换芯片。每颗交换芯片都搭载了史上速度最快的Certis引擎。全球网络才刚刚触及200吉比特的门槛。而这台交换机每秒能处理400吉比特。它的关键之处在于能让所有GPU实时互联互通。通过这个机架背板交换机,我们的数据传输能力直接翻倍——

达到全球互联网总流量的两倍,速度也是两倍。要知道,整个地球的互联网总带宽才100太比特每秒。而这里能达到240太比特每秒。这样对比就非常直观了。这样每块GPU都能实时协同工作。真正实现所有GPU的同步运算。好的。然后在此基础上——注意看——这就是一个机架。单个机架的晶体管数量,如你所见,是标准值的1.7倍。对。能帮我操作一下吗?通常这东西重两吨,但今天有两吨半——因为运输时他们忘了排空水箱。

所以我们从加州运了不少水过来。听到那个吱吱声了吗?你要知道,转动两吨半的东西难免会有点动静。你还真行。哇哦!放心,不会让你重复操作的。好。现在注意看,后面这些是MVLink主干交换机。基本上,这里用了两英里长的铜缆。铜是我们已知的最佳导体。这些全是屏蔽铜缆、结构化铜缆,是全球计算系统中使用量最大的铜缆配置。我们的Certis驱动这些铜缆从机架顶端贯穿到底部,传输速率高达每秒400Gb。

这太惊人了——总长两英里的5000根铜缆,正是它们让MVLink主干网络成为可能。这场革命真正催生了NGX系统。后来我们决定创建一套行业标准系统。这样整个生态系统,包括供应链的所有环节,都能基于这些组件实现标准化。NGX系统由约8万个不同部件组成,如果每年都要更换就太浪费了。从富士康到广达、纬创,所有主流电脑厂商...

要知道,这份名单可以一直列下去——惠普、戴尔、联想,所有厂商都懂得如何打造这类系统。尽管如此,我们仍成功将Vera Rubin超级计算机塞进了这个方案里。虽然它的性能大幅提升,更重要的是功耗还高出了整整两倍。Vera Rubin的功耗是Grace Blackwell的两倍。但神奇的是,它的进风量——所需气流却基本保持不变。最关键的是,冷却水进水温度也相同,都是45摄氏度。

45度的水温意味着数据中心根本不需要冷水机组。我们实际上是用热水在给这台超级计算机降温。这效率简直高得不可思议。所以说,这就是新一代的机架系统。晶体管数量增加1.7倍,但峰值推理性能提升达5倍。峰值训练性能提升3.5倍。它们通过Spectrum X技术在上层实现互联。谢谢。这是全球首款采用台积电全新制程的制造芯片,该工艺是我们联合研发的"Coupe"技术。这是一种硅光电子集成工艺技术。

这项技术让我们能将硅光电子直接集成到芯片上。它支持512个端口,每个端口速率达200Gbps。这就是全新的以太网AI交换机——Spectrum X以太网交换机。看看这个巨型芯片。但真正令人惊叹的是,它直接集成了硅光电子技术。激光从这里输入,激光是从这个位置进来的。激光通过这个通道传输进来。光学元件在这儿,它们会连接到数据中心的其它部分。这个我马上演示给你们看,它就装在机架顶部。

这就是全新的Spectrumax Silicon Photonix交换机。好,我还有件新产品要向大家介绍。就像我两年前提到的,我们推出Spectrum X就是为了彻底革新网络传输方式。以太网管理非常简便,所有设备都支持以太网协议,全球数据中心都熟悉它的运作。而我们当时使用的唯一技术叫做。InfiniBand——这种专为超级计算机设计的网络架构。InfiniBand的延迟极低。

但显然,InfiniBand的软件栈和整套管理体系对习惯以太网的用户来说非常陌生。所以我们决定首次进军以太网交换机市场。Spectrum X一经推出就大获成功,如我所言,这让我们成为全球最大的网络设备公司。新一代Spectrum X将延续这一传统。但正如我之前所说。AI正在重塑整个计算架构的每一层。可想而知,当AI开始在全球企业部署时,它也将彻底改变存储方式。要知道,AI不用SQL查询语言。

AI处理的是语义信息。当使用人工智能时,它会生成这种临时知识库,即临时记忆缓存——KV缓存,也就是键值组合缓存(Key-Value Cache)本质上就是AI的缓存系统,相当于AI的工作记忆区。而AI的工作记忆存储在HBM高带宽内存中。GPU每处理一个token时,都要读取整个模型数据,它会载入全部工作记忆,生成一个token后将其回存到KV缓存。接着进行下一轮处理时,又会重新读取整个记忆库,

通过GPU流式处理,再生成下一个token。这个过程会循环往复,一个token接一个token地处理。显然,如果与AI长时间对话,这个上下文记忆库会急剧膨胀。更不用说,模型规模在扩大,我们使用的交互轮次在增加,AI运算量也在持续攀升。我们期待这个AI能陪伴终生,记住我们与它的每一次对话,对吧?包括我向它咨询过的每一条研究资料。当然,共享超级计算机的用户数量还会持续增长。

所以最初能装进HBM的上下文记忆体,现在容量已经不够用了。去年我们研发了Grace Blackwell超高速内存——我们称之为快速上下文记忆体,这就是将Grace直接连接Hopper和Blackwell的原因。这样虽能扩展记忆体容量,但仍不够用,所以下一步解决方案自然是——转向南北向网络,接入企业级存储。但如果同时运行大量AI,网络速度又会成为瓶颈,因此解决方案很明显:必须另辟蹊径。

为此我们推出了Bluefield 4处理器,它能在机架内实现超高速的键值缓存上下文内存存储。我马上给大家演示,这实际上是一整套全新的存储系统类别。整个行业都为之振奋,因为当今凡是需要大量生成token的机构,都深受这个痛点困扰。无论是AI实验室还是云服务商,都被激增的网络流量搞得苦不堪言。这些流量都是由键值缓存的频繁迁移导致的。

所以我们提出了全新方案——研发一个能完整运行Dynamo键值缓存系统的新处理器平台。将整套上下文内存管理系统部署在贴近机架的位置,这绝对是颠覆性的创新。就是它了,就安装在这个位置。这些全部都是计算节点。每个节点都配备了MVLink 72接口。这就是Vera Rubin MVLink 72.4 U Reuben GPU阵列。这里存储的是上下文内存。每个单元后面都有四个蓝色区域。

每个蓝色区域对应着150TB——没错是150TB的上下文内存容量。每块GPU分配完成后,还能额外获得16TB内存。当前节点内,每块GPU实际拥有1TB内存。现在通过这个后备存储,东西向流量能以完全相同的速率直接传输。整个计算节点的架构内,传输速率稳定保持在200Gb/秒。这样还能再获得16TB的附加内存。好的,这部分是管理平面。这些是Spectrum X交换机,负责将所有设备连接起来。

而这边末端的交换机,则将它们与数据中心的其余部分相连。明白吗?这就是Vera Rubin系统。它有几个令人难以置信的特点。首先我提到的是,整个系统的能效提升了两倍——准确说是功耗...温度性能方面,尽管功耗翻倍,能耗增加两倍,但计算能力却提升了许多倍。而输入系统的冷却液仍保持45摄氏度,这能帮全球数据中心节省约6%的电力。这可是个重大突破。第二个重大突破是,整个系统现在具备机密计算安全性。

意味着所有数据在传输、存储及计算过程中全程加密,每条总线都经过加密处理。每一根PCI Express总线、每一组MVLink互联——就是CPU与GPU之间那些MVLink通道——包括GPU与GPU之间的通信,现在全都经过加密处理,完全符合机密计算的安全标准。这让企业可以放心将模型部署在第三方平台,因为数据绝不会被他人窥见。明白吗?这套系统不仅能源效率惊人,还有个更了不起的特点——

由于AI工作负载的特性,计算层会突然出现瞬时峰值,这个技术术语叫"all"。电流和能量的瞬时消耗量常常会突破上限,飙升幅度能达到25%。现在我们在整个系统中实现了电力平滑技术,既无需超额配置25倍资源,也不会造成25%——注意是25%不是25倍——的能源浪费或闲置,现在你可以榨干全部电力预算。不必超额配置资源,不必预留余量。最后当然要说说性能表现。咱们来看看这套系统的性能数据。

这些图表只有那些建造AI超级计算机的人才会爱不释手。这需要每一块芯片都经过彻底重新设计。所有系统全面升级,整个软件栈重写,才让我们实现了这个目标。本质上这就是AI模型的训练过程。第一栏显示:AI模型训练越快,就能越早向世界推出下一代突破性技术。这就是你们的上市速度优势。这就是技术领导力的体现。这就是你们的定价话语权。以绿色部分为例,这是个10万亿参数的模型。我们从DeepSe开始逐步扩展其规模。

所以我们才称之为深度C++。用100万亿token数据训练一个10万亿参数的模型。好的,这是我们模拟预测的结果——要构建下一代前沿模型所需的资源。伊隆已经提到过下一代前沿模型,也就是Grock的升级版。Grock 5我记得是7万亿参数规模。而这个模型是10万亿,绿色部分代表...等等,注意鲁本案例中的吞吐量要高得多,因此...只需要1/4数量的系统,就能在一个月内完成模型训练。

明白。时间对所有人都是公平的。关键在于训练速度能多快,以及模型规模能多大——这才是抢占技术前沿的关键。第二部分是工厂的吞吐能力。Blackwell架构又迎来了绿色升级。工厂产能至关重要,因为一座千兆瓦级工厂的造价高达500亿美元。造价500亿美元的数据中心仅能消耗1千兆瓦电力。因此,单位能耗的产出效率高低——无论是优异还是糟糕——都将直接影响营收。数据中心的营收与第二列指标直接挂钩。

Blackwell的性能相比Hopper提升了约10倍。而Reuben的性能将再次实现10倍跃升。明白吗?至于token的生成成本——关键在于成本效益比。Reuben的成本仅有十分之一,就像Yep架构那样。这就是我们推动全民抵达下一个前沿,将AI提升至新高度的实现路径。当然,我们还要以高能效、低成本的方式建造这些数据中心。就是这样,这就是如今的英伟达。

如你所知,我们虽以芯片起家,但英伟达现在已能打造完整的系统。人工智能是一套全栈技术。我们正在从芯片到基础设施,从模型到应用,全面革新人工智能。我们的使命是构建完整的技术栈,让各位能为世界开发出惊艳的应用。感谢大家的到来。祝大家在CES玩得开心!不过在结束前——本来准备了很多幻灯片,但不得不删减...有些内容被剪掉了,所以我们准备了些幕后花絮。相信你们会喜欢的。大家辛苦了,这条过了,收工!

英伟达CES展会直播,第四次录制。吊杆麦克风穿帮了,抱歉各位。平台迁移搞定了没?这样应该可以了,开机拍摄吧。选个绿色调,要那种明亮欢快的绿。全球最强AI超算,插电即用。放我烤面包机旁边...等等,我又卡住了。实在抱歉,这页幻灯片死活调不好。直接剪掉这段吧。喂?能听到我说话吗?就像我刚才说的,路由器的事儿。因为不是所有问题都需要最大最聪明的模型来解决。合适的才是最好的。不不,一个都别弄丢。

这个全新的六芯片Reuben平台构成了一台惊人的AI超级计算机。这就对了,小家伙。不不,别动缩放定律那些。车上有只松鼠。准备好把松鼠赶走。温柔地请松鼠离开。你知道现在最顶尖的模型都是专家混合体吗?大家都去哪儿了?嘿。

来源:https://www.deepod.tech/content/cfd2bde9-970d-4809-88ad-b3a6ffdc74ba

阅读更多(戳下方图片)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hello工控 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档