部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >李建忠:DeepSeek关键技术创新及对AI生态的影响

李建忠:DeepSeek关键技术创新及对AI生态的影响

作者头像
TVP官方团队
发布2025-02-06 14:52:10
发布2025-02-06 14:52:10
8140
举报
文章被收录于专栏:腾讯云TVP

作者简介:李建忠,腾讯云 TVP,CSDN高级副总裁,Boolan ⾸席技术专家,全球机器学习技术⼤会主席。对软件架构、产品创新、人工智能有丰富经验和深入研究。近年来主要研究以⼤语⾔模型为主的⼈⼯智能⽅法在软件领域的应用,提出科技创新的“范式转换立方体 ParaShift Cube”,相关研究和演讲引起业界强烈关注。

DeepSeek 在春节期间引爆全球科技圈,虽然饶毅教授的观点“DeepSeek是自鸦片战争以来中国给人类科技最大的震撼”确实有点夸张了,但在欧美科技圈热议的所谓“DeepSeek时刻” 、国内盛赞的“国运级创新”所带来的震撼,从西方主流杂志或媒体包括《自然》、《纽约时报》、《经济学人》等的报道,以及在全球科学、技术、金融、政府、军事等领域的专家政要反应来看,DeepSeek的出圈和影响力不容忽视。

DeepSeek到底做了什么?所谓的“DeepSeek时刻”或者“国运级创新”到底意味着什么?

个人认为DeepSeek巨大的影响力不仅仅在于它在AI领域实现的几个方面的关键技术创新,更重要的是由其引发的对全球AI生态版图的升级和重塑。本文将从两个大的维度:(一)DeepSeek的关键技术创新;(二)DeepSeek对于大模型的生态意义 来谈谈我对DeepSeek的创新研究和思考。

DeepSeek的关键技术创新

1. 开源强化学习引领推理计算范式转换

去年9月份OpenAI 发布的o1模型展现了强化学习在推理计算方面的卓越能力,但是OpenAI既没有开源,技术报告也语焉不详,全球AI界虽然对大模型将迎来从预训练到推理计算的范式转换抱有很高期待,但一直没有成功的复现。直到DeepSeek R1的出现,无论是在以推理为主的各项国际公认的评测指标上、还是实际使用感受上,都超越 Claude Sonnet 3.5 、OpenAI GPT-4o等一众前沿闭源模型。

DeepSeek的推理计算路线也让很多业内专家叹为观止,其使用纯粹RL(强化学习),无需SFT(监督微调),不依赖冷启动数据,成功地实现了靠纯RL(强化学习)来激励大模型的推理能力。DeepSeek在R1的训练中也观察到了模型推理时“喃喃自语反思错误的Aha Moment”(所谓大模型的“顿悟时刻”)。 DeepSeek的研究人员在其论文中谈到,这不仅是大模型的“Aha Moment”,也是研究团队的“Aha Moment”。

为什么说使用RL强化学习来做推理计算,为大模型带来了新的范式转换?人类智能的学习行为本质上分两种:模仿学习 和 探索学习。预训练就是大模型的模仿学习,在OpenAI o1和DeepSeek R1两个模型之前,大模型主要进行的是“预训练”为主的模仿学习。喂给大模型什么样的数据,大模型才能学会什么。没教的一概不会,非要回答就会幻觉说胡话。强化学习就是大模型的探索学习,这是在OpenAI o1和DeepSeek R1推理时主要的学习方式。在强化学习支持的推理计算下,大模型会不断探索优化、遇到错误会改正自己。不难理解,如果没有探索学习,仅仅基于预训练的模仿学习,大模型遇到复杂问题,很难超过人类专家。而有了探索学习,大模型才有可能发展出远超人类智能的水平,比如在AlphaGo当时大败围棋冠军李世石时著名的第37手(move 37),背后就是强化学习的功劳。

强化学习在AI领域并不新鲜,但将强化学习泛化地应用在大模型领域,成为大模型推理计算的核心,OpenAI O1和DeepSeek R1属于开先河者。大模型领域也因此迎来了从预训练到推理计算的范式转换,而且因为开源的引领,相信DeepSeek有机会成为这一范式转换的领导者。 

顺便提一句,DeepSeek在工程领域也有很多可圈可点之处,比如从纯强化学习模型R0,到使用SFT、基于V3基座模型调教出来既有文采又懂推理、文理双全的R1;再比如使用R1作为教师模型来蒸馏多个小模型,使得小模型也具备很高的推理能力。这些都会加速大模型向推理计算的范式转换。

2. MLA和MoE等引领大模型架构创新

自GPT采用Transformer架构取得成功以来,经典Transformer架构一直是很多大模型的标配。但这不意味着Transformer是完美无缺的。DeepSeek在Transformer架构的基础上也做了很多创新,主要包括两个方面:(1)多头潜在注意力即MLA (2)混合专家模型即MoE。 

MLA用于高效推理,源自DeepSeek V2的原创,其显著降低了推理显存的消耗。MLA主要通过改造注意力算子压缩KV 缓存大小,将每个查询KV量减少93.3%,实现了在同样容量下存储更多KV缓存,极大提升了推理效率。

MoE 用于高效训练,其由多个专家模型组成,通过部分激活给定任务所需的特定专家,而不是激活整个神经网络,从而降低计算消耗。MoE非DeepSeek原创,但DeepSeek早在V2之前的 代码和数学模型,就从稠密架构转向 MoE架构。V3模型中更是大胆地使用了高难度的256个路由专家和1个共享专家,并创新的采用冗余专家,来实现负载均衡策略和训练目标。

3. “贴身定制”的软硬协同工程优化

由于众所周知的“芯片限制”,DeepSeek在探索推理范式和模型架构创新的同时,在工程优化方面也丝毫没有放松。分别从计算、存储、通信等多个层面实施了软硬协同的工程优化策略:比如混合精度训练、跨节点通信优化、双流水线机制、DualPipe算法等。甚至采用 PTX 代码(比CUDA更底层的汇编代码)进行底层优化,实现调整寄存器分配、线程调度、Warp 级别优化。

这种围绕模型需求,对硬件进行“贴身定制”的软硬协同工程优化,在一些手握充裕GPU卡资源的硅谷大厂技术人员眼里,很像一些“雕虫小技”。但我想说的是,技术界的雕虫小技不可小觑,技术领域的创新往往是从这些雕虫小技开始的。

回顾一下计算历史:Hadoop如何倒逼EMC、IBM重构存储架构?ARM精简指令集如何用低功耗设计颠覆英特尔x86帝国?TCP/IP协议栈如何倒逼传统网络设备革命?记得图灵奖得主、RISC指令发明人David Patterson曾经有言"硬件架构的创新往往诞生于软件需求对硬件的持续鞭策"

如果假以时日, DeepSeek成为开源大模型领域的标配后,很难说不会出现用“软件定义硬件”或者说“模型定义硬件”来倒逼硬件厂商,走出一条颠覆英伟达CUDA生态的道路。

DeepSeek对大模型生态的意义

1. 大模型成本降到和搜索相当,AI应用和智能体迎来爆发

DeepSeek无疑引爆了大模型的成本之战:(1)自身通过“模型架构创新”和“软硬件协同工程优化”将大模型训练成本大幅度降低,大约是Meta的1/10,OpenAI的1/20 (2)通过最开放的MIT开源协议,和将推理大模型蒸馏给开源小模型等一系列工程方法,为业界带来低成本的端侧模型商品。

谷歌一次搜索成本大约0.2美分(0.002美元),DeepSeek R1 推理成本百万token输出16元(2.2美元), V3对话输出百万token 2元(这只是DeepSeek官网对外的API价格,如果考虑实际发生的推理成本、会更低)。作为对比: OpenAI o1 百万token输出60美元,是DeepSeek R1的30倍。如果假设平均一次推理输出大约1000 token(相当于大约500个汉字)。那么DeepSeek一次推理输出价格大约2.2美元/1000次=0.2 美分,对话输出大约0.025美分。

也就是说,DeepSeek 将大模型的推理输出降到和谷歌一次搜索成本的价格相当,对话输出则大约是搜索的1/10。这是具有指标意义的时刻。

我记得2023年4月份在硅谷访问时和Google做搜索的朋友聊,他谈到他们内部从上到下对ChatGPT持相当观望的态度,因为如果按照当时大模型的成本,来对比谷歌的搜索成本,谷歌马上会从一个盈利600亿美金的公司,变成一个亏损上千亿美金的公司。虽然,大家都预期大模型的成本会不断降低,但没想到不到2年时间,降低如此之快。

成本一直是技术革命背后的利器。搜索作为互联网的基础设施,正是因为极低的成本,才能快速完成对全球信息的整合,引爆了互联网革命。而DeepSeek在2025年开年将大模型成本降到和搜索相当,加上性价比极高的端侧模型,大模型将很快成为各种应用的基座支撑,GenAI也将迎来应用爆发的tipping point。 同时随着强化学习在推理计算带来的范式转换,依赖推理能力的智能体 AI Agent也将迎来加速,2025年将是大模型应用和智能体爆发的元年。

2. AI铁三角迎来新的变量,AI产业版图有望被重塑

算法、算力、数据一直是AI的铁三角。随着大模型成为AI科技树的主流,基于Transformer架构、以预训练为主的模型算法,及其展现的Scaling Law一直在向业界传达一个信息:算力决定一切,训练数据越多、算力越大,模型性能就会越来越好,所谓“大力出奇迹“。AI产业的竞争也变成了“谁拥有GPU越多、谁的AI 能力越强”的军备竞赛。

但DeepSeek分别从 “后训练”和“预训练”两个阶段对这样的唯算力论提出了响亮的质疑:(1)后训练阶段——开源强化学习加速推理计算的范式转换:随着强化学习成为后训练阶段的标配,推理计算将占比越来越大(相对预训练计算)。适应预训练模式的GPU大卡集群计算(英伟达的优势)将不再是未来AI算力需求的主流,而英伟达在推理计算方面的优势相对较弱,很多头部厂商如谷歌TPU、AWS Inferentia、华为昇腾等专为推理优化的芯片,在特定负载下能效比显著高于通用GPU,加上适应多元推理场景的分布式计算、边缘计算、端侧计算,推理算力领域将不会是英伟达一家独大的局面。(2)预训练阶段——通过MoE 和MLA等对经典Transformer架构进行的改进和迭代:这使得DeepSeek使用少于同行10~20倍的算力,完成了同等规模的预训练。另外,DeepSeek 使用R1作为教师模型来实现对小模型的“强化学习推理能力”蒸馏的工程实践,也会为很多模型训练带来一波红利。

DeepSeek从 “后训练”和“预训练”两阶段对AI算法进行的创新,为“算法、算力、数据”构建的AI铁三角带来新的变量,有机会重新塑造未来AI产业的发展版图。

3. 开源的长期主义是创新摇篮

最后,说说DeepSeek的开源战略。DeepSeek支持商业友好的MIT许可证(最为宽松的开源协议之一),开源模型权重,没有对下游应用的限制(比如合成数据、蒸馏等)。论文开放的技术细节也很有诚意。在全球排名Top 10的头部模型中,DeepSeek是开源程度最高的,比最早扛起开源大旗的Meta的LLaMA还要更Open。这也是DeepSeek V3 和R1 在海内外引起众多权威专家、大佬认可+尊重、甚至赞不绝口的原因。不隐藏、不吹嘘,模型、评测、原理等都结结实实摆在那里。

顺便说一句, DeepSeek的论文从一开始就大大方方地承认了其在微观设计上遵循了LLaMA 的设计。相对国内各种扭扭捏捏、遮遮掩掩的“半开源”,以及违背开源协议、使用开源实现自己的闭源,DeepSeek在模型开源方面可以说相当慷慨、也很敞亮。

DeepSeek实际上在第一天就拥抱开源,回想起早期阅读《DeepSeek LLM : 用长期主义来扩展开源语言模型》 这篇DeepSeek于2024 年1月发表的论文,对开源的信仰和宣言,读起来让人心生敬意。深层次来看,DeepSeek是真正深刻领悟开源精神、站在全人类创新的高度、从战略而非战术上拥抱开源的。

摘抄DeepSeek创始人梁文锋 2024年7月份接受采访中的一段话“我们认为当下最重要的,是参与全球科技创新。长期以来,中国企业习惯于利用海外的技术创新,并通过应用层面进行商业化,但这种模式是不可持续的。我们的目标不是快速盈利,而是推动技术前沿的发展,从根本上促进整个生态的成长。开源和发表论文不会带来重大损失。对于技术人员来说,被同行追随本身就是一种成就。开源不仅仅是商业策略,更是一种文化。”以此观之,2025年1月,DeepSeek V3和R1给全球AI界带来的震撼,不足为奇。

DeepSeek的成功点亮了中国技术界最纯粹、最原始的创新火种, 他们会激励一代又一代的中国技术人为全世界做出自己独特的创新。致敬DeepSeek。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档