首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

普林斯顿大学教授王梦迪:大模型推理与Al for Science

探索科技新前沿论坛@上海

3月22日上午,由未来论坛、上海未来产业基金主办的“探索科技新前沿论坛”隆重举办,论坛聚焦AI for Science、未来健康与未来能源等前沿领域,汇聚国内外顶尖科学家、产业领袖和投资专家,构建产学研融合的创新平台,共同把脉未来科技发展的脉搏。

在AI for Science环节中,普林斯顿大学人工智能创新中心主任、教授王梦迪以《大模型推理与Al for Science》为题进行主旨演讲,分享其在跨学科创新领域的宝贵实践范例。她回顾了大模型技术的发展历程,强调了大模型在解码过程中的控制策略,以及如何通过强化学习提高模型的效率、对齐性和智能水平。她还分享了团队在数学解题、mRNA疫苗设计等领域的应用成果,展示了生成式AI在科学发现中的潜力。最后,她展望了AI作为跨学科交流的新语言,可能打破学科壁垒,加速科学进步。

《大模型推理与Al for Science》

- 王梦迪,普林斯顿大学人工智能创新中心主任、教授

王梦迪:今天与大家讨论大模型,我希望能够从大模型技术本身开始,最后一起畅想AI和大模型技术将如何改变我们的科学发现。

大模型技术:从“大力出奇迹”到强化学习

图1

这是张老图(图1),很多朋友都见过。大模型刚开始爆发的时候,它的主要的技术思想是大力出奇迹。从GPT1到GPT4,再到现在可能能够占满整个巨大屏幕的各种新模型,在过去的7年,大模型走的道路是不断的scaling up(扩展规模)。如果你说技术有什么特别的,那很大程度上就是在scaling up的时候解决计算、数据、commute(交换)上的各种工程问题。

但是我们都知道,狭义意义上的预训练(Pre-training)已经走到了尽头。伊尔亚·苏茨克维(Ilya Sutskever)在2024年12月的NeurIPS(神经信息处理系统大会)上向全世界宣布了这件事,但是预训练走到尽头,其实在2023年年底就初露端倪了。我的研究组主要是做强化学习(Reinforcement Learning, RL),但从2023年下半年开始,我们领域的很多合作伙伴,和我自己组里的前毕业生,都加入了OpenAI的后训练团队,专攻强化学习。OpenAI开始搞强化学习,那我们就知道是预训练应该是饱和了。

Where are we now?现在的技术时代加速太快了,我们可以稍微回顾一下历史,不知道有多少人读过凯文·凯利(Kevin Kelly)在1994年出版的《失控》(Out of Control)。在这本书里,作者以智能作为出发点,认为无论是机器的智能还是动物的智能,都是一个复杂的系统,能够对外界的环境做出反馈和一系列决策,这就是智能的本质。作者在30多年前就预测了大量的神经网络连接起来,会涌现(emergence)出高级别的,也就是底层无法理解的更高级的智慧。他也预言了神经网络的涌现,预言了去中心化(decentralization)和分布式,预言了meme,即人类故事会通过大规模联系的网络传播,去产生新的故事线和更高级别的社会思潮等。

这本书的最后一章讲的是从大规模的、无序的网络中一定会涌现出智能,而这个智能一定会超过人类。而我们现在就处于这最后一章中——我们已经知道怎样整合力量摸到超级智能的边缘,它到底能不能为我所用,能在什么程度上更进一步智化、进化?这是这本书预言的终点,也是我们现在要面临的全新的未来。

我想先从最简单的控制论出发,给大家看一下,当我们用大语言模型的时候到底在发生什么?首先,在我们用大模型的时候,其实是一个在不断解码的过程(decoding process)。比如,我们可以问它“法国的首都在哪里?”(What is the capital of France?),这个时候大模型可能是很多层的transformer(一种基于自注意力机制的神经网络架构),它发生了什么?对于这一段token[自然语言处理(NLP)中,文本进行分割和编码时的最小语义单位]的序列,它可能通过某种方式转化成一堆向量,作为输入进入了transformer,这个时候它吐出的第一个token是“巴黎”(Paris)。此时“巴黎”这个词会被加在原来的输入中,这个时候我的输入就变成了“法国的首都是巴黎”。而当大模型再运行一次,它输出了“是”,这个时候“是”(is)又会回到最开始的输入中,这是一个非常简单的Autoregressive(自回归)的生成过程。

从控制(论)的角度,我们可以理解为,当前的输入是decoding process的状态,就跟物理系统里的状态是一样的。每次大模型向前迭代一次,就生成了一个新的状态——多了一个词就是一个新的状态——这个新的状态就会更新以前的状态。从这个角度讲,大模型本身就已经是控制策略了,它在不断地根据上一个状态,可能在某些influence(影响)下去生成下一个词,生成新的状态,不断的迭代,这就是控制的过程。

那么,我们怎样控制这样一个解码的过程?控制在AI时代被称为“强化学习”。在预训练之后,进入后训练(post-training)的时候,我们可以用控制或强化学习的方式让它变得更好。我们可以让它对齐、让它更快、更聪明,还可以让它做推理。

第一个例子是对齐。“超级对齐”(Superalignment)的概念是OpenAI在2023年提出的,它是指如何让从大量数据里进行学习的超级大模型能够跟人聊得更好。对齐里的经典方法之一是Reinforcement Learning from Human Feedback(RLHF,基于人类反馈的强化学习),即从人工反馈里对人的喜好进行奖励函数(Reward Model)建模,然后用强化学习的方式对大模型进行后训练。这非常重要。

我们组做的工作就是把对齐的强化学习,做到能够在非常diverse(多样)的用户场景里做personalization(个性化)。假设我们有很多的用户,大家的喜好不一样,而且我们并不知道谁是谁,如果我们用传统的简单对齐方式的话,就可能会overfit(过拟合)到某一类用户,导致很多小众的但也值得被尊重的需求就被忽视了。因此,我们提出了一个叫Maxmin-RLHF(极大极小化人类反馈强化学习)的方法,可以同时对齐到很多不同的用户,而且不需要知道他们本来的喜好是什么,就可以自动学到他们不同的喜好,把用户的满意度提高到30%以上。

刚才对齐的是人的喜好,强化学习或控制还能够用来提高效率,加速推理的效果。再举个简单的例子,比如我们有个大模型,它是600B(B即Billion,反映了模型的规模和复杂度),以后可能是2000B或者更大。如果我们用大模型生成一段话,这时候每一个新的token都要重新把大模型forward pass(前向传播)一遍,这个过程会非常慢、也非常贵。此时我们可以在不做训练的情况下加速大模型的inference(推理),一个很有意思的方法就是speculative decoding(投机解码)。思路很简单,我们给它配一个小模型(draft model)——训练的过程一般都是先训练小模型,再训练大模型,因此我们本来就有一个小模型。现在我们要让小模型当学生,大模型当老师。小模型可能先生成四个词,我们把这四个词拿去让大模型检查一下满不满意,如果满意就通过,如果不满意,大模型就会说,我不喜欢singing这个词,在这里停下来重新往前生成。整个过程相当于我们可以通过控制大小模型之间相互协作的方式,让小模型干大部分的工作,让大模型尽可能地在关键点上去检查它。

Speculative decoding这个技术最早是Google Deepmind提出的,我们用强化学习的方式对这个技术进行了加速,因为我们想找到一个最优的策略,告诉我们什么时候让小模型工作,什么时候让大模型检查,这样就可以在整体上提升效率。这类方法可以把大模型的inference效率提高到两倍、三倍甚至更多倍。

更难的问题是我们能不能让模型变得更聪明,能不能让它学会深度思考。我去年跟朋友讲的时候,没有一个人相信我,而今天DeepSeek打破了大家的很多的认知,这是我作为AI从业者觉得非常开心的事情,越来越多的人能够理解我们为什么要做这件事,深度思考就是让大模型能够解决复杂的策略问题和planning(规划)问题。

这是我们组自己的工作,我们的算力非常少,我们训练了一个32B的模型,只用了8张卡。我们的工作是去年下半年到今年一月份做的,和DeepSeek R1 是同时期。用强化学习让大模型学会深度思考这件事情,是因为技术(的发展)自然而然地到了这个阶段,并且这里面有很多可以提高的空间。

回到我们的这个例子里,因为我们的算力和人都很少,如果要让强化学习更有效率,就需要在算法上做得更好。那么我们是怎么做的呢?我们用到了强化学习里一个重要的技术——层次化强化学习(Hierarchical Reinforcement Learning),这个技术其实在机器人领域已经应用得很普遍了。它的主旨是,如果有一个很复杂的问题,那么最关键的就是掌握master policy(策略)。如果能够把一个问题分而治之,就可以找到很多的sub-policies,然后用master去管理sub-policies,这个时候问题就自然分解成了两层甚至多层。同样的,这个技术在机器人里底层的policies叫primitives(基元),也就是机器人的各种tactics(策略),上层的planning可能是我到底要去哪,primitives就是我的胳膊到底怎么放。

我们用这个技术做了大模型,做法是从大量的数学解题里提取了不同的解题套路,每一个套路都可以用模板化的方式进行标准化。之后,当大模型去解数学题,它学到的是看到这些题之后大概知道它需要哪些解题技巧。具体到每一步怎么去做是底层的问题,底层因为已经在一定程度上变小了或者说变明确了,那么底层的问题也就相对简单了。而强化学习的复杂度是由状态空间的大小决定的,如果我们能够把状态空间大大压缩,那么它训练的效率就会大大提高,泛化的能力也会变得更强。所以用这个技巧,我们其实用很少的算力就可以四两拨千斤,达到(OpenAI)o1的水平。

刚才讲的都是强化学习或控制大语言模型,用相通的技术思路,我们也可以控制图像、视频,包括蛋白质生成等。

AI推动科学:突破学科边界的“新语言”

AI已经发展到了这一步,接下来的是What is the next big thing?我觉得越来越多的年轻科学家已经意识到了下一个big thing是AI for Science。我们已经看到了很多非常大的成功。比如大家熟悉的AlphaFold,Arc 开发的DNA大模型Evo(生物学人工智能模型),DeepMind做的AI for fusion,以及Google正在做怎样用AI加速quantum computing(量子计算)等。

它们与大语言模型有什么关系?无论是DNA还是蛋白质,或者fusion,我们都可以理解为是那门学科的语言。当我们训练蛋白质大模型的时候,相当于我们做了一个蛋白质方言的大模型。现在的很多科学突破就是因为很多不同科学的“方言”都已经被AI在很大程度上学得差不多了。

越来越多的人已经意识到了这件事。Anthropic的CEO达里奥·阿莫迪(Dario Amodei)在去年的一个blog里面就说,AI最大的breakthrough应该是加速科研。你可以想象一下,原来要花五百年、一千年才能找到treatment(疗法)和药,也许现在5到10年就可以了。我们发现新东西的速度可能是以前的10倍甚至更高,那么这个世界会变成什么样?

更进一步,生成式人工智能是一系列的技术,有非常强的泛化性和通用性。比如,在在普林斯顿大学人工智能创新研究中心里,我们的研究组在用生成式AI的方式直接生成射频电路的设计。DeepMind在2023年的一篇论文里用生成式AI的方式预测出了220万种新的晶体结构,他们估计如果按照原来人类科研的速度,找这么多的晶体结构可能需要800年。2024年,我们组自己训练了应该是世界上第一个mRNA疫苗的语言模型,并且我们用这个方式生成了新的mRNA疫苗的设计。我们在实验室把它验证出来了,和现在最好的医用的序列相比,它的翻译效率和有效性提高了30%多。同时,我们还能用生成式AI的方法生成新的机器人的策略等。这些看上去是完全不同的应用,但它们底层的生成式技术已经越来越统一了。

我们还在做各个学科的一系列的AI Agent。比如我们开发的基因编辑智能体CRISPR-GPT,可以自动化大部分的基因编辑研究和实验设计,并且完成了实证validation,比如我们可以用智能体去帮助找到肺癌的metastatic(转移);我们用CRISPR-GPT去帮助编辑阿尔茨海默主要的biomarker(生物标志物),叫APOE;包括和其他实验室、药厂合作去做drug target(药物靶点)的筛查,这(在之前)可能需要很多读过PhD的科学家花很长时间一点点把设计走通,现在我们完全可以自动化地去做这件事情。

再往下走,AI会变成什么?如果每一个学科是一种方言的话,现在AI可能还在学习每种方言的阶段,但更进一步,AI会变成一种新的语言,能够让不同的学科进行跨学科的交流。最开始人类本想建造一座巴比伦塔,但因为有不同的语言、不同的学科,这太难了,大家用不同的语言做不同的事情,巴比伦塔就建立不起来。但如果AI变成新的语言、新的媒介,我们是不是真的可以造出这个通天塔?

所以最后,AI会怎样去推动科学?在没有AI的时候,我们要走很长的弯路,才能在这个学科里找到一个火花,然后再走很远,在另外一个地方找到火花……但如果AI能成为一种新的语言,它应该能够把墙打破,我们应该可能有一天推开所有的墙,直接取到我们想要的东西。我认为这就是AI马上要带给我们的。

(本文由王梦迪教授2025年3月22日在未来论坛、上海未来产业基金主办的“探索科技新前沿论坛”上的主旨发言整理而成,有删减。)

 本文及视频未经书面授权,任何机构和个人不得以任何形式转载;禁止翻录、删节、篡改和用于商业用途。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwYgjomk_Ur6i385obe_ayNw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券