首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

"知识诞生"的奥秘:MIT研究揭示大语言模型如何跨越时间、空间和规模形成语义特征

麻省理工学院的Shashata Sawmya、Micah Adler和Nir Shavit(同时隶属于Red Hat公司)于2025年5月26日在arXiv上发表了一篇题为《知识的诞生:大语言模型中跨时间、空间和规模的涌现特征》(The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models)的研究论文,编号为arXiv:2505.19440v1。这项研究深入探索了大语言模型内部的知识形成过程,为我们揭示了AI系统如何"学习"的奥秘。

想象一下,如果我们能够观察到婴儿大脑中的神经元是如何逐渐形成对世界的理解,那该有多神奇。MIT的这项研究正是做了类似的事情——但研究对象是大语言模型(LLM)。研究团队使用了一种称为"稀疏自编码器"的技术工具,就像给AI装上了一个特殊的"X光镜",让我们能够看到模型内部知识的形成过程。

这项研究探索了三个维度的知识形成:时间(训练过程中的不同检查点)、空间(模型内部不同的变换器层)和规模(不同大小的模型)。通过这三个维度的观察,研究团队发现了一些令人惊讶的规律,特别是发现语义概念会在模型的浅层出现,然后在中间层消失,最后在深层再次出现,这打破了我们对神经网络工作方式的传统理解。

传统的AI研究主要关注模型的表现——它能否正确回答问题,能否生成连贯的文本。而这项研究则关注"为什么"和"如何"——模型内部到底发生了什么,让它能够掌握知识?就像不仅观察学生的考试成绩,还要了解他们的学习过程和思维方式。

研究团队首先解释了他们的研究方法。他们使用了稀疏自编码器(SAE)作为主要工具,这种工具可以将模型内部复杂的激活模式分解成更简单、更容易理解的成分。想象一下,如果模型的思维是一首复杂的交响乐,稀疏自编码器就像是能够分辨出其中每一种乐器声音的高级耳机。然后,他们使用了一个名为AutoInterp的框架,这个框架就像一个翻译器,可以将这些分离出的模式翻译成人类可以理解的概念标签。

为了进行实验,研究团队使用了MMLU测试集(包含14,042个多项选择题,涵盖57个学术科目)和MMLU-PRO(12,032个问题,涵盖14个广泛类别)。这两个基准测试涵盖了从物理、化学到经济学、哲学等多个学科领域。研究使用了Pythia系列模型,这是一套完全开放的自回归变换器模型,规模从1400万参数到120亿参数不等,为机械解释研究提供了理想的基础。

在研究设计方面,团队选择了最优的自编码器参数:激活预算k=1和隐藏维度h=512。这是通过对不同参数组合的F1分数(一种衡量分类准确性的指标)的比较确定的。有趣的是,他们选择的隐藏维度远小于模型的残差流维度(5120),因为他们专注于捕捉粗粒度的可解释特征,而不是完全分离多语义方向。

接下来,研究团队开发了一个名为EyeSee的框架,用于探测分类概念。他们首先从自编码器中筛选出高保真度的神经元(验证F1分数超过0.9),然后使用句子嵌入模型将这些神经元的标签与查询主题(如物理、历史)进行余弦相似度匹配。这样,他们就能识别出哪些神经元代表了特定的学科领域概念。

在时间维度的研究中,团队发现了知识形成的清晰模式。在训练初期(前1000步),只有不到3%的概念被激活。随着训练的进行,概念激活率经历了几次显著增长,特别是在1000020000步(+17.5个百分点)和3000040000步(+55.9个百分点)。到训练结束时(143000步),超过99%的概念被激活。

更有趣的是,不同领域的知识形成有不同的时间模式。物理、数学、经济学、法律和哲学等领域从训练初期就开始激活,并逐渐增长。而历史、生物学、化学和商业等领域则要到大约10000步之后才开始激活,通常是在一次突然的爆发中。这表明,一些领域的知识依赖于更高层次的上下文结构,只有在更基础的模式被学习后才能稳定下来。

在空间维度的研究中,团队使用了余弦相似度热图和SAE特征激活探针来分析模型内部不同层之间的表示动态。他们发现模型的36层可以分为三个不同的块:输入块(1-3层)、处理核心(4-35层)和输出块(第36层)。最令人惊讶的是,早期层的特征会在中间层消失,然后在后期层再次出现,这表明模型的内部表示有一种复杂的语义连续性,而不是简单的线性层级结构。

在规模维度的研究中,团队使用了正交Procrustes变换来将不同大小的模型嵌入到一个共同的特征空间中。他们发现,低于2亿参数的模型只激活了不到5%的标记概念。而在1.6亿参数和4.1亿参数之间,概念激活率突然跃升了92.9个百分点,达到约95%。此后,激活率趋于饱和,在2.8B参数时达到峰值,并在所有更大的规模中保持在98%以上。

这种突然的激活转变表明,存储EYESEE中定义的分类概念需要一定的容量要求。较小的模型将参数分配给高频表面统计数据,但无法维持由激活指标捕获的更丰富的特征子空间。

通过这三个维度的综合分析,研究团队为我们描绘了大语言模型内部知识形成的生动画面。就像一个孩子在成长过程中,不仅仅是简单地累积知识,而是经历了复杂的概念重组和理解深化的过程。

这项研究的意义不仅限于理论层面。通过理解模型内部知识的形成过程,我们可以更好地设计和优化AI系统,使它们更加高效、可靠,也更符合人类的认知模式。它也让我们对"人工智能"的"智能"本质有了更深入的理解——这种智能不是凭空产生的,而是通过复杂的计算模式逐渐涌现出来的。

总的来说,MIT的这项研究向我们展示了大语言模型中知识的诞生过程,就像一本AI认知发展的图谱。它不仅在时间和规模维度上确认了我们的直觉预期——知识确实随着训练和模型规模的增加而积累——还在空间维度上揭示了出人意料的动态,表明知识在模型内部的组织可能比我们想象的要复杂得多。

对于任何对AI工作原理感兴趣的人来说,这项研究提供了一个难得的窥视"机器思维"内部的机会。就像解剖一本书不会破坏故事的魔力一样,理解AI的内部机制不会减少它的神奇之处,反而会增加我们对这一技术革命的欣赏。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O9hzNHGILcEmDyjSuebfmRgQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券