揭示世界本质的「机器科学家」，比深度神经网络还强？

数据派THU

发布于 2022-05-23 11:15:48

2200

发布于 2022-05-23 11:15:48

文章被收录于专栏：数据派THU

来源：AI科技评论本文约5800字，建议阅读10分钟机器科学家能够发现一些我们没有发现的东西。

我们正处于“GoPro 物理学”的风口浪尖。无论摄像机聚焦于什么事件，算法都可以识别其中潜在的物理方程。

2017 年，西北大学化学与生物工程系的助理教授Roger Guimerà和罗维拉-威尔吉利大学的物理学教授Marta Sales-Pardo发现了细胞分裂的原因。

该研究推动了生物学的进展，但他们并没有从自己的数据中发现关键信息，反而是他们的一个未曾公开的发明——他们称之为“机器科学家”的虚拟助理将这些信息指了出来。

Guimerà 回忆道：“我们只是给机器科学家输入了一个算法，然后就得到了答案。虽然这就是事实，但没有审稿人会信。”

图注：URV 化学工程系的研究人员 Marta Sales-Pardo（左）和 Roger Guimerà（右）

两人与他们的前同学、加泰罗尼亚生物工程研究所的Xavier Trepat进行合作，想要确认哪些因素可能引发细胞分裂。许多生物学家认为细胞超过一定大小就会分裂，而Trepat 觉得这其中仍有探索空间。他的团队破译了成群细胞争夺位置时在柔软表面留下的纳米级印记并积累了详尽的数据集，其中记录了形状、力量和其他十几种细胞特征，单单是测试这些细胞特征对细胞分裂的影响大概就得花一辈子。

可是，如果将数据提供给机器科学家，在几分钟内机器科学家就能反馈给他们一个简洁方程。就预测一个细胞何时分裂而言，该方程比仅使用细胞大小或任何其他单一特征的方程精确 10 倍。据机器科学家所说，细胞分裂与否，取决于一个细胞的大小乘以它旁边的细胞挤压它的力度。

“机器科学家能够发现一些我们没有发现的东西。”Trepat说。

由于研究人员没有公开过「机器科学家」的信息，因此他们只好进行二次分析。经过数百对变量的测试，他们得出了和「机器科学家」一致的答案，并在2018年将该研究发表在了Nature Cell Biology上。

图注：西班牙 Rovira i Virgili 大学的 Roger Guimerà 和 Marta Sales-Pardo 主导构建了一个强大的符号回归算法，并称之为“贝叶斯机器科学家”。

四年后，这种方法迅速成为一种公认的科学发现方法。Sales-Pardo 和 Guimerà 是少数几位开发最新一代工具的研究人员之一，该工具能够实现符号回归。

符号回归算法不同于深度神经网络。深度神经网络算法可能会吸收数千个像素，让像素渗透数百万个节点组成的迷宫，并通过不透明的机制输出“dog”这个词。而符号回归算法识别复杂数据集，然后输出一种人类能很好理解的简短方程式。这些算法类似于超级版本的 Excel 曲线拟合函数，但这些算法不只寻找直线或抛物线拟合一组数据点，还寻找数十亿个不同的公式。通过这种方式，「机器科学家」可以让人类了解细胞分裂的原因，而神经网络只能预测细胞何时分裂。

几十年来，研究人员一直在与这样的机器科学家打交道，小心翼翼地诱导机器科学家从简单的数据集中重新发现教科书式的自然法则，并将其排列起来，从中寻找某种模式。但是近年来，这些算法已经变得足够成熟，可以在真实数据中探索出从湍流如何影响大气层到暗物质如何聚类等此前未被发现的关联。

“毫无疑问，整个领域都在向前发展。”哥伦比亚大学的机器人专家Hod Lipson说。他在13年前开始了符号回归的研究。

图注：机器人专家 Hod Lipson

1 机器科学家的崛起

物理学家偶尔会单凭推理寻找真理，比如爱因斯坦通过从一束光束的角度想象另一束光束，从而感受空间和时间的柔韧性。

但是更多时候，理论是从马拉松式的数据处理中诞生的。

16 世纪的天文学家布拉赫去世后，开普勒接触到了布拉赫笔记本中的天体观测，花了四年时间才确定火星在天空中描绘的是一个椭圆，而不是他之前认为的蛋形。通过粗暴计算，他又另外发现了两个关系，遵循了“第一定律”，这些规律便是牛顿指出万有引力定律的基础。

符号回归的目标是加速这种开普勒式的试错，遍历将变量与基本数学运算联系起来的无数方法，从而找到最能准确预测系统行为的方程。

图注：天体物理学家以两种方式对太阳系的行为进行建模。他们首先使用了NASA多年数据来训练一个神经网络。然后使用符号回归算法将该模型提炼成一个方程式。在视频中——显示真实位置为实体物体，而模型预测为金属网轮廓——神经网络（左）的表现远不如比起符号回归算法（右）。

首个取得重大进展的程序叫做BACON。它由当时在卡内基梅隆大学的认知科学家和人工智能研究员 Patrick Langley 在1970年代末开发。BACON 包含一列轨道周期和一列不同行星的轨道距离，然后以不同的方式系统地组合这些数据：周期除以距离、周期平方乘以距离等。如果 BACON 在各种数据的不同组合中找到一个常数，例如，如果周期的平方除以距离的立方总是给出相同的数字，就说明它找到了开普勒第三定律。一个常数意味着它已经确定了两个成比例的量，换句话说，当 BACON 找到一个方程时，它就达到了目的，停止计算。

尽管重新发现了开普勒第三定律和其他教科书上的经典内容，但在计算能力有限的时代，BACON仍然是一种奇特的存在。研究人员仍然需要手动分析大多数据集，最终使用类似Excel的软件，在给定特定类别的方程时找到简单数据集的最佳拟合。直到2009年，康奈尔大学的机器人专家 Lipson 和 Michael Schmidt 开发了一种名为 Eureqa 的算法。这个算法可以找到描述任何数据集的正确模型。在 Eureqa 成功开发以前，这个概念一直处于沉睡状态。

他们的主要目标是建立一台机器，能够将一列又一列的变量的拓展数据集归纳为一个涉及少数实际重要变量的方程。Lipson说：“这个方程最终可能有四个变量，但我们事先不知道是哪些。我们得把所有可能的变量都扔进去。天气也许很重要，每平方英里牙医的数量或许也很重要。”

处理众多变量已经是一个难点。研究人员表示，他们还需要具备一定的灵活性，尝试各种可能走向死胡同的方法、并从中走出来。而当算法可以从直线跳到抛物线，或增加一个正弦波纹时，它掌握尽可能多数据点的能力也可能变得更糟。为了克服这些挑战，1992年，计算机科学家John Koza提出了 “遗传算法”，这种算法将随机“突变”引入方程，经过多次试验，最初无用的功能要么演变得强大，要么消亡。

Lipson和Schmidt将这一技术提升到了新的水平。一方面，他们生成了方程式。另一方面，他们随机选择了一些数据点来测试方程，“最适合”的点是那些对方程最有挑战的点。“这就像军备竞赛一样，我们需要建立两个不断发展的事物，而非一个。”Lipson说。

Eureqa算法可以压缩涉及十多个变量的数据集。它可以成功地反馈出高级方程，比如描述一个钟摆悬挂在另一个钟摆上的运动。

图注：机器科学家是如何工作的

与此同时，其他研究人员正在寻找训练深度神经网络的技巧。到2011年，深度神经网络在学习区分猫和狗以及执行无数其他复杂任务方面取得了巨大成功。但是一个训练有素的神经网络由数百万个具有数值价值的“神经元”组成，这些神经元不会明示它们已经学会识别哪些特征。可Eureqaque却可以用人类的语言传达自己的发现。

当 Sales-Pardo 第一次使用 Eureqa 时，她感到很惊讶：“我认为这是不可能的，这些人怎么做到的？” 她和 Guimerà 很快就开始使用 Eureqa 为他们自己的网络研究建立模型，虽然结果不一致，但他们对 Eureqa 的强大功能印象深刻。该算法会演化出预测方程，但它也可能会弄巧成拙、然后得出一个过于复杂的方程。只要研究人员稍微调整他们的数据，Eureqa 就会返回一个完全不同的公式。于是Sales-Pardo 和 Guimerà 便从头开始设计新的机器科学家。

2 压缩程度

在他们看来，遗传算法的问题在于过于依赖创造者的口味。开发人员需要指导算法，以平衡简单性和准确性。一个方程总是可以通过附加项来触碰到数据集中的更多点。但最好忽略有些离题的点。研究者可以把简单性定义为方程的长度，把准确性定义为曲线与数据集中每个点的接近程度，但这只是众多选项中的两个定义。

Sales-Pardo 、 Guimerà 与合作者一起，利用物理学和统计学方面的专业知识，根据贝叶斯理论的概率框架来重新定义进化过程。他们首先下载了维基百科中的所有方程式。然后对这些方程进行统计分析，看看哪些类型最常见。这种办法能让算法少走弯路，例如让算法尝试使用比较常见的加法，而不是比较少见的双曲余弦。然后该算法使用随机抽样方法生成方程变体，该方法已在数学上被证明可以探索数学领域的每一个角落。

在每个步骤中，该算法以方程式对数据集的压缩程度对各类方程式进行评估。例如，随机散布的点根本不能被压缩，我们需要知道每个点的位置。如果1000个点沿着一条直线落下，它们可以被压缩成两个数字（直线的斜率和高度）。这对学者发现，压缩程度为比较各个方程提供了一种独特且稳定的方法。Guimerà说：“我们可以证明，正确的模型就是压缩数据最多的那个，这不存在任意性。”

经过多年研究，他们使用自己的算法找出了触发细胞分裂的因素，2020年，他们和同事们在《Bayesian machine scientist》中介绍了他们的 “贝叶斯机器科学家”。

3 数据的海洋

从那时起，研究人员用贝叶斯机器科学家来改进预测国家能源消耗的SoTA方程，而另一组则使用该方程来模拟通过网络的渗透。开发人员认为这类算法将在像 Trepat 那样的生物学研究中发挥巨大作用，因为在这种研究当中科学家们面对的是海量数据。

机器科学家也帮助物理学家理解跨越多尺度的系统。物理学家通常对原子使用一组方程，对台球使用一组完全不同的方程，但这种零散的方法不适用于气候科学等学科研究。

其中一位研究人员是纽约大学的Laure Zanna 。她在模拟海洋湍流的工作中经常发现自己夹在两个极端之间：超级计算机可以模拟城市大小的涡流，也可以模拟洲际洋流，但不能同时模拟两种尺度。她的工作是帮助计算机生成包含较小漩涡影响的全局图片，而无需直接模拟这些图。最初，她转向深度神经网络来提取高分辨率模拟的整体效果，并相应地更新更粗略的模拟。“深度神经网络太棒了，”她说，“但我是一名气候物理学家。”她的意思是她想通过压力和温度等原理来了解气候是如何运作的——“但是很难采集到成千上万的参数，更别说是满意的参数了。”

然后她发现了由华盛顿大学应用数学家Steven Brunton、Joshua Proctor和 Nathan Kutz设计的算法。他们的算法采用了一种被称为稀疏回归（Sparse Regression）的方法，这种方法与符号回归的精神类似。这种方法没有在变异方程中挑起大混战，而是从一个可能有上千个函数比如 x^2、 x/(x − 1) 和 sin(x)的库开始。该算法在库中搜索给出最准确预测的术语组合，删除最没用的术语，并继续直到库里只剩下少数几个术语。与符号回归算法相比，稀疏回归闪电般的过程可以处理更多的数据，其代价是探索的空间更小，因为最终方程必须由库项构建。

为了了解其工作原理，Zanna 从头开始重写了稀疏回归算法，然后将修改后的版本应用于海洋模型。当她输入高分辨率影片并要求算法寻找精确的缩小草图时，算法返回了一个与涡度以及流体如何拉伸和剪切有关的简洁方程。当她将这个方程输入到她的大规模流体流动模型中时，她看到了以能量的函数形式变化的流体，且看得比以前更真切。

“该算法使用了额外的术语，”Zanna 说，然后生成了一个“美丽”的方程，“这个方程能够真正体现洋流的一些十分重要的特性，比如拉伸、剪切和旋转。”

4 合作更强大

通过将自身优势与深度神经网络的优势相结合，其他团队也为机器科学家提供了助推力。

普林斯顿大学天体物理学研究生Miles Cranmer开发了一种类似于 Eureqa 的开源符号回归算法，称为 PySR。这个算法在数字“岛屿”上建立了不同的方程组，并让最适合数据的方程周期性地“搬家”，然后与其他岛屿上的方程竞争。Cranmer 与来自 DeepMind 以及纽约大学的计算机科学家，还有 Flatiron 研究所的天体物理学家合作，提出了一种混合方案。他们首先训练神经网络完成任务，再让PySR给出一个描述神经网络的特定部分完成了何种任务的方程。

该小组将该程序应用于暗物质模拟，并根据相邻云的特性生成了一个公式，该公式给出了暗物质云中心的密度。该方程比现有的人工设计方程更适合数据。

2 月，该小组向系统输入了30年来太阳系行星和卫星在天空中的真实位置。该算法完全跳过了开普勒定律，直接推断出牛顿的万有引力定律以及行星和卫星的质量。其他小组最近则使用 PySR 发现了描述粒子碰撞特征的方程、结体积的近似值以及暗物质云在其中心塑造星系的方式。

对于机器科学家越来越多的情况（另一个值得关注的例子是麻省理工学院的物理学家 Max Tegmark 和 Silviu-Marian Udrescu 创建的“ AI Feynman ”），人类研究人员说，越多越好。“我们真的需要这些技术，”库茨说，“全都需要，越多越好，因为没有一个技术是万能的。”

论文地址：

https://www.science.org/doi/10.1126/sciadv.aay2631

Kutz 相信机器科学家正在将该领域带到他所谓的“GoPro 物理学”的风口浪尖，研究人员只需将相机对准目标，就能得到一个抓住正在发生的事情本质的方程式。（目前的算法仍然需要人类提供一长串潜在相关变量，比如位置和角度。）

这就是 Lipson 最近一直在做的事情。在12 月的预印本中，他与合作学者描述道，他们首先训练了一个深度神经网络来接收视频的几帧，并预测接下来的几帧。然后，该团队减少了神经网络允许使用的变量数量，到其预测开始失败为止。

论文链接：

https://arxiv.org/abs/2112.10755

该算法能够计算出需要多少变量来模拟像钟摆那样的简单系统，或者像火舌那样没有明显的变量可供跟踪的复杂系统。

5（机器）科学的边缘

机器科学家不会取代深度神经网络，因为深度神经网络能够在混乱或极其复杂的系统中大放异彩。

然而，当涉及到围绕行星运行、流体晃动和细胞分裂时，机器科学家仅利用少量运算得出的简明方程式却十分准确，令人费解。诺贝尔奖获得者 Eugene Wigner 在他 1960 年的论文《自然科学中数学的不合理有效性（The Unreasonable Effectiveness of Mathematics in the Natural Sciences）》中将其称为“我们既不理解也不配得的美妙礼物” 。正如 Cranmer 所说，“你去看看任何物理考试方程式的小抄，上面都是极其简单的代数表达式，但这些小抄帮助太大了。”

Cranmer 及其同事推测，基础运算之所以如此出色，是因为它们代表了空间中的基本几何动作，这使得它们成为描述现实的自然语言。加法将对象向下移动到数轴。乘法将平坦区域变成 3D 体积。出于这个原因，他们怀疑，当我们在猜测方程式时，往简单了猜是永远有道理的。

不过，宇宙虽然有潜在的简单性，却并不能保证每次这么猜测都对。

Guimerà 和 Sales-Pardo 最初构建了他们在数学上严格的算法，因为 Eureqa 有时会为相似的输入找到截然不同的方程。然而，令他们沮丧的是，他们发现，即使是贝叶斯机器科学家有时也会为给定的数据集返回多个同样好的模型。

两人最近表明，原因在于数据本身。他们利用机器科学家探索了各种数据集，发现数据集分为两类：干净的和有噪声的。在干净的数据中，机器科学家总能找到生成数据的方程式。但超过一定的噪声阈值，就不可能找到了。换句话说，噪声数据可以很好地（或很差地）匹配任意数量的方程。因为研究人员已经证明了他们的算法总是能找到最好的方程，他们知道，如果算法失败了，那就没有任何人类或者机器能够成功。

“我们发现这是一个基本的限制，”吉梅拉说。“所以我们需要机器科学家。”

参考链接：

https://www.quantamagazine.org/machine-scientists-distill-the-laws-of-physics-from-raw-data-20220510/

https://www.icrea.cat/Web/ScientificStaff/roger-guimera-manrique-512

Marta Sales-Pardo (0000-0002-8140-6525)

Hod Lipson

https://www.science.org/doi/10.1126/science.1165893

https://laurezanna.github.io/

编辑：王菁

校对：林亦霖