前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Nature】万字综述:人工智能如何促进科学发现

【Nature】万字综述:人工智能如何促进科学发现

作者头像
Chris生命科学小站
发布2023-08-29 19:52:13
5260
发布2023-08-29 19:52:13
举报

摘要

人工智能(AI)正日益融入科学发现中,以增强和加速研究,帮助科学家生成假设、设计实验、收集和解释大量数据集,并获得可能无法仅通过传统科学方法获得的洞见。我们审查了过去十年的突破,其中包括自监督学习,它允许模型在大量未标记的数据上进行训练,以及几何深度学习,它利用有关科学数据结构的知识来提高模型的准确性和效率。生成性AI方法可以通过分析多样化的数据形式(包括图像和序列)来创建设计,例如小分子药物和蛋白质。我们讨论了这些方法如何在整个科学过程中帮助科学家,以及尽管有这样的进展,仍然存在的核心问题。AI工具的开发者和用户都需要更好地了解何时需要改进这些方法,以及由于数据质量和管理不佳而带来的挑战。这些问题贯穿于科学学科,并需要开发可以促进科学理解或自主获取的基础算法方法,使它们成为AI创新的关键关注领域。

形成科学洞见和理论的基础是通过如何收集、转化和理解数据来奠定的。21世纪初的深度学习的兴起显著扩展了这些科学发现过程的范围和抱负。人工智能(AI)越来越多地用于各个科学学科,以整合庞大的数据集、精炼测量、指导实验、探索与数据相容的理论空间,并为自主发现提供可操作和可靠的模型,与科学工作流程相结合。

数据收集和分析是科学理解和发现的基础,这是科学的两个核心目标,定量方法和新兴技术,从显微镜等物理仪器到自举等研究技术,长期以来一直被用来实现这些目标。20世纪50年代数字化的引入为科学研究中计算机的一般使用铺平了道路。自2010年代以来,数据科学的兴起使AI能够通过从大型数据集中识别科学相关的模式来提供有价值的指导。

尽管科学实践和程序在科学研究的各个阶段有所不同,但AI算法的开发贯穿于传统上孤立的学科(图1)。这样的算法可以增强科学研究的设计和执行。通过优化参数和功能,自动化收集、可视化和处理数据的程序,探索广阔的候选假设空间以形成理论,以及生成假设并估计其不确定性以建议相关实验,它们正在成为研究人员不可或缺的工具。

AI方法的能力自2010年代初以来已大幅增加,这得益于大型数据集的可用性,借助于快速且大规模并行的计算和存储硬件(图形处理单元和超级计算机),并结合了新算法。后者包括深度表示学习,特别是能够识别能同时解决许多潜在科学问题的基本紧凑特征的多层神经网络。其中,几何深度学习在整合科学知识方面被证明是有帮助的,比如以物理关系、先验分布、约束以及分子中原子的几何形状等复杂描述符的紧凑数学陈述形式呈现。自监督学习使神经网络能够在有标签或无标签的数据上进行训练,然后将学到的表示转移到具有少量标签示例的不同领域,例如,通过预先训练大型基础模型并使其适应解决不同领域的多样任务。此外,生成模型可以估计复杂系统的基础数据分布并支持新设计。与AI的其他用途不同,强化学习方法可以通过探索许多可能的场景并根据如从所考虑的实验中预期的信息收益等指标为不同的行动分配奖励来找到最佳策略。

在AI驱动的科学发现中,可以使用适当的归纳偏见将科学知识纳入AI模型,这些假设以紧凑的数学陈述形式表示结构、对称性、约束和先验知识。然而,应用这些定律可能导致对人类来说太复杂而无法解决的方程,即使使用传统的数值方法。一种新兴方法是通过包括有关基本方程的信息,如物理定律或蛋白质折叠中的分子结构和结合原则,将科学知识纳入AI模型。这样的归纳偏见可以通过减少实现相同准确性水平所需的训练示例数量并将分析扩展到广阔的未探索的科学假设空间来增强AI模型。

使用AI进行科学创新和发现与人类努力的其他领域使用AI相比呈现出独特的挑战。其中最大的挑战之一是科学问题中假设空间的广阔性,使得系统化探索不可行。例如,在生物化学中,存在估计有1060个类似药物的分子可以探索。AI系统有潜力彻底改变科学工作流程,通过加速过程并提供近乎实验精度的预测。然而,为AI模型获取可靠标注的数据集存在挑战,这可能涉及耗时且资源密集的实验和模拟。尽管存在这些挑战,AI系统可以实现高效、智能和高度自主的实验设计和数据收集,AI系统可以在人类监督下评估、评估和采取措施。这样的能力促进了不断互动的人工智能代理在动态环境中的发展,并可以例如实时做出决策以导航平流层气球。AI系统可以在解释科学数据集和从科学文献中提取关系和知识方面发挥宝贵作用。最近的研究表明,无监督的语言AI模型有潜力捕捉复杂的科学概念,例如周期表,并在它们被发现之前预测功能材料的应用,表明关于未来发现的潜在知识可能植根于过去的出版物中。

最近的进展,包括成功解开50年来的蛋白质折叠问题和使用数百万颗粒的AI驱动的分子系统模拟,展示了AI解决具有挑战性科学问题的潜力。然而,发现的卓越承诺伴随着“AI用于科学”(AI4Science)这一新兴领域的重大挑战。与任何新技术一样,AI4Science的成功取决于我们将其整合到日常实践中,并了解其潜力和局限性的能力。阻碍AI在科学发现中广泛采用的障碍包括与发现过程的每个阶段特定的内部和外部因素,以及关于方法、理论、软件和硬件的效用以及潜在滥用的担忧。我们探讨了AI4Science的发展,并解决了其中的关键问题,包括科学的实施、传统的怀疑和实施挑战。

用于科学研究的AI辅助数据收集和整理

由实验平台收集的数据集的不断增加的规模和复杂性导致了科学研究对实时处理和高性能计算的日益依赖,以便有选择地存储和分析以高速率生成的数据。

数据选择

典型的粒子碰撞实验每秒生成超过100太字节的数据。这样的科学实验正在推动现有数据传输和存储技术的极限。在这些物理实验中,超过99.99%的原始仪器数据代表了必须实时检测并丢弃以管理数据速率的背景事件。为了识别未来科学探究的罕见事件,深度学习方法用寻找异常信号来检测意外或罕见现象的算法取代了预编程的硬件事件触发器,这些现象可能在压缩过程中被忽略。可以使用深度自编码器(盒子1)生成地建模背景过程。自动编码器返回较高的损失值(异常分数)用于先前未见过的信号(罕见事件)脱离背景分布。与有监督的异常检测不同,无监督的异常检测不需要注释,已在物理、神经科学、地球科学、海洋学和天文学中广泛使用。

数据注释

训练有监督的模型需要带有注释标签的数据集,这些标签提供有监督的信息来指导模型训练,并从输入估计函数或目标变量的条件分布。伪标签和标签传播是费力的数据标注的诱人替代方案,允许仅基于一小部分准确注释的大量未标记数据集的自动注释。在生物学中,分配功能和结构标签给新表征分子的技术对于有监督模型的下游训练至关重要,因为实验生成标签困难。例如,尽管下一代测序技术的激增,但不到1%的测序蛋白质用生物功能进行了注释。数据标注的另一种策略是利用人工标注的数据训练替代模型来注释未标记的样本,并使用这些预测的伪标签来监督下游预测模型。相反,标签传播通过基于特征嵌入(盒子1)构建的相似性图来将标签扩散到未标记的样本。除了自动标签外,主动学习(盒子1)可以确定人类标注的最有信息的数据点或要执行的最有信息的实验。这种方法允许使用较少的专家提供的标签来训练模型。数据注释的另一种策略是制定利用领域知识的标记规则。

数据生成

随着训练数据集的质量、多样性和规模的增加,深度学习的性能也在改善。创建更好模型的有效方法是通过自动数据增强和深度生成模型生成额外的合成数据点来增加训练数据集。除了手动设计此类数据增强(盒子1)外,强化学习方法还可以发现用于自动数据增强的灵活和与下游模型无关的策略。深度生成模型,包括变分自编码器、生成对抗网络、规范化流程和扩散模型,学习了底层数据分布,并可以从优化的分布中采样训练点。生成对抗网络(盒子1)已被证明对科学图像有益,因为它们在许多领域合成逼真的图像,范围从粒子碰撞事件、病理切片、胸部X 磁共振对比、三维(3D)材料微结构、蛋白质功能到遗传序列。生成建模的新兴技术是概率编程,其中数据生成模型被表达为计算机程序。

数据精细化

精确仪器,如超高分辨率激光器和非侵入式显微系统,使得直接测量物理量或通过计算真实世界物体进行间接测量成为可能,从而产生高度准确的结果。AI技术显著提高了测量分辨率,减少了噪声,并消除了在测量圆度时的错误,从而在不同地点实现了高精度的一致性。科学实验中AI应用的例子包括可视化时空区域,如黑洞,捕获物理粒子碰撞,提高活细胞图像的分辨率,以及在不同生物背景下更好地检测细胞类型。深度卷积方法,利用如光谱解卷积,灵活的稀疏性和生成能力等算法进展,可以将空间时间分辨率差的测量转化为高质量、超分辨和结构化的图像。在各种科学学科中,去噪是一项重要的AI任务,涉及区分相关信号与噪声,并学习去除噪声。去噪自编码器可以将高维输入数据投影到更紧凑的基本特征表示中。这些自编码器减小了未损坏的输入数据点与其从其噪声损坏版本的压缩表示重构之间的差异。其他形式的分布学习自编码器,如变分自编码器,也常被使用。变分自编码器通过潜在自编码学习随机表示,保留了基本数据特征,同时忽略了可能代表随机噪声的非基本变化源。例如,在单细胞基因组学中,自编码器优化了基因激活的基于计数的向量,这些向量跨越数百万个细胞,常用于提高蛋白质-RNA表达分析。

学习科学数据中有意义表征‍‍‍

深度学习可以在各种抽象层次上提取科学数据的有意义表征,并优化它们来指导研究,通常是通过端到端学习(见框1)。高质量的表示应在保持简单和易访问的同时,尽可能多地保留有关数据的信息。在科学上有意义的表示是紧凑的,有区分性的,能够解开变化的潜在因素,并编码能够在众多任务间泛化的潜在机制。在这里,我们介绍了三个符合这些要求的新兴策略:几何先验,自监督学习和语言建模。

几何先验

将几何先验整合到学习的表示中已证明是有效的,因为几何和结构在科学领域中起着核心作用。对称性是几何学中广泛研究的概念。它可以用不变性和等变性(见框1)来描述,以表示数学函数(例如神经特征编码器)在一组变换(例如刚体动力学中的SE(3)群)下的行为。重要的结构属性,如分子系统的二级结构内容、溶剂可及性、残基紧凑性和氢键模式,对空间方向是不变的。在科学图像分析中,图像中的对象在图像中平移时不会改变,这意味着图像分割掩模在输入像素平移时等价地变化,因为它们是平移等变的。将对称性纳入模型可以通过增加训练样本来提高使用有限标签数据集的AI效果,如3D RNA和蛋白质结构,并可以改善对于模型训练期间未遇到的显著不同输入的外推预测。

几何深度学习

图神经网络已经成为深度学习在具有潜在几何和关系结构的数据集上的主要方法。从更广泛的意义上讲,几何深度学习涉及发现关系模式,并通过神经信息传递算法,赋予神经网络模型归纳偏见,以明确利用以图和变换组形式编码的局部信息。根据科学问题的不同,开发了各种图表示来捕获复杂系统。定向边可以促进玻璃体系的物理建模,多个节点相连的超图用于染色质结构理解,多模态图上训练的模型用于创建基因组学的预测模型,稀疏、不规则和高关联的图已应用于大型强子对撞机物理任务的一些问题,包括从探测器读出重建粒子和区分物理信号与背景过程。

自监督学习

当仅有少量带标签样本可用于模型训练或者为特定任务标记数据代价过高时,监督学习可能是不足够的。在这种情况下,利用带标签和无标签的数据可以提高模型性能和学习能力。自监督学习是一种使模型能够在不依赖显式标签的情况下学习数据集的一般特征的技术。有效的自监督策略包括预测图像的被遮挡区域,预测视频的过去或未来帧,以及使用对比学习教模型区分相似和不相似的数据点。自监督学习可以成为学习大型无标签数据集中可转移特征的关键预处理步骤,然后再对小型带标签数据集进行微调以执行下游任务。这样的预训练模型,对科学领域有广泛的理解,是可以适应各种任务的通用预测器,从而提高标签效率并超过纯监督方法。

语言建模

掩码语言建模是自监督学习自然语言和生物序列的流行方法。原子或氨基酸(代币)排列成结构以产生分子和生物功能,与字母组成单词和句子以定义文档意义类似。随着自然语言和生物序列处理的不断演化,它们相互促进对方的发展。在训练过程中,目标是预测序列中的下一个代币,而在基于掩码的训练中,自监督任务是使用双向序列上下文恢复序列中的掩码代币。蛋白质语言模型可以编码氨基酸序列以捕获结构和功能属性,并评估病毒变种的进化适应性。这样的表示在从序列设计到结构预测的各种任务中都是可转移的。在处理生化序列时,化学语言模型有助于有效探索广阔的化学空间。它们已被用于预测属性、规划多步合成和探索化学反应空间。

变换器架构

变换器(见框1)是可以通过灵活建模任意代币对之间的交互来处理代币序列的神经架构模型,超越了先前使用循环神经网络进行顺序建模的努力。变换器在自然语言处理中占主导地位,并已成功应用于一系列问题,包括地震信号检测、DNA和蛋白质序列建模、模拟序列变化对生物功能的影响以及符号回归。尽管变换器统一了图神经网络和语言模型,但变换器的运行时间和内存占用可能会随着序列长度的增加呈二次增长,从而导致效率挑战,这些挑战可以通过长距离建模和线性化注意机制来解决。因此,无监督或自监督的生成预训练变换器,随后进行参数高效的微调,得到了广泛使用。

神经算子

标准神经网络模型可能不适合科学应用,因为它们假设固定的数据离散化。这种方法不适合许多分辨率和网格各异的科学数据集。此外,数据通常是从连续域中的潜在物理现象(例如地震活动或流体流动)中采样的。神经算子通过学习函数空间之间的映射来学习与离散化不变的表示。神经算子保证是离散化不变的,这意味着它们可以在任何输入的离散化上工作,并在网格细化时收敛到极限。一旦神经算子被训练,它们就可以在任何分辨率下评估,而不需要重新训练。相反,当部署期间的数据分辨率与模型训练时发生变化时,标准神经网络的性能可能会下降。‍‍‍

基于AI的科学假设生成

可测试的假设是科学发现的核心。它们可以采取许多形式,从数学中的符号表达式到化学中的分子,再到生物学中的基因变体。构建有意义的假设可能是一个费力的过程,正如约翰内斯·开普勒(Johannes Kepler)所示,他花了四年时间分析恒星和行星数据,才得出了一个假设,从而导致了行星运动定律的发现。AI方法可以在这一过程的几个阶段提供帮助。它们可以通过从噪声观测中识别候选符号表达式来生成假设。它们可以帮助设计对象,例如与治疗靶点结合的分子或反驳数学猜想的反例,从而在实验室中进行实验评估。此外,AI系统可以学习假设的贝叶斯后验分布(见框1),并用其生成与科学数据和知识相容的假设。

科学假设的黑盒预测器

识别科学探究的有前途假设需要有效地检查许多候选项,并选择那些可以最大化下游模拟和实验产出的候选项。在药物发现中,高通量筛选可以评估数千到数百万种分子,算法可以优先考虑哪些分子进行实验研究。模型可以被训练以预测实验的效用,例如相关的分子属性或符合观察的符号公式。然而,对于许多分子,这些预测器的实验基础真实数据可能无法获得。因此,可以使用弱监督学习方法(见框1)来训练这些模型,其中使用噪声、有限或不精确的监督作为训练信号。这些可以作为人类专家注释、昂贵的计算机模拟计算或更高保真度实验的成本效益代理(见图3a)。

基于AI的方法通过高保真模拟训练,已经用来有效筛查大型分子库,例如1.6百万有机发光二极管材料候选物和11百亿合成子基配体候选物。在基因组学中,训练以从DNA序列预测基因表达值的转换器架构可以帮助优先选择基因变体。在粒子物理学中,识别质子中的本征粲夸克涉及筛查所有可能的结构,并对每个候选结构进行实验数据拟合。为了进一步提高这些过程的效率,可以将AI选定的候选物发送到中等或低通量的实验中,以使用实验反馈不断完善候选物。结果可以通过使用活跃学习和贝叶斯优化(见框1)反馈到AI模型中,使算法能够精细化预测并关注最有前途的候选物。

当假设涉及复杂对象,如分子时,AI方法已变得无价。例如,在蛋白质折叠方面,AlphaFold2可以从氨基酸序列准确预测蛋白质的3D原子坐标,即使对于那些与训练数据集中的蛋白质结构不同的蛋白质也是如此。这一突破促进了各种AI驱动的蛋白质折叠方法的发展,例如RoseTTAFold。除了正向问题外,AI方法越来越多地用于逆问题,旨在了解产生一组观察结果的因果因素。逆问题,例如逆折叠或固定骨架设计,可以使用训练有素的黑盒预测器从蛋白质的骨架3D原子坐标预测氨基酸序列。然而,这样的黑盒AI预测器需要大量训练数据集,并且尽管减少了对先验科学知识的依赖性,但解释性有限。

导航组合假设空间

尽管所有与数据兼容的假设的采样是令人生畏的,但可管理的目标是寻找一个好的假设,可以将其表述为优化问题。与依赖人工设计规则的传统方法不同,AI策略可用于估算每次搜索的奖励,并优先选择具有更高价值的搜索方向。一个由强化学习算法训练的代理通常用于学习策略。该代理学会在搜索空间中采取最大化奖励信号的动作,该信号可以定义为反映生成假设的质量或其他相关标准。

为了解决优化问题,可以使用进化算法解决符号回归任务,它们将随机符号法则生成为初始解集。在每一代中,对候选解施加轻微的变化。算法检查是否有任何修改产生了比先前解决方案更适合观察的符号法则,并保留下一代的最佳解。然而,强化学习方法越来越多地取代这一标准策略。强化学习使用神经网络通过从预定义的词汇表中添加数学符号并使用学到的策略来决定下一个要添加的符号来依次生成数学表达式。数学公式表示为解析树。学习到的策略将解析树作

在潜在空间中执行优化可以比原始假设空间中的机械方法更灵活地模拟潜在数据分布。然而,假设空间稀疏探索区域的外推预测可能很差。在许多科学学科中,假设空间可能远大于可以通过实验检查的范围。例如,估计大约有1060个分子,而即使最大的化学库也不到1010个分子12,159。因此,迫切需要找到有效搜索并确定这些大部分未探索区域中高质量候选解决方案的方法。解决这个问题的一种可能方法是降低假设空间的维数,但这可能会导致重要信息的丢失,并降低识别真正创新解决方案的可能性。相反,其他选择包括探索不同的模拟潜在数据分布的方法,包括开发技术来优先考虑假设空间的最有前途的区域,并使用来自相关领域的数据和知识做出明智的预测。

由人工智能驱动的实验和模拟

通过实验评估科学假设对科学发现至关重要。然而,实验室实验可能昂贵且不切实际。计算机模拟已成为一个有希望的替代方案,提供了更有效和灵活的实验可能性。虽然模拟依赖于手工参数和启发式方法来模仿现实世界的情景,与物理实验相比,它们需要在准确性和速度之间进行权衡,从而需要理解潜在机制。然而,随着深度学习的出现,通过识别和优化假设进行有效测试,以及赋予计算机模拟将观测与假设相联系的能力,正在解决这些挑战。

科学假设的有效评估

AI系统提供了实验设计和优化工具,可以增强传统的科学方法,减少所需的实验数量并节省资源。具体来说,AI系统可以协助实验测试的两个基本步骤:规划和引导。在传统方法中,这些步骤通常需要反复试验,这可能是低效的,昂贵的,甚至有时是致命的。AI规划为实验设计提供了一种系统方法,优化了它们的效率并探索了未知领域。与此同时,AI引导将实验过程引向高产量假设,允许系统从以前的观察中学习并调整实验的方向。这些AI方法可以是基于模型的,使用模拟和先前知识,或者是基于机器学习算法的无模型方法。

AI系统可以通过优化资源使用和减少不必要的调查来协助实验规划。与假设搜索不同,实验规划涉及科学实验设计的程序和步骤。一个例子是化学合成规划。合成规划涉及找到可以从现有化学品合成目标化合物的步骤序列。AI系统可以设计合成所需化合物的合成路线,减少人工干预的需要。活跃学习也已被用于材料发现和合成。活跃学习涉及反复与实验反馈互动并从中学习以精炼假设。材料合成是一个复杂和资源密集的过程,需要有效地探索高维参数空间。活跃学习使用不确定性估计来探索参数空间,并用尽可能少的步骤减少不确定性。

在正在进行的实验期间,决策往往必须实时适应。然而,当仅由人类经验和直觉驱动时,这个过程可能困难且容易出错。强化学习提供了一种替代方法,可以不断地对不断变化的环境做出反应,最大化实验的安全性和成功。例如,强化学习方法已被证明可用于托卡马克等离子体的磁控制,其中算法与托卡马克模拟器互动,以优化控制过程的策略(图)。在另一项研究中,强化学习代理使用实时反馈,如风速和太阳高度来控制平流层气球,并找到有利于导航的风流。在量子物理学中,实验设计需要动态调整,因为复杂实验的未来实现的最佳选择可能是反直觉的。强化学习方法可以通过反复设计实验并从中获取反馈来克服这个问题。例如,强化学习算法已被用于优化量子系统的测量和控制,从而提高了实验效率和准确性。

通过使用模拟从假设中推导可观测量

计算机模拟是一种从假设中推导可观测量的强大工具,使得能够评估那些不能直接测试的假设。然而,现有的模拟技术严重依赖于人类对所研究系统底层机制的理解和知识,这可能是次优和低效的。人工智能系统可以通过更好地拟合复杂系统的关键参数,解决支配复杂系统的微分方程,并在复杂系统中建模状态,从而提高计算机模拟的准确性和效率。

科学家通常通过创建涉及参数化形式的模型来研究复杂系统,这需要领域知识来确定参数的初始符号表达式。一个例子是分子力场,虽然可以解释,但在代表广泛功能方面的能力有限,并且需要强烈的归纳偏见或科学知识来生成。为了提高分子模拟的准确性,已经开发了一种基于人工智能的神经势能,该势能适合昂贵但准确的量子力学数据来取代传统的力场。此外,不确定性量化已被用于定位高维自由能表面上的能量障碍,从而提高分子动力学的效率。对于粗粒度的分子动力学,人工智能模型已被用于通过确定系统需要从学到的隐藏复杂结构中粗化的程度来降低大系统的计算成本。在量子物理学中,由于其灵活性和拟合数据的能力,神经网络已取代了手动估计的符号形式,用于参数化波函数或密度泛函。

微分方程对于在空间和时间中建模复杂系统的动态至关重要。与数值代数求解器相比,基于人工智能的神经求解器更无缝地整合数据和物理学。这些神经求解器通过将神经网络植入领域知识来结合物理学与深度学习的灵活性。人工智能方法已被应用于解决各个领域的微分方程,包括计算流体动力学,预测玻璃体系的结构,解决化学动力学问题和解决Eikonal方程来描述地震波的行进时间。在动态建模中,可以通过神经常微分方程来建模连续时间。神经网络可以使用物理学通知的损失来参数化Navier-Stokes方程在时空域内的解。然而,标准的卷积神经网络在建模解的细结构特性方面能力有限。这个问题可以通过学习使用神经网络模拟函数之间的映射的运算符来解决。此外,求解器必须能够适应不同的域和边界条件。这可以通过将神经微分方程与图神经网络结合来通过图划分离散化来实现。

统计建模是通过建模系统中状态的分布来为复杂系统提供完整定量描述的强大工具。由于其捕获高度复杂分布的能力,深度生成建模最近已经成为复杂系统模拟的有价值方法。一个著名的例子是基于正规化流的Boltzmann发生器。正规化流可以使用一系列可逆神经网络将任何复杂分布映射到先验分布(例如,简单的高斯分布)并返回。尽管计算昂贵(通常需要数百或数千个神经层),但正规化流提供了一个精确的密度函数,从而实现了采样和训练。与传统模拟不同,正规化流可以通过直接从先验分布采样并应用神经网络(具有固定的计算成本)来生成平衡状态。这增强了在晶格场和规范理论中的采样,并改进了否则可能由于模式混合而无法收敛的马尔科夫链蒙特卡洛方法。

重大挑战

为了利用科学数据,必须构建和使用模型,并结合仿真和人类专家知识。这样的整合为科学发现创造了机会。然而,为了进一步提高AI在科学各学科的影响,还需要在理论、方法、软件和硬件基础设施方面取得重大进展。跨学科合作对于实现通过AI推进科学的全面和实用的方法至关重要。

实际考虑

由于测量技术的局限性,科学数据集通常不能直接用于AI分析,因为它们产生不完整的数据集、有偏见或相互冲突的读出,以及由于隐私和安全问题而受到限制的可访问性。需要标准化和透明的格式来减轻数据处理的工作负担。模型卡和数据表是记录科学数据集和模型操作特性的努力的例子。此外,联邦学习和加密算法可用于防止将具有高商业价值的敏感数据发布到公共领域。利用开放的科学文献、自然语言处理和知识图技术可以促进文献挖掘,以支持材料发现、化学合成和治疗科学。

深度学习的使用对人机交互的AI驱动设计、发现和评估构成了复杂的挑战。为了自动化科学工作流程、优化大规模模拟代码和操作仪器,自主机器人控制可以利用预测并在高通量合成和测试线上进行实验,创建自驾实验室。在材料探索的早期应用中,生成模型表明可以识别具有所需属性和功能的数百万种可能材料,并评估其合成能力。例如,King等人结合逻辑AI和机器人技术自主生成关于酵母的功能基因组学假说,并使用实验室自动化实验测试假说。在化学合成中,AI优化候选合成路径,然后由机器人在预测的合成路径中引导化学反应。

AI系统的实际实施涉及复杂的软件和硬件工程,需要一系列相互依赖的步骤,从数据整理和处理到算法实现和用户及应用程序界面的设计。实施中的细微变化可能会导致性能的重大变化,并影响将AI模型整合到科学实践中的成功。因此,需要考虑数据和模型的标准化。由于模型训练的随机性、不同的模型参数和不断变化的训练数据集,AI方法可能会遭受可重复性问题的困扰,这些问题既依赖于数据,也依赖于任务。标准化基准和实验设计可以减轻这些问题。朝着改善可重复性的另一个方向是通过开源倡议发布开放模型、数据集和教育项目。

算法创新

为了促进科学理解或自主获取,需要算法创新来建立一个基础生态系统,从而选取整个科学过程中最合适的算法。

AI研究的前沿问题是超出分布的泛化问题。在特定范围内训练的神经网络可能会发现某些规律在底层分布发生变化的不同范围内并不适用(框1)。尽管许多科学定律并非普遍适用,但它们的适用性通常较广泛。与最先进的AI相比,人类大脑能更好、更快地推广到修改后的环境。有一种有趣的假设是,这是因为人们不仅构建了观察到的事物的统计模型,而且构建了因果模型,即由所有可能干预(例如,不同的初始状态、代理人的行动或不同的范围)索引的统计模型族。在AI中加入因果关系仍然是一个年轻的领域,其中还有很多工作要做。像自监督学习这样的技术对科学问题具有巨大潜力,因为它们可以利用大量的无标签数据,并将其知识转移给低数据范围。然而,当前的转移学习方案可能是特设的,缺乏理论指导,并容易受到底层分布变化的影响。虽然初步的尝试已经解决了这一挑战,但还需要更多的探索来系统地衡量各个领域之间的可转移性,并防止负面转移。此外,为了解决科学家关心的困难,必须在真实世界的情境下,例如药物设计中合理可实现的合成路径,开发和评估AI方法,并包括校准良好的不确定性估计器,以便在将其转移到实际实施之前评估模型的可靠性。

科学数据是多模态的,包括图像(如宇宙学中的黑洞图像)、自然语言(如科学文献)、时间序列(如材料的热黄变)、序列(如生物序列)、图形(如复杂系统)和结构(如3D蛋白质-配体构象)。例如,在高能物理中,射流是由夸克和胶子在高能量下产生的有序喷射粒子。识别其辐射图案中的次结构可以有助于寻找新物理学。射流的次结构可以由图像、序列、二叉树、通用图和张量集合来描述。尽管使用神经网络处理图像已经得到了广泛的研究,但仅处理粒子图像是不够的。同样,单独使用射流次结构的其他表示也无法提供复杂系统的整体和集成系统视图。虽然整合多模态观测仍然是一项挑战,但神经网络的模块化特性意味着不同的神经模块可以将不同的数据形式转换为通用向量表示。

科学知识,如分子中的旋转等变性、数学中的等式约束、生物学中的疾病机制和复杂系统中的多尺度结构,可以纳入AI模型。然而,哪些原则和知识最有助于实际实施仍然不清楚。由于AI模型需要大量数据来拟合,将科学知识纳入模型可以在数据集小或稀疏注释的情况下帮助学习。因此,研究必须建立将知识整合到AI模型中的原则方法,并理解领域知识和从测量数据中学习之间的权衡。

AI方法通常以黑箱方式操作,意味着用户无法完全解释已生成的输出是如何产生的,以及哪些输入在生成输出中起了关键作用。黑箱模型可能会降低用户对预测的信任,并在模型输出必须在实际实施之前了解的领域中具有有限的适用性,例如在人类太空探索和气候科学中的预测通知政策。尽管有大量的可解释性技术,透明的深度学习模型仍然难以捉摸。然而,人类大脑可以合成即使是不完美的、可以说服其他人的高层解释,这一事实使人们有希望,通过在类似的高抽象层次上建模现象,未来的AI模型将提供至少与人类大脑提供的解释一样有价值的解释。这也暗示,研究高层认知可能会激发未来的深度学习模型,将当前的深度学习能力和操纵可言说抽象、因果推理和超出分布推广的能力结合在一起。

科学研究和科学企业的道德和社会责任

总的来说,建立协作环境、涉及多学科团队、注重伦理和安全、并以前的成功为基础,是利用AI的科学研究和社会进步的关键要素。

结论

AI系统可以促进科学理解,实现对无法通过任何其他方式可视化或探测的过程和对象的研究,并通过从数据构建模型并将其与模拟和可扩展计算相结合来系统地激发灵感。为了实现这一潜力,必须通过负责任和深思熟虑地部署技术来解决使用AI带来的安全和安保问题。在科学研究中负责任地使用AI,我们需要衡量AI系统的不确定性、误差和效用水平。这一理解对于准确解释AI输出并确保我们不过分依赖可能存在缺陷的结果至关重要。随着AI系统的不断演化,优先考虑具有适当保障措施的可靠实施是最大限度地降低风险和最大限度地增加收益的关键。AI具有解锁以前难以触及的科学发现的潜力。

文章来源:https://doi.org/10.1038/s41586-023-06221-2

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-08-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Chris生命科学小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档