前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Microbio.l | BacterA I:在没有先验知识的情况下对微生物代谢进行建模

Nat. Microbio.l | BacterA I:在没有先验知识的情况下对微生物代谢进行建模

作者头像
DrugAI
发布2023-09-19 14:35:33
2160
发布2023-09-19 14:35:33
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Paul A. Jensen团队的一篇利用强化学探索微生物知识的论文。训练人工智能(AI)系统进行自主实验可以大大提高微生物学的吞吐量;然而,很少有微生物有足够大的数据集来训练这样的系统。在本研究中,作者引入了一种名为BacterAI的自动化科学平台,它可以对微生物代谢进行建模,不需要任何先前知识。BacterAI通过将科学问题转化为与实验室机器人进行的简单游戏来进行学习。该方法将其发现总结为可以被人类科学家解释的逻辑规则。

微生物组革命已经确定了数千种值得科学研究的细菌物种。科学家们跟不上不断扩张的生命之树的步伐,大多数细菌物种仍未受到研究。人工智能和自动化可以通过用算法代替人类来挖掘科学文献和设计新实验来加速科学发现。未被研究的细菌物种将最受益于自动化研究,但具有讽刺意味的是,由于缺乏数据,难以部署自主代理来研究这些物种。最近,人工智能在一些长期被认为对机器来说过于复杂的游戏中超越了人类的表现。这些惊人的进展是由深度强化学习(RL)驱动的,RL是人工智能的一个分支,在这个分支中,代理通过尝试和错误来解决游戏。RL代理可以从一个空白状态开始学习,无需先前的策略知识甚至游戏规则的了解。简单地奖励代理获胜可以导致最佳策略,并击败人类世界冠军。

将生物学研究问题转化为游戏可以利用强化学习技术研究微生物。作者开发了一个强化学习代理(称为BacterAI),通过“玩”科学实验来解决组合性很大的研究问题。作者要求BacterAI代理学习哪些氨基酸的组合能够支持口腔细菌链球菌(Streptococcus gordonii)的生长。这个看似简单的问题背后隐藏着一个复杂的答案。有1,048,576种可能的20种蛋白质原性氨基酸的子集,BacterAI无法通过蛮力搜索每个组合来解决问题。相反,它必须选择最有信息量的实验,并训练一个计算模型来预测未经测试的组合的结果。

建立BacterAI模型

图 1

强化学习(RL)代理通过反复试错来学习,因此BacterAI需要自由地设计和执行自己的实验。在学习电脑游戏时,两个RL代理可以相互对战以积累经验。对于自动化生物学,BacterAI需要计划和执行物理实验。作者建立了一个实验室自动化流水线,用于执行BacterAI请求的生长测定实验(图1a)。BacterAI每天选择336个实验,但通过复制和对照扩展,每个实验的数量可达到1,152个,每个实验最多需要进行50个液体处理操作。一个定制的调度器接受BacterAI的实验设计,并生成11台实验室仪器和一个人工技术人员的操作指令,负责准备试剂和加载机器。所有数据处理和质量控制都是自动化的,无需人工干预。作者将生物学游戏分为两个阶段:数据收集阶段(第一阶段)和解释阶段(第二阶段)(图1b)。在第一阶段,BacterAI试图找到跨越“生长界面”的培养基 - 这个界面的定义是仅在一个成分上有区别,其他成分均无区别,但是仅靠这一个区别就将样品区分成有生长性的样品和无生长性的样品。BacterAI训练一个内部神经网络来预测细菌在所有2的20次方种培养基中的适应性。(适应性是相对于含有所有20个氨基酸的生长情况来衡量的。)在这个模型的指导下,BacterAI搜索未经测试的生长/无生长对,并每天请求336个实验的批次。培养基的搜索使用一个推演算法,并采用两种策略。第一种策略,利用策略,寻找在生长界面两侧最少成分改变的培养基。第二种搜索策略,探索策略,从含有所有20个氨基酸的培养基开始,随机删除成分,直到代理到达生长界面。无论是利用策略还是探索策略,都会在模型预测的生长界面处结束搜索,而探索策略会进入模型的不确定区域。每天早上,技术人员将前一天实验的最终生长测量结果上传给BacterAI。在重新训练其神经网络之后,BacterAI在模型中搜索未经测试的生长界面上的培养基。一个新的实验设计在一个小时内返回,以便机器人在下午组装实验,进行过夜孵育。学习循环将持续进行,直到神经网络能够在实验执行之前稳定地预测新实验的结果。

图 2

BacterAI学习了一种口腔微生物的氨基酸辅助需求特性

BacterAI在测试中使用了一种被称为S. gordonii的细菌,它是大多数人口的口腔微生物群落中存在的一种共生物种。BacterAI在开始游戏时对S. gordonii没有任何先验信息。它不知道这20个输入是氨基酸,甚至不知道测量输出是生长。关于输入和输出之间的关系,一切都是通过试错学习得到的。在第一天,代理的神经网络未经训练,并且代理请求了336个随机选择的实验。这些实验的结果与代理的预测没有相关性(图2)。第一天之后,由BacterAI请求的实验形成了一个双峰分布(图2a)。当代理采取利用策略规划实验时,所选培养基的氨基酸数量较少;而在探索策略下,所选培养基的氨基酸数量较多。随着代理学习到生长界面的位置,氨基酸的数量发生了变化。当BacterAI过度预测生长时,通过在新数据上对模型进行重新训练,预测的生长界面向更多氨基酸的实验移动。对生长的低估鼓励代理在下一轮中去除更多成分。这些策略的变化并不是预先编程到BacterAI中的,而是在展开搜索过程中更新模型的结果。BacterAI并没有按照设定的方式来分配实验。代理在寻找有信息量的实验时,并没有反映出在给定氨基酸数量下可能的实验分布。BacterAI选择的实验最终分布取决于所研究的细菌的营养缺陷特性,当研究不同的菌株或物种时,这种分布可能会发生变化。BacterAI仅需9天和3,024个实验,就能够使其神经网络对生长/不生长的预测准确度超过90%(图2b)。在获得足够的实验数据后,代理切换到第二阶段:将其发现结果传达给人类科学家。BacterAI的内部神经网络是一个黑盒模型,仅用于规划实验,并不适合直接由人类解释。相反,第二个“解释”代理使用遗传算法构建逻辑规则,这些规则定义了支持生长的氨基酸组合(图1b,绿色)。构建逻辑规则是一个组合优化问题,作者的解释代理使用遗传算法来找到与实验数据匹配的规则。代理通过正则化来强制实施简洁性,对添加逻辑子句但仅在准确性上有轻微提高的过于复杂的规则进行惩罚。

BacterAI注意到其逻辑规则在第13天获得的新数据未改变第12天产生的规则时已经稳定下来。代理终止了游戏,并报告了对于S. gordonii的最终规则:Arg和Leu和Phe和Ser和Tyr和Val和(Gln或Glu)。该规则在用于训练的实验数据上的交叉验证准确率为88.6%,真正阳性/生长率(TPR)为0.906,真正阴性/不生长率(TNR)为0.869。正如预期的那样,逻辑规则的准确性低于BacterAI使用的神经网络的准确性(p < 5 × 10^−8,正态比例检验,单侧)。逻辑规则应该保留用于解释,而更准确的神经网络可以用于预测未经测试的环境中的生长情况。

学习生长规则需要一个具有足够的生长和不生长结果的平衡训练集。BacterAI通过选择沿着生长边界的实验来实现平衡,而对于S. gordonii来说,这是一个困难的任务。代理的最终神经网络预测,在所有的氨基酸组合中,只有1.24%能够支持S. gordonii的生长;然而,在BacterAI选择的介质中,S. gordonii的生长率达到了33%。如果没有BacterAI,很难随机选择包含足够中间条件的训练数据来训练一个预测模型。平衡的数据也对于验证BacterAI的生长规则是必需的。作者随机选择了1,120个之前BacterAI未请求的实验。在这些实验中,S. gordonii的生长规则对98.5%的实验是正确的(TPR = 0.706,TNR = 0.989),但是大量的真负样本(1,091)和较高的TNR使得规则的准确性被夸大了。为了获得更加平衡的测试集,作者使用BacterAI的神经网络选择了1,000个实验,其中有500个预测为生长和500个预测为不生长。在这些数据上,规则的准确率为83.3%(TPR = 0.678,TNR = 0.988),这更接近训练数据上的交叉验证准确率(88.6%)。

结论

BacterAI的游戏化和白板学习的组合为自动化生物学提供了一种可推广的方法。作者使用BacterAI来学习氨基酸和其他营养物质的生长规则,但是相同的算法可以学习任何输入/输出关系。代理的实验搜索仅由数值奖励信号驱动,代理可以自由选择它认为可以最大化奖励的任何输入组合。通过仅基于收集到的数据做决策,BacterAI避免了在实验计划时的人为偏见和先入之见。然而,这种自由要求一个能够处理组合复杂性和每天数万次液体处理操作的自动化平台。BacterAI还依赖于可以在体外在定义的培养基中培养的细菌。在体外培养的口腔细菌的转录组谱与体内数据相似,但实验室的生长测定无法复制口腔微环境的每个特征。BacterAI的方法也可以应用于细菌群落,前提是可以测量个体菌株的生长。

参考资料

Dama, A.C., Kim, K.S., Leyva, D.M. et al. BacterAI maps microbial metabolism without prior knowledge. Nat Microbiol 8, 1018–1025 (2023).

https://doi.org/10.1038/s41564-023-01376-0

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-16 20:43,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档