前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 借助机器学习设计和筛选合成细胞中新兴蛋白质功能

Nat. Commun. | 借助机器学习设计和筛选合成细胞中新兴蛋白质功能

作者头像
DrugAI
发布2024-04-12 15:05:23
1400
发布2024-04-12 15:05:23
举报
文章被收录于专栏:DrugAI

今天为大家介绍的是来自Petra Schwille团队的一篇论文。最近,机器学习(ML)的应用为计算蛋白质设计领域带来了惊人的进步,使得针对工业和生物医药应用的蛋白质定向工程设计成为可能。然而,为细胞核心相关的新兴功能设计蛋白质,比如能够在时空上自组织并因此构建细胞空间的能力,仍然极具挑战。虽然在生成方面,条件生成模型和多状态设计正在兴起,但对于新兴功能而言,无论是计算上还是实验上,都缺乏专门为蛋白质设计项目所需的筛选方法。在这里作者展示了如何为机器学习生成的蛋白质变体实现这种筛选,这些蛋白质变体能在细胞内形成时空模式。对于计算筛选,作者采用了一种基于结构的分而治之方法来找到最有希望的候选者,而对于随后的体外筛选,作者使用了由自下而上的合成生物学建立的合成细胞模拟体。

设计人造蛋白以执行特定的功能性任务是合成生物学的终极目标之一。在过去两年中,基于机器学习(ML)的生成模型在蛋白质设计和工程领域取得了重大突破。这些方法在生成具有独立功能性的蛋白质方面取得了巨大进步,即这种功能性仅依赖于蛋白质本身。例如,催化活性等。然而,具有新兴或更高阶功能的蛋白质的设计,即当嵌入特定生物系统中时可能只能间接观察到的复杂功能性,如生物模式形成或膜变形,仍处于初级阶段。涉及此类功能的蛋白质通常表现出类似开关的构象状态和与其他蛋白质、脂质或核苷酸的精细调节的协同作用,这在计算设计和预测方面仍然是个挑战。

在这里作者展示了一个如何通过在计算机模拟(在硅中)和实验室(体外)筛选的有效结合来筛选机器学习生成的蛋白质以实现新兴功能的原理证明。具体而言,作者开发了一套计算和实验相结合的流程,来筛选机器学习生成的针对生物模式形成的大肠杆菌MinDE系统的变体。在大肠杆菌中,MinD和MinE两种蛋白质通过ATP驱动的反应-扩散动力学参与,造成膜上蛋白质在细胞两极之间的振荡,从而在细胞中部形成分裂环,决定分裂位置。由于这些振荡能在体外的封闭脂质隔室内和脂质膜上重构,并且依赖于蛋白质、脂质和ATP之间的复杂相互作用,MinDE系统成为了一个广泛使用的具有高阶功能的生物系统模型。因此,它是一个理想的测试系统,用于开发一个针对新兴功能的筛选流程的原理证明。由于完全新生成具有新兴功能的蛋白质的条件模型还处于初级阶段,大部分还未经过实验验证,所以作者这里关注的是开发一个筛选流程。作者使用了一个已建立的基于进化的机器学习模型,MSA-VAE,来生成MinE蛋白的变体。这种方法生成了一系列功能性预期在变体之间变化的多样化蛋白质,因此为作者的筛选方法提供了一个理想的测试集。接着,作者描述并验证了一种既高效又能在计算和实验上评估这些变体的筛选过程。对于计算筛选,作者使用了一种分而治之的方法来评估变体实现高阶功能的可能性。由于MinDE系统已被深入研究,因此我们知道MinE的某些特定子功能是实现功能性出现所必需的。作者预测并评分了这些功能,即二聚化、膜结合和与MinD形成蛋白质复合体,这些非常规的组合能够产生我们想要的新兴功能:模式形成。重要的是,作者展示了这种“分而治之”的方法优于基于序列相似性或HMM轮廓的传统功能估计方法。虽然作者在这里为MinDE系统开发了一种专门的筛选方法,但根据对复杂系统和蛋白质行为的理论或实验知识,将来很容易将这种方法适应于其他高阶蛋白质功能。对于细胞水平时空模式的实验筛选,作者使用了由自下而上的合成生物学使用的基于脂滴的合成细胞模型。这些系统提供了一个高度可定制、高度可控的环境,特别适合使用基于光学显微技术来表征蛋白质,因此将来很容易适用于其他新兴蛋白质功能。此外,作者展示了无细胞蛋白质表达系统,这已成为合成生物学中的一项关键技术,因为它们可以快速简便地提供各种肽/蛋白质库以用于原型制作,从而显著加快了实验筛选过程。

图 1

重要的是作者展示了在计算模拟和实验室筛选流程中表现最佳的变体,可以完全功能性地替代大肠杆菌中的野生型MinE基因。这显示了分而治之的计算模拟和基于合成细胞的实验室筛选在设计具有复杂新兴功能的蛋白质方面的巨大潜力。作者提出,这种类似的流程,遵循结合计算模拟、实验室和活体筛选方法的途径(图1),将打开蛋白质设计的下一个层次的大门,在这里,计算设计和实验筛选的结合将使得工程化细胞功能成为可能。

生成模型

图 2

作者使用了基于多序列比对的变分自编码器(MSA-VAE)来生成MinE变体,这种方法在先前研究人员的工作中被使用过(图2a)。选择这种架构是因为它是少数几个经过实验验证并且被证明有很高成功率的方法之一。SA-VAE生成了一系列功能预期不同的MinE类蛋白质,因此为筛选流程的开发提供了理想的测试集。作者用一个修改过的ELBO损失函数训练了MSA-VAE,并评估了单个和成对的氨基酸频率分布的性能。这一度量的高相关性表明,模型在生成序列时考虑了进化约束。通过选定的一组超参数,作者通过将正态分布的随机抽样通过解码器,并使用每个MSA位置上的最大值来确定氨基酸,生成了4000个变体。如图2b所示,生成的变体之间的序列保守性与自然发生的变体中的序列保守性高度相似,表明该模型生成了合理的序列,考虑了进化约束。

计算机筛选

作者通过首先在计算机上筛选,将候选蛋白质从4000个减少到了48个,以便进行后续的实验室体外分析。为了确保这个子集的足够多样性,作者最初基于序列同一性对蛋白质进行了筛选。首先排除了所有与野生型序列同一性超过60%的蛋白质。其次剩余的生成变体根据序列同一性进行了聚类。接着随机选取每个聚类中的一个序列进行进一步分析。结果得到了167个剩余序列,以在计算模拟管道中进行评估。在这里,作者将新兴的或更高阶的蛋白质功能定义为只能间接测量的蛋白质行为。当具有特定、更容易测量的子功能的蛋白质或蛋白质模块相互作用形成一个显示高阶行为的系统时,就会出现这样的复杂功能,这种行为超出了个别功能的总和。由于这种方法的独特性和相应数据的稀缺性,定性和定量预测新兴功能仍然超出了机器学习的范畴。因此,为了计算筛选蛋白质变体显示新兴行为的潜力,作者假设综合筛选必要的子功能可以间接衡量更高阶功能。作者称之为“分而治之”的方法。在MinE的案例中,其更高阶的功能已知是由三个子功能组成的:(i)膜结合,(ii)形成激活MinD的ATP酶活性的MinDE复合物,和(iii)同源二聚体化。为了评估生成变体的预期功能,作者首先使用AlphaFold2 Multimer预测了它们的结构,然后开发了一个计算模拟管道来从结构中估算这三个子功能。与MinD的相互作用和同源二聚体化是基于AlphaFold2 Multimer输出的预测对齐误差(PAE)评估的。膜结合能力是通过计算N端区域的疏水性来估算的。由于最终想要在大肠杆菌细胞中测试这些蛋白质,作者还预测了蛋白质在大肠杆菌中的溶解性作为第四个得分。所有四个得分都被标准化并求和,得到了一个大致正态分布的最终功能得分。然后根据这个得分对这167个多样化的变体进行排序,并通过视觉验证了排名。如图2c所示,低分的蛋白质倾向于预测缺乏与MinD适当的相互作用界面,并且具有无序的以及非常长或非常短的N端区域,这暗示了MinD的ATP酶激活和膜结合可能受损。高分的蛋白质倾向于与野生型非常相似。然后作者选择了评分最高和最低的24个序列进行双盲的实验筛选,以验证计算模拟评分方法。

体外筛选

新设计蛋白质的实验筛选的第一步通常是在大肠杆菌细胞中表达目标蛋白。然而,由于蛋白质的溶解性、细胞毒性等问题,这种方法在实验优化方面带来了许多困难。为了加速筛选流程并使其更具普遍适用性,作者使用了一种体外无细胞蛋白质合成系统,在这个系统中,目标蛋白通常可以在包含转录-翻译因子和编码目标蛋白的DNA/mRNA模板的混合物孵化1小时内表达出来。转录-翻译因子通常可以从实验室自制的细胞裂解液或商业可购买的无细胞蛋白质合成试剂盒中获得。这种无细胞表达系统有巨大的潜力在各种实验设置中进一步使用。作者针对在大肠杆菌中的体内功能设计了蛋白质,因此选择了基于大肠杆菌的无细胞合成平台,称为PURE系统。先前已经证明PURE系统能够有效地合成功能性Min蛋白。作者对48个MinE变体,命名为synMinEv1-48,进行了体外筛选。首先,所有48个synMinE变体都使用PURE系统合成,其中超过80%(40个变体)的synMinE蛋白在可检测水平上被表达。随后,每个表达的变体被封装在由POPC/PG混合物组成的脂质滴中,与纯化的MinD和ATP作为辅因子一起提供所需的脂质相互作用伙伴和几何约束以实现振荡。通过激光扫描显微镜检查Min波后,总共发现14个能在脂质膜上产生时空模式的阳性变体,显示出典型的Min波纹图案(行波和极-极振荡),以及典型的振荡周期(1-2分钟),就像之前报道的在脂质滴中一样。其他34个变体在Min波出现的通常时间尺度内(5-15分钟)没有显示出任何异质性定位。作者发现这些阳性变体中有10个来自于在计算模拟中评分较高的候选者,而4个来自于评分较低的候选者。

体内验证

图 3

为了进一步研究这些自下而上构建的体外系统是否真正能够在活体内筛选出生理功能,作者接下来评估了这14个阳性变体是否也能在大肠杆菌细胞中引起Min振荡。这14个阳性的synMinE变体通过将编码相应synMinE变体和带有GFP标记的MinD的质粒转化到缺乏minDE基因的大肠杆菌株(HL1)中,如之前的研究所示。在这个设置中,有三种可能的表型。首先,正常表型,其中MinD和MinE都是功能性的。其次,minicell表型,观察到当Min蛋白在分裂环位置设置中功能失常时,即分裂环没有位于细胞中央而是在随机位置。这导致一定数量的细胞(在ΔminDE对照中占总体的29%与正常表型的2.1%)变成非染色体的微型球形细胞。第三,丝状表型,当Min蛋白在分裂环组装中功能失常时观察到,其中MinD占据了整个内膜区域,完全阻止了分裂环的形成。惊人的是,作者发现10个在计算模拟中评分较高的synMinE变体中有7个在细胞内引发了Min振荡,而低评分变体中只有一个显示振荡。这表明在活体内Min波振荡的基本要求可能比在体外更为严格,可能是因为蛋白质在更小的显微空间中受到限制,以及其他细胞分子,如蛋白质、DNA和RNA,可能引起与Min蛋白的非特异性相互作用。此外,作者确认在体外评分为佳但在体外筛选中为负的前5个变体在活体内都没有诱发振荡,显示出体外筛选成功地过滤掉了非功能性变体。此外,细胞形态的分析显示,大多数引发波动的synMinE变体,特别是所有评分较低的变体,都引起了minicell或丝状表型,这是由于分裂环组装或定位的功能失常。最后,作者发现一个变体,synMinEv25,完全恢复了正常细胞表型以及Min振荡,据作者表示,这是通过生成模型在活体有机体中首次成功替代天然基因的人造同源物的例子。引人注目的是,synMinEv25在体外波动发生得分中已经超过了所有其他变体,同时在改进的功能得分中被评为最佳候选者,证实了体外得分以及计算模拟得分可以合理估计新兴蛋白质功能,这将显著提高未来研究中类似流程下新兴功能实验验证的效率。

编译 | 曾全晨

审稿 | 王建民

参考资料

Kohyama, S., Frohn, B. P., Babl, L., & Schwille, P. (2024). Machine learning-aided design and screening of an emergent protein function in synthetic cells. Nature Communications, 15(1), 2010.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档