今天给大家介绍由哈佛大学和剑桥大学的研究人员联合发表在Nature Communications的一篇文章。由于对设计规则的理解有限,设计全新的生物回路组件仍然是一项具有挑战性的工作,支点开关(Toehold Switches)的设计也面临相似的问题。针对上述情况,作者提出了两种深度学习架构——STORM和NuSpeak,这二种架构使用了卷积过滤器,注意力图和电子诱变技术用于描述和优化支点。实验结果证明,即使在训练数据比较稀疏的情况下,通过迁移学习设计的支点传感器,仍然具有改进的性能。
1
介绍
合成生物学的发展改变了生物技术范式,尽管研究人员已经成功地从自然存在的生物回路组件中分离并改编模板,但单个生物回路的开发可能需要数周的筛选和微调。计算机工具可以帮助建模和重新设计核酸传感器(例如核糖开关),用于解决生物回路部件预测和设计复杂性。利用计算机筛选,可以将天然存在的和重新设计的合成组件集成到工程生物系统中。
支点开关(Toehold Switches)是一种特别通用的合成核糖调节剂,能够通过线性-线性杂交相互作用检测,并响应RNA分子的存在,尽管支点开关已成为合成生物学工具包中有效的组成部分,但由于可用的支点开关数量少以及缺乏实现最佳性能的有效设计规则,对开关设计的广泛理解受到了限制。研究人员开发的基于序列的计算工具能够在实验验证之前预测RNA的二级结构,但当将其应用于多状态阈值开关时,预测效果较差,并且耗时长。
为了改进支点开关的设计和预测,作者从更广泛的机器学习领域中汲取了灵感。作者构建了两个互补且正交的深度学习模型来揭示支点设计规则,并且与Angenent-Mari合作设计了,与人类基因组元素,RNA病毒和随机序列互补的支点数据集。此外,作者将这两个模型扩展到重新设计表现不佳的支点,从而创建了基于NLP,以核苷酸为中心的语言模型(NuSpeak)和基于CNN和序列的支点优化与重新设计模型(STORM),分别优化了病原体传感器和作为合成回路组件的支点。
2
实验方法和结果
良好和不良支点中过分表现的核苷酸
作者和Angenent-Mari共同设计了包含244,000个支点开关的数据集,包括病毒和人类基因组序列以及随机序列,其中91,534个开关在实验表征后符合定义明确的质量控制标准。如图c,d,作者进行了传统的生物信息学表达研究,发现高性能和低性能序列中,核苷酸组成不同。标志为了进一步了解序列编码部分的变化如何影响支点表现,作者对读框内氨基酸进行了更广泛的分析,读框内终止密码子在高性能序列的N末端发生的频率较低,较小的疏水性氨基酸(例如缬氨酸,丙氨酸和甘氨酸)在高性能序列的N端比在低效氨基酸序列中更常见。为了阐明良好支点和不良支点之间的任何宏观序列模式,作者利用CGR提供了一种信息丰富且无损的编码方案,并观察到表现良好的A富密码子的富集。
figure 2.c-f
生物物理特性不能预测Top Switches
GC含量对于ON和OFF状态稳定性的强度很重要,作者将性能最高的序列的GC含量分布与所有序列的GC含量分布进行了比较,结果表明,成功的开关可能具有20%至60%的可接受GC含量范围。此外,作者对表现最佳的序列中的MFE分布与所有序列的分布进行了评估,高性能序列的MFE分布在统计上比所有序列都高。尽管最上层序列在GC含量和MFE分布上均显示出统计学上的显着变化,但由于它们的可接受值范围广,这些属性缺乏足够的预测能力。
深度学习框架预测的可解释性
如图1.b所示,作者构建了一个以RNA序列作为输入的CNN,采用两个卷积层来识别输入序列中的合理基序和部分基序. 为了查看“黑匣子”内部,作者选择直接可视化训练后模型的权重和激活函数,将第一个卷积层“拆箱”,可视化模型认为重要的特征,方法是将从输入序列中学到的滤波器权重解释为序列标志(图2a)。为了了解卷积滤波器的趋势,作者对CNN进行了20次训练,并探索了滤波器组合中三聚体的频率(图2b)。当与均匀分布下的预期值进行比较时,“ CCC”三聚体的出现频率比预期高出近2.5倍,这表明该模型可以学习该基序以改善预测。此外,训练好模型将学会忽略实验节点中过度表现的序列(例如,AGA和GAG)。
同样,作者还构建了一种编码器/解码器体系结构来学习支点序列语言,其中每个k-mer被视为“单词”或“令牌”,每个支点序列是一个“句子”。编码器为输入语料库中每个唯一标记,学习有意义的,与上下文相关的表示形式,然后可以使用线性分类层进行扩展,以预测给定支点的好坏。当将表示向量映射回解码器扩充时,完整的LM可以在语言空间内生成任意长度的有意义序列。作者首先在计算机生成的400万个合成支点上训练了LM。为了确定LM是否已学会了支点序列的有意义表示,作者将一个支点序列的400维表示映射到具有UMAP41的降维流形上(图2c),并将其与加扰和混洗方法进行比较。作者表示,真正的支点序列和二维流形上的控件之间没有重叠,这表明LM捕获了一个支点序列中基序顺序的重要性。此外,作者使用其他支点数据集来训练序列分类器。图2d显示,分类器将表现良好的支点和劣质支点分为两类,分类概率接近0.5的序列会填充决策边界,预测性分别比使用混洗和加扰的支点分类器高约3.7倍和约6.2倍,说明了序列基序顺序对于区分支点性能至关重要,模型已学会了除了k-mer频率以外的更多信息。
Figure 1.b
Figure 2.a Figure 2.b
Figure 2.c, 2.d
核苷酸的位置重要性和模型注意力
为了了解支点序列中的变化如何影响模型预测,作者对2500个随机实验支点进行了诱变扫描。对于支点中的每个位置处的所有四个可能碱基对进行了突变,并计算了基于CNN模型的ON(图2e)和OFF(图2f)预测的标准偏差。在位置15、18和21处,效应大小的峰值反映了序列标志中的重要位置,表明该模型了解了核苷酸的位置重要性。同时,在每个位置用随机核苷酸对500个随机选择支点进行序列突变,然后反馈到LM中以计算分类概率(图2g),与先前的突变分析相呼应,位置26–30被证明对支点表现有最大的影响。为了确定模型的决策过程并进一步确定支点序列中的重要区域,作者首先对一组5000个随机取样的支点(图2h)计算了语言模型的自注意力。自注意图表明转换区的最后12个核苷酸,对分类决策影响最大。这些结果反映在由CNN模型计算的显着性图上,作者在其中评估了100个随机序列中每个位置对最大化ON值(图2i)和最小化OFF值(图2j)的重要性。在这里,通过对每个位置的核苷酸之间的梯度求和来计算出较高的显著性,表明该核苷酸在模型的ON或OFF预测过程中被认为更具影响力。为了了解序列显着性是否随ON或OFF预测的实验值变化,评估了高表现和低表现支点定点集的显著性图。表现不佳的支点位图在前12个核苷酸中表现出的活化程度与它们的高性能对应物相似,表明该模型学习了支点不同区域与预测功能之间的关系。
Figure 2.e-f
模型即使在数据稀疏的情况下也能预测支点性能
为了扩大在同一任务上两个模型体系结构之间的比较,除了基于CNN的模型如何预测ON和OFF状态,作者还系统地评估了语言模型如何针对三个ON / OFF阈值(图3a,补充图S5)对良好和不良支点进行分类。(图3b–d)。实验结果表示,所有模型仅基于开关ON值就具有较高的相关度量。这些结果表明,模型能够更轻松地学习区分高ON值的特征。作为一个附加的验证实验,在分类器训练阶段保留了分块病毒基因组获得的对应支点,然后将这些序列输入经过训练的模型中,并对预测结果进行评分,在感测20个不同病毒基因组的支点上观察到相似的性能(平均MCC〜0.50)。此外,根据更成熟的现成方法评估了模型。当将LM与其他常用的基于tf-idf或skip-gram词嵌入模型进行比较时,skip-gram模型比tf-idf模型的预测值平均高出1.8倍。LM的性能明显优于所有其他基于词嵌入的体系结构,包括双向LSTM和self-attention。为了阐明模型是否饱和,作者计算了两组架构的学习曲线(图3e–g)。尽管对较小的数据集进行了训练,但相对于加扰和混洗的序列,两个模型都能够生成有意义的预测,总的来说,这些数据证明了这些体系结构在训练比预期少得多的数据时的强大功能。
Figure 3
迁移学习将模型扩展到看不见的基因组
考虑到语言模型和CNN架构的独特优势,作者将这两种架构都整合到一起,设计可以最佳地检测任何任意核酸序列的节点(图4a)。作者在8个较小的168个序列集中探索模型性能,这些序列已在包含游离触发RNA而非融合触发的背景下进行了测试。经过预训练的LM在数据集上表现不好,作者通过在测试数据集上微调预训练语言模型来构建更具预测性的模型。作者将168个自由触发序列作为第二个较小的训练集。研究表明,从任意数量的层传递权重可以提高重新训练模型的准确性,微调后的模型提高了预测准确率。作者还对外部验证集上模型的性能感兴趣,评估了24个看不见的Zika节点的等级相关性,与之前的模型相比,仅在168个自由触发序列上进行训练的模型,以及使用初始训练后的权重初始化但未冻结的转移学习模型后,冻结权重可实现最高的等级相关性。借助这些更具预测性的模型,作者将重新训练的语言模型和基于CNN的模型集成早一起,可以平铺任何基因组序列,并返回按其预测的开/关值排序的所有可能的支点传感器。
为了说明方法价值,并在概念验证演示中解决对传感器的迫切需求,这些传感器可以基于病原体基因组RNA快速检测正在出现的传染病,作者基于在SARSCoV-2基因组中的独特性和与其他已知人类呼吸道疾病的正交性,确定了四个感兴趣的区域,通过LM模型和基于CNN的模型共同选择了支点序列,并通过实验评估了预测结果。对于共同模型和单独的转移学习CNN(图4g,h),作者发现“预测好的”和“预测不好的”传感器之间存在显着分离,这与模型结果一致。
使用NuSpeak和STORM优化序列
为了进一步优化序列,作者构建了两种优化方式:NuSpeak(图4c)和STORM(图4d),其中NuSpeak部分保留了原始触发序列,保持了目标保真度,而STORM允许完全重新设计支点。在对100个支点的计算机分析中,NuSpeak可显着提高大多数序列的ON / OFF比(图4e)。尽管在优化过程中表现最好的性能可能会略有下降,但是这些序列可能已经位于局部适应度最大值中,这可能会使进一步的优化难以实现。考虑到当前生物电路设计流程的局限性,作者建立了一个框架,可以合理地重新设计电路组件,而无需保持与触发序列的互补性。通过引入的SeqProp方法,将经过预训练的基于CNN模型转换为基于序列的STORM模型(图4d),为了评估STORM的效用,作者优化了100个最差的实验阈值(图4f),优化后计算机预测的开/关值显着增加。通过优化上述从SARS-CoV-2基因组构建的传感器,在两个平台上通过实验验证结果,实验结果显示,在二种优化方式下,传感器性能都有大幅提高。
Figure 4
3
总结
鉴于模块化,可编程核糖调节器在各种设计应用中的强大功能,迫切需要更好地集成计算和实验方法。作者通过构建两个深度学习框架STORM和NuSpeak来解决这一设计瓶颈,这两个深度学习框架允许表征,解释和优化支点开关,并且仅需要触发器的RNA或DNA序列作为输入。相关实验证明,STORM和NuSpeak能够有效提高设计出的支点开关性能,并在稀疏数据上进行可靠预测,另外可以通过迁移学习来构建预测性很好的模型扩展到其他数据集上。
代码及数据集
https://github.com/midas-wyss/engineered-riboregulator-ML
参考资料
Valeri, J.A., Collins, K.M., Ramesh, P. et al. Sequence-to-function deep learning frameworks for engineered riboregulators. Nat Commun 11, 5058 (2020).
https://doi.org/10.1038/s41467-020-18676-2