前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ECNet:学习进化信息指导蛋白质工程

ECNet:学习进化信息指导蛋白质工程

作者头像
DrugAI
发布2021-10-21 10:28:16
1.1K0
发布2021-10-21 10:28:16
举报
文章被收录于专栏:DrugAI

——生物学背景——

深度学习已经越来越多地应用于蛋白质工程领域。使用语言模型学习大规模序列的数据,得到序列分布的规律最为流行。但是,从Uniprot、Pfam等大规模序列库中学到的信息只能捕获广义上的context,缺乏对需要工程改造序列的特异性。在蛋白质工程中,学习整个序列空间context性质的模型,应对突变后的序列性质预测往往不够敏感。针对这一问题,伊利诺伊大学香槟分校的Huimin Zhao教授课题组与Jian Peng教授课题组发展了ECNet,可以挖掘全序列空间与同源序列内的进化信息(context),用以蛋白质工程中的序列功能预测。ECNet对于序列-功能的关系预测超过了现有的机器学习方法,该工作近期发表在Nature Communications上。

——方法——

ECNet模型是一个sequence-to-function模型,学习序列到功能的映射。模型的输入包括序列的两部分表达。

第一部分表达为庞大序列空间中global的表达,作者使用基于transformer架构的蛋白质序列无监督模型——TAPE(基于Pfam训练)。TAPE预训练模型对每个残基生成768维向量经过投影降维得到global的进化特征。

第二部分为同源序列中的local表达,作者使用了概率图生成模型——马尔可夫随机场(MRF)拟合同源序列的MSA(多序列比对),旨在最大化MSA中序列的概率。xin表示第n条序列中第i个残基出现的概率,ei代表位置i处残基的约束,eij代表位置i、j处残基的耦合约束。

作者使用CCMPred算法优化这个模型。最终序列中的第i个残基的特征会被如下表达,再经过将为投影,作为local表达。

序列的global与local表达输入到以双向LSTM为骨架的神经网络架构中。针对不同功能改造的深度突变扫描(DMS)的数据被用以监督ECNet模型的训练。

——表现评估——

在各个DMS数据集上,ECNet的表现都都超过了现有的无监督与有监督方法。

图1. 各个机器学习方法预测与DMS结果的spearman系数

从低阶突变体迈向高阶突变体

对于指导定向进化来说,能够预测高阶突变体(>=2)的意义更大。但是DMS实验数据中更多的是单突变体。因此作者尝试了用单突变体数据训练ECNet,用高阶突变体的fitness数据检验模型的能力。作者用TEM-1的单突变数据训练网络,而后随机生成了1460个突变序列,与TEM-1的146个已知inhibitor-resistant功能的2-10次突变序列比较,发现模型能够学会更倾向于挑选已知inhibitor-resistant功能的高阶突变序列(0.79 vs 0.48,如图2左)。

fij-(fi+fj)这一指标可以衡量两个突变点间的联合影响,这一指标的预测值与DMS数据计算出的Spearman系数显示ECNet也优于其他模型(如图2右)。

图2. 左:随机突变体与阳性突变体预测fitness的分布右:三种算法预测的双突变联合影响的准确性

TEM-1 β-lactamase的突变实验验证

最后,作者使用了TEM-1 β-lactamase实验验证了ECNet的工程能力,目标是对ampicillin有抗药性。他们使用以前的DMS实验数据(包含单突变与12%的邻位双突变)训练ECNet。而后in silico突变生成了很多高阶突变序列,按照ECNet预测选取了top 37个未曾出现过且结构稳定的序列进行了实验,以9个已经报道的有效突变序列作为阳性参照。在ampicillin浓度300、1500和3000 μg/mL下,ECNet ensemble版本挑选出的序列都具有很好的阳性(如图3左),并且fitness高于野生型的比列分别达到了0.52、0.91与0.94(如图3右)。

图3. 左:不同浓度下阳参与ECNet、ECNet ensemble挑选序列的fitness比较 右:ECNet ensemble挑选序列优于wildtype的比例

——总结——

总之,ECNet结合了序列的global特征与同源序列的local特征,可以很好地预测针对不同功能序列突变地fitness。ECNet为指导定向进化具有不错的潜力。

代码:https://github.com/luoyunan/ECNet

参考文献:

Luo,Y., Jiang, G., Yu, T. et al. ECNet is an evolutionary context-integrated deep learning framework for protein engineering. NatCommun 12, 5743 (2021). https://doi.org/10.1038/s41467-021-25976-8

点击左下角的"阅读原文"即可查看原文章。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档