前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Mach. Intell. | FBGAN:优化蛋白质功能的反馈-循环架构

Nat. Mach. Intell. | FBGAN:优化蛋白质功能的反馈-循环架构

作者头像
DrugAI
修改2021-02-02 12:01:01
6780
修改2021-02-02 12:01:01
举报
文章被收录于专栏:DrugAI

今天给大家介绍的是由斯坦福大学Anvita Gupta和James Zou两人在“Nature Machine Intelligence”上发表的文章” Feedback GAN (FBGAN) for DNA: a Novel Feedback-Loop Architecture for Optimizing Protein Functions”。

生成对抗网络(Generative Adversarial Networks,GANs)是一个极具吸引力的数据生成方法。在本文中,作者运用GANs生成编码变长蛋白质的DNA序列,并提出了一种名为反馈GAN(Feedback GAN,FBGAN)的反馈-循环(feedback-loop)架构,并用此架构合成基因序列往某个所需属性优化。该架构还利用了一个称为外部函数分析器(external function analyzer)的结构,并且此分析器无需是可微分的。作者将反馈-循环机制用于两个实验:(1)生成抗菌肽(antimicrobial peptides,AMPs)的合成基因;(2)生成具有α-螺旋二级结构多肽的合成基因。FBGAN架构可以优化GAN产生的数据,从而获得基因组学内外领域有用的属性。

1

介绍

合成生物学是生物系统的系统设计和工程,并且是一个不断发展的革命性领域。现在的合成技术大都依赖手工操作和大量经验,而人工智能(AI)技术可以利用现有的大量基因组学和蛋白质组学数据集改变生物分子的设计过程,AI也能通过揭示数据模式来帮助科学家设计最佳的生物分子。

作者在文章里提出了一个基于GAN的产生DNA序列的反馈-循环机制,并用函数分析器优化这些序列来获得所需属性。这里的反馈-循环机制用于训练GAN从而产生编码蛋白质序列,并且丰富抗菌肽和α-螺旋肽基因。同理,也可用这种方式优化基因的二级结构。FBGAN可以优化各种属性,且无需考虑是否提供了一个可微分析器。

2

方法

2.1 GAN模型架构

由Goodfellow等人提出的GAN基本形式包括生成网络G(Generator)和判别网络D(Discriminator)。生成网络G接收噪声z生成新的数据,而判别网络D判断这些数据是真或假。G的最终目标是产生足够真实的数据使得D无法将其判断为假。其中每一步都包含一个反向传播过程,使G中参数得以更新,G从而会产生更加真实的数据。G和D通过极小极大博弈计算下面的损失函数:

判别网络D要尽可能最大化概率D(x)并最小化概率D(G(z)),其中x是真实数据,而G(z)是生成数据。

Wasserstein GAN(WGAN)是GAN的一种变体,它最小化真实数据分布和生成数据分布之间的Wasserstein(Earth Mover)距离。WGAN加入梯度惩罚(gradient penalty),在训练时比GAN模型更加稳定,并且Wasserstein距离与生成点的质量能很好地对应。本文产生基因序列的GAN遵循有梯度惩罚的WGAN架构。

本文收集了许多基因数据来训练GAN使其产生编码蛋白质序列。作者从Uniprot数据库中收集了超过3655个蛋白质,这些蛋白质从数据集中残基序列长度5-50的中选取,序列相似性大于等于0.5蛋白质序列被聚成一类,每个类簇中选取一个代表序列组成短肽数据集。蛋白质长度限制在50个氨基酸足以观察其属性,并且限制了模型对数据的长期依赖。这些蛋白质都被转化成cDNA序列,算上起始密码子和终止密码子长度不超过156。

2.2 反馈-循环训练机制

如图1所示,反馈-循环机制由GAN和函数分析器组成。GAN产生没有任何属性的基因序列。分析器有两种使用方法:(1)作为可微神经网络,输入基因序列,预测该序列编码AMP的概率;(2)作为一个黑箱,输入基因序列,给定得分,满足这个形式的任何实体都行。在本文中它是web服务,返回编码基因的α-螺旋残基数目。分析器甚至可以是科学家或者实验室,对基因进行实验验证,这就是一个主动学习(active learning)的例子。

图1:反馈-循环机制

GAN和分析器在进行一些预训练后连接起来,一旦反馈机制启动,每次由生成网络产生的一组序列都被输入到分析器中,分析器预测这些基因序列有多好,并把最好的n个序列作为“真实”数据输入到判别网络中,这n个序列替换原来的输入的n个旧序列。随着反馈过程的不断进行,整个判别网络训练集数据反复地被分析器打分较高的生成序列替换。

2.3 AMP编码基因分析器

把APD3数据库中2600个经实验验证的AMP作为正样本,UniProt中长度为10 - 50个氨基酸(非天然氨基酸过滤)中随机提取的2600个肽作为负样本,详细处理方法和上文类似,AMP分类器在这个数据集上进行训练。

该分类器作为分析器,接受一个基因序列输入,输出其编码AMP的概率。作者构建并训练了RNN分类器来预测基因序列是否会产生AMP。RNN包含两个循环门控单元(Gated Recurrent Unit,GRU)层,第二个LSTM层的最终结果被送入全连接输出层,其神经元的数量等于类数量减1。这一层具有sigmoid激活函数,因此输出结果对应于该基因序列属于正类的概率。为了减少过拟合和提高泛化能力,作者在两层中都加入了0.3的dropout率。模型使用Adam优化二元交叉熵损失,使用小批量梯度下降法(minibatch gradient descent)训练。

2.4 二级结构黑箱分析器

优化合成基因二级结构的黑箱分析器包含了PSIPRED预测器。黑箱把输入的基因序列转化成蛋白质序列,并预测氨基酸的结构。PSIPRED预测器可以标记序列中每个已知二级结构的氨基酸,黑箱输出α-螺旋标记的总数量,分析器选取数量大于5的序列输送到判别网络中。

3

结果

3.1 WGAN架构生成编码蛋白质序列

正确的基因结构被定义为起始密码子开始,然后是长度为3的整数密码子,最后终止密码子结束。在训练之前,只有3.125%的序列遵循正确的基因结构,训练后达到了77.08%,这说明训练使得模型有很大的提升。

为了检测合成基因与Uniprot数据库中自然cDNA序列的相似性,作者采用了主成分分析法(principal component analysis,PCA)计算了这些蛋白质的理化性质。图2展现了PCA后的Uniprot序列和生成序列的散点图,从中可以发现两者分布在相同的区域中。此外,两者相应氨基酸的频率是一致的。

图2:PCA分析10个理化性质

3.2 抗菌属性深度RNN分析器

为了定量地测量分析器的性能,作者计算了准确率(acccuracy)、AUROC、精确率(precision)和召回率(recall)。训练集和验证集的准确率分别为0.9447和0.8613,测试集的准确率和AUROC分别为0.842和0.908,而精确率和召回率分别为0.826和0.8608,PR曲线下方面积为0.88。

3.3 反馈-循环优化抗菌属性

评判反馈-循环的有效性由2个标准:(1)随着时间的推移,分析器是否能预测出更多能成为抗菌肽的基因;(2)无论从序列还是蛋白质属性上来说,生成的基因与已知的抗菌肽基因是否相似。

图3展示了在10轮(epoch)封闭训练之后,分析器可以预测大多数序列是抗菌的。在60轮后,几乎所有的序列能被高概率地预测为抗菌的。虽然反馈阈值被设定为0.8,但是生成网络的性能在逐步提高,这说明封闭循环训练对阈值变化具有鲁棒性,如图4所示。生成序列的93.3%具有正确的结构,这说明分析器阅读结构的能力不但没有减弱反而得到了增强。

图3:分析器预测性能

图4:生成基因随阈值变化

图5展示了已知的抗菌肽与反馈前和反馈后合成基因蛋白质的平均编辑距离(mean edit distance),大部分序列反馈后的平均编辑距离相较于反馈前更小。图6展现了抗菌肽与反馈后合成基因编码蛋白质的内在编辑距离(intrinsic edit distance),反馈后的编辑距离更高,这说明模型没有过拟合。上述所有编辑距离都根据序列长度进行了归一化。

图5:AMP和生成序列的编辑距离

图6:AMP和生成序列的编辑距离

表1展示了蛋白质的理化性质,封闭循环序列编码蛋白质的十个理化性质中有五个更接近抗菌肽正样本,这是由于分析器直接操作基因序列而不是理化性质造成的。

表1:蛋白质理化性质

3.4 黑箱PSIPRED分析器优化二级结构

图7展示了反馈后的生成序列螺旋长度明显高于没有反馈的和Uniprot蛋白质的长度。图8还展示了生成序列折叠的3维结构。实验还显示反馈后生成DNA序列与Uniprot序列的编辑距离在相同的范围内,并且高于反馈前的合成基因。

图7:螺旋长度

图8:肽折叠示例

4

结论

本文介绍了FBGAN模型,它能够产生长度小于50个氨基酸的肽编码序列,并且证明了反馈-循环机制能够按照特定属性优化这些序列。作者使用了函数分析器来评估生成网络产生的序列,并将得分较高的序列作为真实数据输入到判别网络中。通过这种方式,生成网络能够逐步地产生更能被分析器预测为正样本的序列。这种训练机制对分析器的类型具有鲁棒性。

本文分别使用深度RNN分析器和黑箱PSIPRED分析器,证明了优化编码抗菌肽和编码α-螺旋肽基因反馈-循环机制的有效性,生成网络能显著地产生所需属性的基因。

无需使用可微分析器优化所需属性蛋白质基因有两方面原因:(1)分析器可以是任意模型,它只需给序列评分;(2)现有的许多生物模型都是基于不可微的操作。

保持正确的基因结构的同时,产生越长的序列越困难。利用GAN架构产生更长的更复杂的序列依旧非常困难,这也是GAN产生整个蛋白质的瓶颈。

数据和源代码

https://github.com/av1659/fbgan

参考资料

Gupta, A., Zou, J. Feedback GAN for DNA optimizes protein functions. Nat Mach Intell 1, 105–111 (2019).

https://doi.org/10.1038/s42256-019-0017-4

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档