前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 蛋白质序列表示学习

Nat. Commun. | 蛋白质序列表示学习

作者头像
DrugAI
发布2022-06-10 15:15:49
3670
发布2022-06-10 15:15:49
举报
文章被收录于专栏:DrugAI

作者 | 余梁 审稿 | 郑仰昆 指导老师 | 闵小平

今天给大家介绍的文章是哥本哈根大学计算机科学系 Wouter Boomsma 等人发表在 Nature Communications 上的文章 Learning meaningful representations of protein sequences。在本文中,作者探索了迁移学习和可解释性学习中的表示。在迁移学习中,作者证明了现在的一些实践只能产生次优的结果。在可解释性学习中,把几何信息考虑在内有助于提升可解释性,并且可以帮助模型揭示被掩盖的生物信息。

1

介绍

数据表示在生物数据统计分析中起着重要作用,它可以将原始数据抽象成高层次却能抓住关键信息的低维数据。过去几年,有许多文章在研究如何表示大量的生物数据。然而,这些文章的结果表明即使是机器学习模型中微小的扰动,都会对数据表示结果产生巨大的影响。由此就提出了一个疑问,到底什么是最有意义的表示。

本文讨论的问题就是表示是否捕捉到了我们想要的信息。本文关注的焦点是蛋白质序列。首先,作者考虑到了迁移学习中的表示,研究了网络设计和训练对表示结果的影响,并发现了现在的一些结果是次优的。其次,作者研究了为解释数据表示的作用,发现几何表示能提取鲁棒的和一致的结果。

2

结论

2.1 迁移学习表示

表示可以在不同域中实现。它可以是全局域,学到的表示反应的是所有蛋白的总体属性。它也可以是单个蛋白家族域,模型只需要在相关性高的序列上学习。作者考虑了分类、荧光预测、蛋白变异稳定性预测三种任务,用来反映特定蛋白质全局属性。

微调可能会损失性能。作者在从 Pfam 提取的蛋白质序列上训练了 LSTM、Transformer 和 Resnet 三个网络,要么保持嵌入模型固定(Fix),要么根据任务进行微调(Fin)。作者还考虑了一个预训练版本(Pre)和未经训练随机初始化表示模型(Rng)。作者把每个氨基酸进行 one-hot 编码作为基准。在所有的设置中,把基于注意力的平均值作为全局表示。表 1 展示了在三种任务上的结果。微调嵌入模型会显著地降低结果,随机初始化的表示在一些情况下也很好。

把全局表示构造为局部表示的平均是次优的。蛋白质序列局部表示

对应着输入序列

。为了获得全局表示,长度变化的局部表示需要被聚合成固定大小的全局表示。作者使用了两种策略,策略一(Concat)用填充符进行填充,避免了聚合,保留了每一个向量的信息。策略二(Bottleneck)让模型去学习全局表示。在三种任务上进行测试,结果如表 2 所示。Bottleneck 策略效果是最好的,这是因为在预训练过程中,模型会尽可能地去学全局结构。

重建误差不是衡量表示质量的好方法。模型中通常有很多超参数,通过重建误差来选择超参不是好方法。作者发现,随着表示维度的增加,重构准确度也会增加。但是结合下游任务来看,模型的表现会在维度大小超过一个值之后下降。

2.2 数据解释表示

域、模型架构和数据处理决定数据解释。作者利用 VAE 在 β-lactamase 家族上进行了测试。利用所有的文本训练序列模型来编码 β-lactamase 家族蛋白,再用 t-SNE 进行降维,结果如图 1 上面一行所示。LSTM 和 Resnet 模型并不能区分种类差别,Transformer 和 Bottleneck Resnet 可以看清一点差别。这是由于模型是用来表示所有蛋白的。如果仅仅训练 β-lactamase 家族序列,结果如图 1 下面一行所示,Transformer 和 Bottlenck Resnet 可以完全区分种类。但与 VAE 相比,还是有明显的差距。这些可能是由于以下几个因素造成的:(1)模型底层的归纳偏移;(2)预处理序列时的特定知识;(3)对表示空间的处理来可视化。

图 1:蛋白质潜在嵌入

表示空间拓扑携带相关信息。从图 1 中 VAE 编码图的星状结构可以推测出一个蛋白质家族中进化史呈现树结构。作者评估了一些数据的进化树,并利用标准祖先重构方法进行编码,如图 2 所示。虽然有些物种被放在了相反的位置,但总体情况是好的。这说明表示的拓扑反映了输入空间的拓扑信息。

图 2:物种进化树编码

几何表示给出了鲁棒的表示。文章定义了一个合适的黎曼指标,最短路径(geodesic)距离对应于 one-hot 编码蛋白质之间的预期距离,并分析了鲁棒性。作者根据不同的随机数,训练了 5 次模型,计算了相同数据对距离,并进行规范化,如图 3 所示。相对于欧拉距离,本文提出的距离指标方差更小,说明对模型来说更加的鲁棒。

图 3:距离

Geodesics 赋予表示意义。图 4 的前两个图分别表示了 Transformer 和 VAE 表示的欧拉距离与进化距离的相关性,前者几乎没有什么相关性,后者情况较好。第三张图表示了 VAE 的 geodesic 距离与进化距离的相关性,在中短距离上,能看出明显的正线性相关。最后一张图把海明距离作为基线。该实验表明 Geodesics 距离是合理的。

图4:预测距离

数据处理影响几何表示。作者使用 β-lactamases 家族的 A类蛋白,包含了A1 和 A2 两类,并用不同的对齐方法来处理序列,结果如图 5 所示。不同对齐方式产生的表示对不同的类别来说差别可能会很大,这可能是由于与查询序列的距离增加,一个蛋白的更多部分可能会出现在查询序列对应的间隔区域内。

图 5:不同对齐方式的重构精确性

Geodesics 提供了更有意义的插值。从表示空间解码的输出分布可以理解表示。作者构建了从 A1 成员到 A2 成员根据距离的插值,计算了输出分布的熵,如图 6a 所示,发现在第 5 个点的位置有明显的升高。作者又计算了 KL 散度,如图 6b 和 6c 所示,发现表示可以捕捉到不同位点氨基酸的变化,

图 6:蛋白序列的插值

3

讨论

蛋白质序列表示可以提升预测性能,也能发现潜在信息。可以通过选择合适的模型架构、处理数据、选择目标方程、替换先验分布来学习表示。

参考资料

Detlefsen, N.S., Hauberg, S. & Boomsma, W. Learning meaningful representations of protein sequences. Nat Commun 13, 1914 (2022).

https://doi.org/10.1038/s41467-022-29443-w

代码

https://github.com/MachineLearningLifeScience/meaningful-protein-representations

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档