前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >比“生物界AlphaGo”更厉害,MIT:给我一个氨基酸序列,就能告诉你蛋白质功能

比“生物界AlphaGo”更厉害,MIT:给我一个氨基酸序列,就能告诉你蛋白质功能

作者头像
量子位
发布2019-04-23 10:53:54
6300
发布2019-04-23 10:53:54
举报
文章被收录于专栏:量子位量子位
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI

DeepMind去年公布了生物学界的AlphaGo——AlphaFold,只要知道蛋白质的氨基酸序列,就可以预测蛋白质分子的三维折叠结构。

AlphaFold预测蛋白质结构

现在MIT把AI的预测能力又推进了一步,直接通过氨基酸序列预测蛋白质分子的生物学功能,跳过AlphaFold预测蛋白质立体结构的步骤。

他们的论文《Learning protein sequence embeddings using information from structure》将在今年5月的ICLR学术会议上公布。

如何预测蛋白质功能

研究人员先让模型学习一些特定蛋白质的功能,将蛋白质结构编码成表示,用不同蛋白质结构相似性来监督模型。

他们根据蛋白质结构分类数据库(SCOP),对数千各类别、大约22,000种蛋白质进行模型训练。然后,将蛋白质结构与氨基酸序列编码成嵌入(embedding)这种数字表示,随机组对送入模型中。

这种嵌入与NLP中的上下文表示类似,两种嵌入越相似,单词出现在同一个句子中的概率就越大。

像单词对语义的影响一样,氨基酸是蛋白质的“单词”,蛋白质就是整个“句子”,嵌入包含着每个氨基酸序列与另一个氨基酸序列的相似性信息,机器学习模型可以根据嵌入预测每个氨基酸对整个蛋白质功能的影响。

而且该模型还能预测蛋白质的接触图(contact map),即每个氨基酸与其他氨基酸之间的距离,与来自SCOP已知的接触图进行比较。

这有助于模型更好地了解氨基酸在蛋白质结构中的确切位置,从而进一步预测每种氨基酸对功能的影响。

总的来说,对于某个氨基酸序列,该模型将为3D结构中的每个氨基酸位置产生一个嵌入表示。机器学习模型根据这些嵌入,基于接触图准确预测每个氨基酸的功能。

研究人员使用该模型预测哪些蛋白质可以通过细胞膜,所得结果的准确性已经超过之前最先进的模型。

用于药物研发和基因治疗

蛋白质是氨基酸通过肽键组成的线性链,却能折叠成极其复杂的三维结构,其具体的结构取决于氨基酸序列和它们之间的物理相互作用。而这种结构又决定了蛋白质的生物学功能。

尽管人类已经研究了几十年蛋白质,发明了很多探测手段,但是真正能准确测量出结构的蛋白质只有很小一部分,已经的几百万种蛋白质中,我们只知道其中几万个的结构,研究每个结构都需要花费数万美元。

过去我们需要知道蛋白质的结构才能研究它的功能,MIT希望利用这项技术让预测蛋白质结构的研究边缘化,即使只知道氨基酸序列也能给出蛋白质的功能。

所幸的是,知道蛋白质的氨基酸序列是一件相对比较容易的事情,我们只要给DNA分子测序就能得到。

掌握了蛋白质的功能,我们就能知道它会和药物发生怎样的反应,帮助我们进行药物研发。

此外,某些基因突变会改变蛋白质的结构,这项工作还可以用于基因组学,来检测破坏蛋白质结构的有害突变。

论文地址: https://arxiv.org/abs/1902.08661

开源代码与数据集: https://github.com/tbepler/protein-sequence-embedding-iclr2019

作者系网易新闻·网易号“各有态度”签约作者

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 如何预测蛋白质功能
  • 用于药物研发和基因治疗
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档