在之前的内容中,曾经讲解过蛋白质的表达法,称之为SMILE。当时是研究做durg-target interaction预测的。现在我们来看alphaFold的算法的思路。alphaFold是一种极为巧妙的应用。在这个药学领域中,AI发挥的作用和意义,非同寻常。
alphaFold解决的问题:蛋白质折叠的问题。
给定一个氨基酸序列,如下:
其中每一个字母表示一种氨基酸,目前一共有21种氨基酸。那么这一个由59个氨基酸组成的蛋白质,它在具体空间中的结构是如何呢?
alphafold给出了如下的结构示意图:
image.png
可以看到想要构成这样的空间结构,我们的氨基酸是需要空间中间的位置的。所以需要x、y、z三个坐标,才可以定位出空间位置。
考虑到这个氨基酸序列是一个序列,直接预测点的空间位置难免会弱化这个“序列”的概念,因此我们可以预测下一个氨基酸在上一个氨基酸的什么相对位置,那么就是两个氨基酸分子的距离,以及氨基酸相对于上一个氨基酸的夹角
。因为是空间结构,所以需要两个变量来衡量空间中的角度。
alphafold2是alphafold的一年后的发展,alphafold2是在2021年5月份提交nature,然后再7月份被录用,并且作为nature的封面级别的文章;DeepMind在蛋白质结构领域中的对头是华盛顿大学的Protein Design组,他们在同一时期,提交了science,同样是了封面级别的论文,模型名字为RoseTTAFold,这个模型我在啃完alphafold2之后,在讲。先挖个坑。
AlphaFold是John Jumper(第一作者)的研究。文章正文10页,补充材料50页,讲模型的细节非常清晰。
蛋白质是一串氨基酸序列,氨基酸序列如果是一长条直线的,是不稳定的,他们会卷在一起,卷起来的氨基酸序列就是稳定的。蛋白质的功能和性质,是由氨基酸的结构决定的。
现在如果有一种氨基酸序列,如果它可以卷成不同的结构,也就是说,同一个序列有两种不同的空间结构,那么这往往会带来疾病。
总之,抛开疾病不谈,一种氨基酸序列可以认为是值对应一种空间结构的,那么这种空间结构其实是需要预测的。alphafold解决的任务也可以叫做蛋白质空间结构的预测
【蛋白质空间结构预测的意义】 目前人类已经解析出来10万蛋白质的空间结构,但是我们已知的蛋白质种类有10亿种。99.99%的蛋白质的空间结构还没有被解析出来。听说(我也不太清楚),传统解析蛋白质空间结构的方法是将蛋白质冻起来,然后通过显微镜从不同角度观察其投影,然后还原出来空间结构。可能需要数月的时间。
【alphafold1的问题】 alphafold1的精度误差较大,误差远大于一个原子的尺寸。alphafold的精度则实现了这个精度,并且alphafold参加了CASP14挑战赛。
【CASP】 CASP全称是the Critical Assessment of protein Structure Prediction,蛋白质结构预测的关键评估,被誉为蛋白质结构预测的奥林匹克竞赛。从1994年每两年举办一届。每一届的CASP比才,都会提供大约100条人类未知结构的蛋白质序列,让所有参赛者进行结构预测。比赛结束之后,主办方会通过生化方法测定这些蛋白质的三维结构,然后和参赛者预测的结构进行比较,计算得分。
【A埃】 是一个长度单位,为e-10米,纳米的十分之一。
【CASP14排名】
可以看到,AlphaFold2的误差仅仅只有1A左右,所以说AlphaFold2实现了原子级别的精度。(碳原子大小大约1.5A)
【相关参考】