AI提供算力支撑:新型冠状病毒所有关键蛋白质同源模建结果和方法公布

面对当前新型冠状病毒(2019-nCoV)感染肺炎不断扩散的严峻形势,华为云 EI 医疗智能体团队联合华中科技大学同济医学院基础医学院李岩教授,西安交通大学第一附属医院刘冰教授,中科院北京基因组研究所韩大力研究员,华中科技大学同济医学院附属武汉儿童医院柯尊辉大夫组成联合攻关团队,针对新型冠状病毒(2019-nCoV)的多个靶标蛋白进行了超大规模计算机辅助药物筛选工作。筛选出五种可能对 2019 新型冠状病毒(2019-nCoV)有效的抗病毒药物。现将联合科研团队对 2019 新型冠状病毒所有关键蛋白质同源模建结果和方法公布。

背景介绍

蛋白质同源建模

蛋白质同源建模是指当未知结构的蛋白和已知结构的蛋白质在一级序列上比较相似的时候,可以把已知结构的蛋白作为模板,通过计算机的模拟和计算,基于未知结构蛋白的一级序列预测其三维空间结构。同源建模基于两个假设:1. 蛋白质的结构由其氨基酸序列唯一决定,如果已经知道一级序列,在理论上就可以获取其二级结构以及三级结构。2. 蛋白质的三级结构在进化中相比于其一级序列更加保守。如果两个蛋白质的氨基酸序列有 50% 相同,那么约有 90% 的 a- 碳原子的位置偏差不超过 3 Å。

以 SARS-CoV 为模板构建 2019-nCoV 三维结构

2019-nCoV 和 SARS-CoV 非常近似,氨基酸的序列一致性达到了 76.47%。同时 SARS-COV 的蛋白质的三维结构基本上已经被解析出来,所以我们可通过这些已知的蛋白质三维结构作为模板,构建 2019-nCoV 的蛋白质结构,并进而指导药物研发。

数据和方法

2019-nCoV 蛋白质一级序列提取2019-nCoV 的基因组序列参考 NCBI 上已公开的序列:NC_045512.2。由于基因组注释数据的缺失,无法直接获取其所有功能蛋白质的一级序列。因此我们将 SARS-CoV 的各个蛋白对应的序列比对到 2019-nCoV 基因组上,选择 best match 的比对区域,作为该蛋白对应的在 2019-nCoV 的一级序列。通过这种方法,我们获得了 2019-nCoV 的共计 20 个蛋白质的序列,其中包含非结构蛋白 16 个(NSP1-16),结构蛋白 4 个(S,M,N,E)。

同源建模

Swiss model 用于同源建模

Swiss-model 是自动化蛋白质同源建模工具,使用的过程中需要用户输入目的蛋白的序列,也可以同时指定参考蛋白质模板,在没有指定模板的情况下,系统会自动选择匹配度最高的模板。我们在通过 Swiss-model 做同源建模的步骤和结果如下:

Step 1: 输入蛋白质序列

在 swiss-model 主页 (https://swissmodel.expasy.org/) 点击“Start modeling”并上传蛋白质的 fasta 序列。点击“Search For Templates”,开始搜索最模板蛋白。

Step 2: 选择合适的模板蛋白

Swiss-model 会给出通过一级序列匹配到的模板蛋白,以及每一个模板蛋白的匹配度和模板蛋白的参数,通过以下标准,我们选择最优的模板蛋白用于同源建模:

  1. 目的蛋白和模板蛋白一级序列一致性要求:identity>30%;优先选择 identity 最高的模板蛋白;
  2. 优先选择 SARS-COV 的模板蛋白用于同源建模;
  3. 当 identity 比较相似的时候,优先选择通过高精度 X-ray 方法构建晶体结构的模板;如果没有 X-ray,需要点进 PDB 看蛋白结构分辨率,优先选分辨率高的;
  4. 如果 Oligo State 存在有 Homo 和 heter,就两个都要选择。

Step 3: 同源建模

选定好最优的模板蛋白之后,点击页面的“Build Models”,即可自动的做同源建模;对于序列比较短的蛋白(<100 残基),该过程通常花费几分钟;对于序列比较长的蛋白(="">1000 残基),该过程通常花费约二十分钟左右;建模完成后,可直接下载模板蛋白和目的蛋白的三维空间结构用于后续的分析。

Step 4: 分子动力学模拟

同源建模得到的蛋白质结构可以用于分子动力学(Molecular Dynamics)模拟。分子动力学模拟可以通过 GROMACS 等工具完成,这一步骤通常比较耗时。华为云医疗智能体平台已经提供加速版的 GROMACS,加速后的 GROMACS 消耗的时间仅有传统版本的 1/6。

结果

建模结果

统计针对 2019-nCOV 的 20 个蛋白质一级序列,有 15 个蛋白和 SARS-COV 的蛋白质有比较高的同源性,identity>70%;通过蛋白质三维工具可视化之后,也可以看到这些蛋白质的三维空间构象和模板蛋白比较相似;其中有一个蛋白质,NSP4,在 SARS-COV 中没有很好的同源蛋白,是以小鼠肝炎病毒的 A59 进行建模,其 identity>60%;另外有四个蛋白质的同源建模效果不是很好,其中 NSP2,NSP6 和 M 均没有很好的目的模板,匹配度最好的蛋白质序列的 identity < 30%;所以建模的结果不太理想;同时 NSP11 蛋白质的长度只有 11 个残基,长度太短,不满足建模要求;目的蛋白的长度,模板蛋白的选择和同源建模的参数整理在以下的表格中供参考:

数据和可视化

模板蛋白和同源建模得到的 2019-nCoV 蛋白质三维结构都以 PDB 格式进行保存,为了方便用户查阅,华为云医疗智能体平台的 Notebook 工具已经内置了可视化所需要的插件和工具,用户可以交互式拖动和展示感兴趣的蛋白质三维结构。

以上涉及到的数据、算法和工具都已经集成在华为云医疗智能体平台,基于华为云 AI 昇腾集群服务的强大算力,用户可省时省力地完成端到端的分析。

网站链接:https://www.huaweicloud.com/product/eihealth.html 实验结果:https://bbs.huaweicloud.com/blogs/144950

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/ohEAsPYAZTm1ewDSp3pF
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券