前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >gget alphafold三行命令预测蛋白质三维结构

gget alphafold三行命令预测蛋白质三维结构

作者头像
小汪Waud
发布2023-02-20 11:30:54
7270
发布2023-02-20 11:30:54
举报
文章被收录于专栏:小汪Waud

近些天,AlphaFold在热度不减的基础上又火了一把,二话不说直接确定了约2亿个蛋白质的结构,范围覆盖地球上几乎所有已知生物[1]

doi: 10.1038/d41586-022-02083-2

尽管AlphaFold2可以通过Docker运行,但是

  • 需要下载数据库(需要消耗约3TB的存储空间)
  • 12vCPU, 85GB RAM的高计算要求(远超笔记本)

逛Twitter的时候,发现有一款新的工具gget alphafold[2]用于预测蛋白质的3D结构,我们本期就来盘一盘这个新工具。

https://twitter.com/NeuroLuebbert/status/1555968042948915200

按作者的话说,gget alphafold 基于2.0版本的AlphaFold,在任何电脑/服务器上的Python环境下,仅仅只需要4 GB的硬盘,三行代码就可以运行。这对个人用户相当友好!

应用相同的算法,gget alphaold 产生与 AlphaFold Colab 相似的结果。

The comparison of the CASP14 target T1024 was created from the PDBs returned by gget alphafold and AlphaFold

为了证明它的准确性好使,作者将与她18年的工作[3]中预测的结构进行了比较。

预测是不完美的,这也说明了AlphaFold2的局限性,主要是在预测参考数据库中没有发现的残基时(如GFP和传感器之间的linker)。

但结构预测可以引导我们(作者)猜测哪些残基会发生突变。


gget alphafold会返回每个氨基酸的预测结构(PDB)和比对误差(json),PDB可以通过https://www.rcsb.org/3d-view或PyMOL查看。

当然,gget alphafold也不是唯一的通过命令行运行alphafold的工具,Martin Steinegger的实验室曾开发了一个ColabFold[4],可在本地运行预测,不足之处是也需要下载940GB的数据库。

为了尽量减少依赖性,gget alphaold 目前还没有配置利用 GPU,与 AlphaFold Colab 相比,可能需要多达10倍的时间才能在本地计算机上运行。然而,由于它的轻量化,它可以很容易地集成到现有的工作流。

关于内存占用,作者表示最多几个G,你甚至可以用17款的MacBook,一边看HD的netflix一边预测蛋白结构。

最后作者提供了一个Colab notebook链接[5],让大家无需服务器,点点点就能完成蛋白结构预测。

实测环节

选择了我们韩老板在18年发表在Nature上的文章A kiwellin disarms the metabolic activity of a secreted fungal virulence factor中的Cmu1蛋白[6]作为测试对象。

Linux

代码语言:javascript
复制
# 创建一个新的python3.8小环境
conda create -n gget python=3.8 -y
conda activate gget
conda install gget -y

# 安装依赖
conda install -c conda-forge openmm=7.5.1 -y

python # 进入python环境
import gget
gget.setup("alphafold") # 需要安装一会依赖
代码语言:javascript
复制
# 输入蛋白序列即可预测
gget.alphafold("MKLSVSIFVLLAVSAFGGGSAAAVSGKSEAAEIEAGDRLDALRDQLQRYETPIIQTILARSALGGRAPSEQDEVRAALSRNAFEPSEVISEWLQTESGARFRSTRPLPPAVEFITPVVLSRDTVLDKPVVGKGIFPIGRRPQDPTNMDEFLDTSLLSLNQSSTVDLASAVSLDVSLLHLVSARVLLGYPIALAKFDWLHDNFCHILTNTTLSKSQKLANIIQQLTDHKQEVNVLSRVEQKSKSLSHLFRNDIPYPPHTQDRILRLFQAYLIPITTQIEAAAILDHANKCT")

耗时2 h起步。

Colab在线(推荐)

这个就非常简单了,不要修改下图中的命令,按箭头顺序点击运行命令。

作者也好心的提供了帮助文档,我们只用修改红框中的蛋白序列运行即可。

运行结束后会输出四张图。

实测在Colab上不到1.5 h就完成了预测,准确性似乎还行。

参考资料

[1]

‘The entire protein universe’: AI predicts shape of nearly every known protein: https://www.nature.com/articles/d41586-022-02083-2

[2]

Laura Luebbert的推特原文: https://twitter.com/NeuroLuebbert/status/1555968173609865216

[3]

Fluorescence activation mechanism and imaging of drug permeation with new sensors for smoking-cessation ligands: https://elifesciences.org/articles/74648

[4]

ColabFold: https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

[5]

Colab notebook链接: https://colab.research.google.com/drive/1IcpXnPD8rrmngr1x3SuQQiE0X_f4lGpY?usp=sharing

[6]

Cmu1蛋白: https://www.ncbi.nlm.nih.gov/protein/A0A0D1DWQ2.1

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小汪Waud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 实测环节
    • Linux
      • Colab在线(推荐)
        • 参考资料
        相关产品与服务
        数据库
        云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档