分子对接简明教程 (4)

文件格式解释

PDB文件 (详细格式描述)

基本信息部分

  • HEADER记录: 包括分子的分类、提交日期、PDB ID
  • TITLE记录: 为该结构的描述,如果有多行,除第一行外,其它行有连续的数字标示。
  • COMPND记录: 包含分子数目、名字、链特征、分子是如何获得的等。
  • SOURCE记录: 大分子的生物或化学来源
  • KEYWDS记录:关键字
  • EXPDTA记录:实验信息
  • JRNL记录:文献引用信息
  • REMARK记录:更为丰富的记录信息
HEADER    HYDROLASE (ACID PROTEINASE)             31-MAR-95   1HSG              
TITLE     CRYSTAL STRUCTURE AT 1.9 ANGSTROMS RESOLUTION OF HUMAN                
TITLE    2 IMMUNODEFICIENCY VIRUS (HIV) II PROTEASE COMPLEXED WITH L-           
COMPND    MOL_ID: 1;                                                            
COMPND   2 MOLECULE: HIV-1 PROTEASE;                                            
COMPND   3 CHAIN: A, B;                                                         
COMPND   5 ENGINEERED: YES;                                                     
COMPND   6 OTHER_DETAILS: NY5 ISOLATE                                           
SOURCE    MOL_ID: 1;                                                            
SOURCE   2 ORGANISM_SCIENTIFIC: HUMAN IMMUNODEFICIENCY VIRUS 1;                 
SOURCE   6 EXPRESSION_SYSTEM_TAXID: 562                                         
KEYWDS    HYDROLASE (ACID PROTEINASE)                                           
EXPDTA    X-RAY DIFFRACTION                                                     
AUTHOR    Z.CHEN                                                                
REVDAT   3   24-FEB-09 1HSG    1       VERSN                                    
REVDAT   1   03-APR-96 1HSG    0                                                
JRNL        AUTH   Z.CHEN,Y.LI,E.CHEN,D.L.HALL,P.L.DARKE,C.CULBERSON,           
JRNL        TITL   CRYSTAL STRUCTURE AT 1.9-A RESOLUTION OF HUMAN               
JRNL        TITL 2 IMMUNODEFICIENCY VIRUS (HIV) II PROTEASE COMPLEXED           
JRNL        REF    J.BIOL.CHEM.                  V. 269 26344 1994              
JRNL        PMID   7929352                                                      
REMARK   1                                                                      
REMARK   3   PROGRAM     : X-PLOR                                               
REMARK   3   AUTHORS     : BRUNGER                                              
REMARK   3                                                                      
REMARK   3  DATA USED IN REFINEMENT.                                            
REMARK   3   RESOLUTION RANGE HIGH (ANGSTROMS) : 2.00                           
REMARK 800 SITE_DESCRIPTION: BINDING SITE FOR RESIDUE MK1 B 902

结构部分

  • DBREF: 数据库的交叉引用信息
  • SEQRES: 形成多聚合物的线性共价相连的化学组分
  • HET: 表述提供了坐标的非标准残基,比如辅基、抑制子、溶剂分子和离子, 第二列如MK1为hetID, 可用于在pymol中提取信息展示select name, resn hetID
  • FORMUL:表述非标准聚合物外其它成分的化学结构,包括水(用*表示)。 第二列如MK1为hetID, 可用于在pymol中提取信息展示select H2O, resn HOH
  • HELIX: 标记分子二级结构中螺旋的位置
  • SHEET: 标记分子二级结构中片的位置
  • SITE: 标示特殊残基,比如催化位点、辅因子、反密码子、调节位点或其它 关键位点,也可标示配体的环境信息。这个信息对我们做Docking很重要,随 后会详细描述。 [http://www.wwpdb.org/documentation/file-format-content/format33/sect7.html]
  • CRYST1: 标示晶胞参数、空间群和Z值。这部分可能对我们设置搜索空间有帮助。 [http://www.wwpdb.org/documentation/file-format-content/format33/sect8.html]
DBREF  1HSG A    1    99  UNP    P03367   POL_HV1BR       69    167             
DBREF  1HSG B    1    99  UNP    P03367   POL_HV1BR       69    167             
SEQRES   1 A   99  PRO GLN ILE THR LEU TRP GLN ARG PRO LEU VAL THR ILE          
SEQRES   7 A   99  PRO THR PRO VAL ASN ILE ILE GLY ARG ASN LEU LEU THR          
SEQRES   8 A   99  GLN ILE GLY CYS THR LEU ASN PHE                              
SEQRES   1 B   99  PRO GLN ILE THR LEU TRP GLN ARG PRO LEU VAL THR ILE          
SEQRES   2 B   99  LYS ILE GLY GLY GLN LEU LYS GLU ALA LEU LEU ASP THR          
SEQRES   8 B   99  GLN ILE GLY CYS THR LEU ASN PHE                              
HET    MK1  B 902      45                                                       
HETNAM     MK1 N-[2(R)-HYDROXY-1(S)-INDANYL]-5-[(2(S)-TERTIARY                  
HETNAM   2 MK1  BUTYLAMINOCARBONYL)-4(3-PYRIDYLMETHYL)PIPERAZINO]-              
HETNAM   3 MK1  4(S)-HYDROXY-2(R)-PHENYLMETHYLPENTANAMIDE                       
HETSYN     MK1 INDINAVIR                                                        
FORMUL   3  MK1    C36 H47 N5 O4                                                
FORMUL   4  HOH   *127(H2 O)                                                    
HELIX    1   1 ARG A   87  LEU A   90  1                                   4    
HELIX    2   2 ARG B   87  LEU B   90  1                                   4    
SHEET    1   A 2 LEU A  10  ILE A  15  0                                        
SHEET    2   A 2 GLN A  18  LEU A  23 -1  N  ALA A  22   O  VAL A  11           
SHEET    1   B 4 VAL A  32  GLU A  34  0                                        
SITE     1 AC1 20 ARG A   8  ASP A  25  GLY A  27  GLY A  48                    
SITE     2 AC1 20 GLY A  49  VAL A  82  ARG B   8  ASP B  25                    
SITE     3 AC1 20 GLY B  27  ALA B  28  ASP B  29  ASP B  30                    
SITE     4 AC1 20 VAL B  32  GLY B  48  GLY B  49  ILE B  50                    
SITE     5 AC1 20 PRO B  81  HOH B 308  HOH B 313  HOH B 444                    
CRYST1   59.570   87.070   46.710  90.00  90.00  90.00 P 21 21 2     8          
ORIGX1      1.000000  0.000000  0.000000        0.00000                         
ORIGX2      0.000000  1.000000  0.000000        0.00000                         
ORIGX3      0.000000  0.000000  1.000000        0.00000                         
SCALE1      0.016787  0.000000  0.000000        0.00000                         
SCALE2      0.000000  0.011485  0.000000        0.00000                         
SCALE3      0.000000  0.000000  0.021409        0.00000

原子坐标

  • ATOM: 标记氨基酸或核苷酸的坐标,依次包含原子的标号、原子名字 (三个字符,若有第4个字符标示原子另外的构象)、残基名字、链、 残基在序列的编号(4位数,若有第5位则为残基插入)、原子的坐标(x, y, z)、 occupancy、温度、元素符号。【注:此简易描述只为简单理解PDB文件而写; 若需用程序解析PDB文件,请参照官方文档来设计程序。】
  • TER: 标记一条链的结束。
ATOM      1  N   PRO A   1      29.361  39.686   5.862  1.00 38.10           N  
ATOM      2  CA  PRO A   1      30.307  38.663   5.319  1.00 40.62           C  
ATOM      3  C   PRO A   1      29.760  38.071   4.022  1.00 42.64           C  
ATOM      4  O   PRO A   1      28.600  38.302   3.676  1.00 43.40           O  
ATOM      5  CB  PRO A   1      30.508  37.541   6.342  1.00 37.87           C  
ATOM    757  CZ  PHE A  99      20.700  32.221  -9.700  1.00 27.25           C  
TER     758      PHE A  99                                                      
ATOM    759  N   PRO B   1      22.659  36.727 -10.823  1.00 48.12           N  
ATOM    760  CA  PRO B   1      21.708  37.741 -10.269  1.00 43.36           C  
ATOM   1513  CE1 PHE B  99      25.450  37.240   6.756  1.00 37.02           C  
ATOM   1514  CE2 PHE B  99      25.473  38.988   8.409  1.00 37.11           C  
ATOM   1515  CZ  PHE B  99      25.658  37.663   8.073  1.00 36.24           C  
TER    1516      PHE B  99
  • HETATM: 测定了坐标的非聚合物或非标准分子部分,如水分子、 结合的小分子化合物。
HETATM 1517  N1  MK1 B 902       9.280  23.763   3.004  1.00 28.25           N  
HETATM 1518  C1  MK1 B 902       9.498  23.983   4.459  1.00 30.30           C  
HETATM 1519  C2  MK1 B 902      10.591  24.905   4.962  1.00 27.27           C  
HETATM 1560  C35 MK1 B 902       4.654  23.774   4.136  1.00 49.34           C  
HETATM 1561  C36 MK1 B 902       5.905  23.211   3.897  1.00 44.71           C  
HETATM 1562  O   HOH A 305      20.857  43.192  21.450  1.00 63.07           O  
HETATM 1563  O   HOH A 307      14.076  19.789  19.440  1.00 63.34           O  
HETATM 1687  O   HOH B 613      24.127 -10.994  -0.982  1.00 64.49           O  
HETATM 1688  O   HOH B 617      30.112  17.912  -4.791  1.00 54.09           O
  • CONECT: 标示原子之间的连接,每一列为原子的编号。主要用于HET基团 的连接。这些记录是自动生成的,也是强制性要有的。
  • MASTER: 记录坐标的行数等信息
  • END: 文件结尾
CONECT 1517 1518 1529 1555                                                      
CONECT 1518 1517 1519                                                           
CONECT 1519 1518 1520 1527                                                      
CONECT 1520 1519 1521 1522                                                      
CONECT 1561 1556 1560                                                           
MASTER      274    0    1    2   17    0    5    6 1686    2   45   16          
END

PDBQT文件

PDBQT文件比PDB文件多两列,在原子坐标的后面增添了原子的局部电荷(partial charges)和AutoDock可以识别原子类型代码。

在利用Vinna做Docking时,受体和配体都要获得PDBQT文件,一般包含下面两部 分信息:

  • 加斯泰格尔原子局部电荷
  • 联合原子模型展示(包括极性氢),首先对分子加氢然后计算其局部电荷。 任何有氢键结合的非极性重原子的电荷需加上与其连接的氢的电荷,然后移 除这些氢原子。
  • Gasteiger PEOE partial charges
  • A united-atom representation (i.e. only polar hydrogens). A united atom representation can be obtained by first computing the partial charges for an all-hydrogen model of the molecule. Then, for each non-polar heavy atom that has any hydrogens bonded to it, the partial charge of the hydrogen should be added to that of the bonded heavy atom, then this hydrogen atom can be deleted.)
REMARK   4 XXXX COMPLIES WITH FORMAT V. 2.0
ATOM      1  N   PRO A   1      29.361  39.686   5.862  1.00 38.10    -0.038 N 
ATOM      2  HN1 PRO A   1      28.682  40.038   5.187  1.00  0.00     0.280 HD
ATOM      3  HN2 PRO A   1      29.784  40.592   6.064  1.00  0.00     0.280 HD
ATOM      4  CA  PRO A   1      30.307  38.663   5.319  1.00 40.62     0.259 C 
ATOM      5  C   PRO A   1      29.760  38.071   4.022  1.00 42.64     0.259 C 
ATOM      6  O   PRO A   1      28.600  38.302   3.676  1.00 43.40    -0.271 OA
TER     923      PHE A  99 
ATOM    923  N   PRO B   1      22.659  36.727 -10.823  1.00 48.12    -0.038 N 
ATOM    924  HN1 PRO B   1      23.408  37.118 -11.394  1.00  0.00     0.280 HD
ATOM    925  HN2 PRO B   1      23.268  36.295 -10.128  1.00  0.00     0.280 HD
ATOM    926  CA  PRO B   1      21.708  37.741 -10.269  1.00 43.36     0.259 C 
ATOM   1844  CZ  PHE B  99      25.658  37.663   8.073  1.00 36.24     0.000 A 
TER    1845      PHE B  99

PDBQT中的原子类型

原子类型

解释

H

Non H-bonding Hydrogen

HD*

Donor 1 H-bond Hydrogen

HS

Donor S Spherical Hydrogen

C*

Non H-bonding Aliphatic Carbon

A*

Non H-bonding Aromatic Carbon

N*

Non H-bonding Nitrogen

NA*

Acceptor 1 H-bond Nitrogen

NS

Acceptor S Spherical Nitrogen

OA*

Acceptor 2 H-bonds Oxygen

OS

Acceptor S Spherical Oxygen

F

Non H-bonding Fluorine

Mg

Non H-bonding Magnesium

MG

Non H-bonding Magnesium

P

Non H-bonding Phosphorus

SA*

Acceptor 2 H-bonds Sulphur

S

Non H-bonding Sulphur

Cl

Non H-bonding Chlorine

CL

Non H-bonding Chlorine

Ca

Non H-bonding Calcium

CA

Non H-bonding Calcium

Mn

Non H-bonding Manganese

MN

Non H-bonding Manganese

Fe

Non H-bonding Iron

FE

Non H-bonding Iron

Zn

Non H-bonding Zinc

ZN

Non H-bonding Zinc

Br

Non H-bonding Bromine

BR

Non H-bonding Bromine

I

Non H-bonding Iodine

AutoDock中配体可以为柔性结构,使用torsion tree来代表配体中固定的和可 选择的部分。在这个树中,有一个根,多个分支,其中分支可以嵌套。每一个分 支代表一个可以选择的键。在PDBQT文件中表示如下:

  • ROOT记录标记分子刚性部分的起始。
  • 刚性root包含一个或多个PDBQT-格式的ATOMHETATM记录。这些记录与其在PDB文件中的含义类似, 只是在最后2列增加了电荷信息和原子类型信息。【注:这个文件的解析请见参考资料中的英文文档,此中文介绍只是为了方便理解】
  • ENDROOT记录标记配体刚性部分的结束。ROOT/ENDROOT原子块一般出现在PDBQT文件中的首部。如果我们想把配体的某部分作为刚性处理,则在其前后加上ROOT/ENDROOT标签即可。
  • 配体可选择部分包含于BRANCH/ENDBRANCH记录中间。BRANCHENDBRANCH记录行包含两个空格分开的数字,代表可旋转的键连接的第一个和第二个原子的编号。BRANCH/ENDBRANCH记录中间的记录旋转键中间的ATOM/HETATM记录。另外BRANCH/ENDBRANCH记录可以嵌套。
  • 配体PDBQT文件的最后一行为TORSDOF记录。这个记录包含一个整数,代表配体自由扭转度,这一值不依赖于可旋转的键的数目,而是取决于前述记录。【注:最后半句未理解,选择直译,请参照原文理解】
REMARK  14 active torsions:
REMARK  status: ('A' for Active; 'I' for Inactive)
REMARK    1  A    between atoms: N1_1517  and  C31_1559 
REMARK    2  A    between atoms: C2_1519  and  C3_1520 
REMARK       I    between atoms: C3_1520  and  N2_1522 
REMARK    4  A    between atoms: N3_1528  and  C10_1531 
REMARK   13  A    between atoms: C23_1549  and  O4_1550 
REMARK   14  A    between atoms: C31_1559  and  C32_1560 
ROOT
HETATM    1  N1  MK1 B 902       9.280  23.763   3.004  1.00 28.25     0.146 N 
HETATM    2  C1  MK1 B 902       9.498  23.983   4.459  1.00 30.30     0.282 C 
HETATM    6  C9  MK1 B 902      10.440  23.182   2.493  1.00 27.47     0.274 C 
ENDROOT
BRANCH   1   7
HETATM    7  C31 MK1 B 902       8.033  23.100   2.604  1.00 36.25     0.278 C 
BRANCH   7   8
HETATM    8  C32 MK1 B 902       6.666  23.739   2.876  1.00 42.75     0.028 A 
HETATM    9  C36 MK1 B 902       5.905  23.211   3.897  1.00 44.71     0.001 A 
HETATM   10  C35 MK1 B 902       4.654  23.774   4.136  1.00 49.34     0.018 A 
HETATM   11  C34 MK1 B 902       4.207  24.839   3.348  1.00 50.60     0.072 A 
HETATM   12  N5  MK1 B 902       4.911  25.430   2.300  1.00 51.38    -0.351 N 
HETATM   13  C33 MK1 B 902       6.158  24.808   2.124  1.00 47.41     0.070 A 
HETATM   14  H5  MK1 B 902       4.567  26.208   1.737  1.00  0.00     0.166 HD
ENDBRANCH   7   8
ENDBRANCH   1   7
TORSDOF 14

软件安装

Windows下软件安装

  • AutoDock Vina http://vina.scripps.edu/download.html,下载双击安装
  • AutoDockTools http://mgltools.scripps.edu/downloads, 下载双击安装
  • PyMOL http://www.pymol.org,申请教育版,双击安装
  • 下载 http://sourceforge.net/projects/openbabel/files/openbabel/2.4.1/OpenBabel-2.4.1.exe/download,双击安装

Linux下软件安装

#First make sure "~/bin" is in "PATH"

#AutoDock Vina
wget http://vina.scripps.edu/download/autodock_vina_1_1_2_linux_x86.tgz
tar xvzf autodock_vina_1_1_2_linux_x86.tgz
ln -s `pwd`/autodock_vina_1_1_2_linux_x86/bin ~/bin

#AutoDockTools
wget http://mgltools.scripps.edu/downloads/downloads/tars/releases/REL1.5.6/mgltools_x86_64Linux2_1.5.6.tar.gz
tar xvzf mgltools_x86_64Linux2_1.5.6.tar.gz
(cd mgltools_x86_64Linux2_1.5.6/; ./install.sh)
ln -s `pwd`/mgltools_x86_64Linux2_1.5.6/bin/pmv ~/bin/pmv
ln -s `pwd`/mgltools_x86_64Linux2_1.5.6/bin/adt ~/bin/adt
ln -s `pwd`/mgltools_x86_64Linux2_1.5.6/bin/vision ~/bin/vision
ln -s `pwd`/mgltools_x86_64Linux2_1.5.6/bin/pythonsh ~/bin/pythonsh

ln -s `pwd`/mgltools_x86_64Linux2_1.5.6/MGLToolsPckgs/AutoDockTools/Utilities24/prepare_ligand4.py ~/bin
sed -i '1 s/python/pythonsh/' ~/bin/prepare_ligand4.py

ln -s `pwd`/mgltools_x86_64Linux2_1.5.6/MGLToolsPckgs/AutoDockTools/Utilities24/prepare_receptor4.py ~/bin
sed -i '1 s/python/pythonsh/' ~/bin/prepare_receptor4.py

#PyMOL
尚未尝试编译

#Babel
yum install openbabel-2.2.3-1.el6.x86_64

其它可用的软件

  • Docking整合平台 https://sourceforge.net/projects/pyrx/

用到的文件列表

原始文件

  • 1hsg.pdb 蛋白小分子晶体结构
  • 1OHR.pdb 蛋白小分子晶体结构

处理后文件

  • 1hsg_prot.pdb 提取的蛋白结构
  • indinavir.pdb 提取的小分子结构
  • 1hsg_prot.pdbqt 转换后的蛋白结构
  • indinavir.pdbqt 转换后的小分子结构
  • 1hsg_indinavir_dockingResult.pdbqt 上面两个分子的docking结果
  • 1hsg_prot_all_h.pdbqt 转换后的蛋白结构(加所有的氢)
  • 1hsg_prot_all_h.pdbqt 转换后的小分子结构(加所有的氢)
  • 1hsg_indinavir_dockingResultAllH.pdbqt 上面两个分子的docking结果
  • 1hsg_indinavir_original_tutorial_result.pdbqt 原始教程中docking结果

参考

  • Detailed tutorial http://sbcb.bioch.ox.ac.uk/users/greg/teaching/docking-2012.html
  • Detailed command line tutorial (not read yet) http://sebastianraschka.com/Articles/2014_autodock_energycomps.html#1-preparing-a-protein
  • 官方文档 http://vina.scripps.edu
  • PyMOL操作手册 https://pymolwiki.org/index.php/Practical_Pymol_for_Beginners
  • PyMOL APBS https://pymolwiki.org/index.php/APBS
  • PDBQT文件格式解释 http://autodock.scripps.edu/faqs-help/faq/what-is-the-format-of-a-pdbqt-file
  • APBS使用文档http://www.poissonboltzmann.org/examples/comp_tut/
  • 本文理论部分总结自http://www.docin.com/p-93380394.html
  • AutoDock 4 for virtual screening http://autodock.scripps.edu/faqs-help/tutorial/using-autodock4-for-virtual-screening/UsingAutoDock4forVirtualScreening_v4.pdf
  • http://blog.sina.com.cn/s/blog_602a741d01010yhk.html
  • http://people.pharmacy.purdue.edu/~mlill/software/pymol_plugins/tutorial.shtml
  • http://bioms.org/thread-58-1-1.html
  • http://www.docin.com/p-1324133758.html
  • PyMOL script https://pymolwiki.org/index.php/Displaying_Biochemical_Properties
  • Hydrogen bonds http://pldserver1.biochem.queensu.ca/~rlc/work/pymol/
  • Hydrogen bonds http://blog.sciencenet.cn/blog-950202-728312.html
  • PyMOL中文文档 http://wenku.baidu.com/view/770dc281b52acfc788ebc949.html
  • Hydrophobic surface http://www.protein.osaka-u.ac.jp/rcsfp/supracryst/suzuki/jpxtal/Katsutani/en/hydrophobicity.php
  • PyMOL scripts http://rosettadesigngroup.com/blog/10/pymol-scripts/

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2017-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏社区的朋友们

TAF 必修课(七):负载均衡

前面在过载保护章节中已提及了负载均衡,顾名思义,本节要探究的对象为负载/请求。负载均衡除了起到过载预防的作用,本质上是提高了系统的吞吐量,最小化响应时间,到达资...

5830
来自专栏SeanCheney的专栏

《Python数据分析》2nd

《Python数据分析》(Python for Data Analysis, 2nd Edition)第二版出了,目前还没有中文版,这版的代码适用于Python...

4088
来自专栏大数据风控

R文本挖掘-中文分词Rwordseg

我们的数据分析工作,不仅仅有对数据的分析,还有对文字资料整合的统计分析。在进行词频统计之前,有一项必须要做的工作就是中文的分词。 语料库的处理 语料库 语料...

2996
来自专栏吉浦迅科技

DAY46:阅读Surface Reference API

reads the CUDA array bound to the one-dimensional surface reference surfRef usin...

1115
来自专栏何俊林

【独家】一种手机上实现屏幕录制成gif的方案

前言:一直以来,很多做apk演示效果时,通过图片的方式,总是没有看起来那样炫丽和灵动。如果能在手机上,直接通过录制屏幕,而变成gif。那可是省去了好多时间。进而...

2327
来自专栏小鹏的专栏

ubuntu下C++如何调用matlab程序

实验平台:   ubuntu  matlab R2016b   g++ 步骤: 1.    设置matlab的编译器 在命令行窗口下,输入并执行如下命令:m...

31710
来自专栏章鱼的慢慢技术路

在Unity场景中控制日夜的轮转

1476
来自专栏点滴积累

geotrellis使用(二十八)栅格数据色彩渲染(多波段真彩色)

目录 前言 实现过程 总结 一、前言        上一篇文章介绍了如何使用Geotrellis渲染单波段的栅格数据,已然很是头疼,这几天不懈努力之后工作又进了...

3685
来自专栏利炳根的专栏

学习笔记TF063:TensorFlow Debugger

TensorFlow Debugger(tfdbg),TensorFlow专用调试器。用断点、计算机图形化展现实时数据流,可视化运行TensorFlow图形内部...

6400
来自专栏生信技能树

转录组数据拼接之应用篇

前前后后接触了一些基因组和转录组拼接的工作,而且后期还会持续进行。期间遇到了各种各样莫名其妙的坑,也尝试了一些不同的方法和软件,简单做一个阶段性小结。上周的今天...

5826

扫码关注云+社区

领取腾讯云代金券