Johannes Kirchmair教授小组JCIM论文:天然产物、药物、生物活性分子果然傻傻分不清楚么?

天然产物浩如烟海,结构复杂多样。正因为天然产物的种类之多,其结构的新颖性也往往能给药物化学家新的启发。目前公开的数据库中,已经可以查询到超过250 000个天然产物的结构,其中至少有10%的化合物其样品是可得的。近日,德国汉堡大学Johannes Kirchmair教授小组在美国化学会出版的Journal of Chemical Information and Modeling杂志上发表题为“Characterization of theChemical Space of Known and Readily Obtainable Natural Products”的论文,分析了常用天然产物数据库中已知的(known)和可得的(readily obtainable)天然产物分子的化学空间,并与已批准上市药物分子(approved drug)进行了对比。

作者构建了一个总计208166个化合物(包括50 366个Murcko骨架)的数据集。这些化合物来自18个虚拟数据库(virtual databases)和9个实体数据库(physical libraries),包括(i)两个百科式的天然产物数据库DNP、UNPD和一个较小的通用天然产物数据库NPs of PubChem Substance Database;(ii)四个与传统中药相关的天然产物数据库TCM Database@Taiwan、TCMID、HIM和HIT;(iii)五个来自非洲植物和海洋生物的天然产物数据库AfroDb、AfroCancer、AfroMalariaDB、NANPDB和SANCDB;(iv)一个中国台湾植物的天然产物数据库TIPdb;(v)一个巴西物种的天然产物数据库NuBBE和(vi)其他一些研究特定生物和源生物的天然产物数据库。9个实体天然产物库,即易得天然产物(readily obtainable natural products)数据集中共计25 524个化合物(包括5704个Murcko骨架)。

作者同时根据DrugBank中的数据库,构建了一个由1867个批准上市的药物(包括1053个Murcko骨架)组成的批准药物数据集;一个Newman和Cragg数据集,含有59个天然产物和320个天然产物的衍生物;以及根据PDB数据库,构建了一个已知与生物大分子晶体结构的生物活性小分子数据集。

作者选取了这些数据库中天然产物的物理化学性质作为化学空间的描述符,探讨了这些数据库中天然产物所覆盖的化学空间。这些理化性质包括:分子量、脂水分配系数、可旋转键数量及比例、手性中心的数量、sp3碳原子的比例、环的数目、芳香环数目、氮原子数目、氧原子数目、氢键受体数目、氢键给体数目、酸性原子数目、碱性原子数目以及数据库中符合Lipinski五规则的化合物比例。

作者通过对每个数据库的理化性质统计,并且结合主成分分析(PCA)的方法,探讨了27个天然产物数据库所含化合物覆盖的化学空间,发现不同的数据库覆盖的化学空间不尽相同:

DNP和UNPD这两个天然产物数据库包含了绝大部分已知的天然产物。由于其化合物量巨大,使得这两个数据库覆盖的化学空间也较为相似,与整个已知天然产物的化学空间也较为相似。NPs of PubChem Substance Database数据库则是一个非常出色的天然产物数据库。在其包括的2760个化合物中,有40%的未在其他数据库出现,整个数据库覆盖的化学空间与批准药物的也较为类似。在与传统中药相关的数据库中,TCM Database@Taiwanese覆盖了其他数据库未包含的化学空间,覆盖的化学空间非常广泛。在这独特的化学空间中包含有大量多手性、分子量大的天然产物分子。而P-ANAPL数据库与其他数据库显著不同,其中天然产物所包含的sp3碳原子比例明显低于其他的库,表明在P_ANAPL数据库中,大量的天然产物包含有芳香环。

图-1已知天然产物、易获得天然产物、批准药物以及各个数据库天然产物的物理化学性质。

图-2主成分分析(PCA)的散点图。横坐标为第一主成分(主要包括相对分子质量、重原子数目、极性表面面积、氢键受体数目),纵坐标为第二主成分(主要包括形式电荷和、酸性原子数目、logP)。深绿色:已知天然产物;红色:批准药物;浅绿色:数据库中天然产物。

作者运用类似的方法对这二十余种数据库进行了一一分析。尽管天然产物所覆盖的化学空间要远大于药物分子所在的化学空间,但天然产物密集的化学空间与药物分子是一致的。易得天然产物数据库中天然产物的结构多种多样,包含了主要天然产物的类别,如黄酮、生物碱、甾体、萜类等等。绝大部分的商业可得的天然产物数据库也与批准药物具有相同的化学空间。Johannes Kirchmair教授小组的工作为从事新药研发的科研人员提供了选择天然产物数据库的参考。

参考文献:Chen, Y.,Garcia de Lomana, M., Friedrich, N. O., & Kirchmair, J. (2018). Characterizationof the Chemical Space of Known and Readily Obtainable Natural Products. Journalof chemical information and modeling, 58(8), 1518-1532.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180913G1AJAP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券