基于机器学习寻找与药物代谢相关微生物及其代谢酶的一种新方法

文献ID

研究团队:Indian Institute of Science Education and Research

发表时间:2 August 2017

期刊名称:Scientific Reports

影响因子:4.2589

A novel approach for the prediction of species-specific

biotransformation of xenobiotic/drug molecules by the human gutmicrobiota.

研究背景

近年来,越来越多的研究发现,人体内的肠道微生物具有强大的代谢功能,可以改变口服药物在人体内的代谢,造成许多药物在不同人的体内发生药效差异。

目前,该类研究重点在于寻找与药物代谢相关的微生物,以及这些微生物代谢药物的关键酶类,研究方法大都是繁琐而复杂的实验,通常耗时耗力,不过也算已经初见成效,比如研究发现强心类药物地高辛,它会在一些人群体内微生物的作用下被代谢成无药效的二氢地高辛,从而失去药效。

而本文开发了一种新的基于机器学习的方法来预测与药物代谢相关的肠道微生物及其代谢酶,就目前来说,这是已知的唯一一种寻找药物代谢相关微生物及其相关酶类的非实验方法,作者将该方法通过网站的形式开放出来,以供科研人员使用。DrugBug :http://metagenomics.iiserb.ac.in/drugbug/

概述

人类肠道拥有超过100亿种微生物细胞,这些细胞分别来自于1000个不同的菌种,因此,在人体肠道处实际存在一个巨大的代谢酶库,除去宿主本身的酶,该库也显现出了巨大的代谢组活性。这些细菌代谢活性也影响着人类的代谢,生理情况,营养摄取以及免疫系统的活性,因此它对人类的健康以及诸如IBS,肥胖还有二型糖尿病等疾病具有重大意义。肠道微生物多样的代谢活性可以调控宿主的代谢机制,这种调控是通过干预宿主从饮食中获取的能量和重要营养以及药物分子的代谢来是实现的。

在过去三十年间已经有很多关于肠道微生物代谢药物分子的报道。然而,关于肠道微生物在代谢,生物利用率,生物活性,药物毒性的效用情况还未得到充分研究。此外,在任何一个人体内的肠道微生物结构都是由诸如饮食,地理,抗生素以及益生菌,当然也包括遗传因素比如宿主基因组的改变所塑造的。因此,任何药物的代谢都可能被个体身体情况的特异性以及与宿主代谢相关的肠道宏基因所影响。诸如扑热息痛,地高辛几种药物已经再药物应答方面显示出人群特异性,这种特异性与人肠道细菌的代谢活动息息相关。类似的,至少40个治疗药物已经被发现会被人肠道微生物所代谢。然而,除了少数案例,大多数肠道微生物物种及其代谢酶仍未被鉴定。许多研究证明药物分子的的代谢,是由肠道微生物导致的,比如大肠杆菌代谢氯霉素,埃氏类杆菌和普通拟杆菌代谢索利夫定,厚壁菌门代谢环磷酰胺,大肠杆菌代谢奥拉多斯。

诸如核磁共振(NMR),液相色谱(LC-MS)的代谢谱图一类的实验方法,能被用来确定相应的代谢酶及与药物分子代谢相关的细菌。然而,在宿主-细菌和细菌-细菌之间的复合物和代谢相互作用阻碍着测定出究竟是哪肠道微生物在特异性地代谢药物分子。这种方法更是受限于时间周期长,枯燥无味的实验研究(包含了宿主微生物对每个药物代谢分子的深度代谢谱图)。因此,对于大多数在被人体吸收前就遇到肠道微生物的口服药物,肠道微生物物种和相关代谢酶依旧是未知的。在这样的情形下,急需一种有效的计算方法用于能够代谢药物分子的肠道微生物及其相关酶的预测。

目前,许多工具都能够预测基于人类phase-I和phase-II的药物代谢途径,也就是MetaSite,Metaprint2D,ADMET预测机,代谢分子模拟+,RS-WebPredictor以及FAME。就本文作者所知,目前还没有工具或计算方法能用来预测能代谢药物分子的人肠道细菌代谢酶基因。一种酶能和它们作用底物相似的分子发生作用,并且这种特性是普遍的。因此,所有已知的肠道细菌代谢酶分子底物特性可以用于预测代谢酶以及能实现生物转换的肠道微生物。因此,在本研究中,实现了一种整合药物信息学以及机器学习的方法用于预测代谢酶,以及能代谢药物分子的相关微生物。

数据来源

▲491个人类肠道微生物的基因组序列(324697个有EC号的代谢酶),分别来自NCBI,HMP,EMBL-EBI

数据来源

▲1.构建肠道微生物代谢酶数据库:

从UniProt上下载以前文献(与微生物药物代谢相关的)涉及到的酶蛋白序列和对应的EC号,构建一个包括酶蛋白序列及EC号的参考数据库,再利用这个数据库基于Blast蛋白比对491人的肠道微生物的基因组序列,找到来自不同细菌基因组的所有蛋白,然后把这些找到的蛋白,以及通过EC号找到的注释信息构建成一个微生物基因组代谢酶数据库。(该数据库也包含了每一个细菌基因组的分类信息)

▲2.构建肠道微生物酶作用底物数据库:

通过KEGG找到上述酶数据库中酶对应的酶作用底物(根据EC号),及其对应的EC号。对于找到的这些酶作用底物中,一些辅助因子(如水,ATP等)被手动去除了,只要了那些最重要的底物化合物来构建底物数据库(使用了Open Babel去除了结构冗余的底物,只选出了那些最具代表性的)。这样筛选之后剩下了2324个分子,又由于能被多种代谢酶代谢的底物会使搜索结果变得冗余而失去可信度,所以这一部分底物也被去除了,最后只选中了1609个底物分子来建库。这些底物根据它们对应的的代谢酶EC标签被分成了6类(各类比重见下图)。

▲3.(分子)指纹印迹计算

要构建机器学习模型,就需要从搜集到的每一个分子中提取特征(即分子指纹印迹),为了实现对于每个分子提取的一致性,本文作者使用了PaDEL软件计算了10个不同的(分子)指纹印迹(fingerprints),并使用了Weka计算出了一个混合的指纹印迹(见下图)。

▲4.PCA分析(主成分分析):

PCA分析是用来分析高维度数据中的关键成分,从而起到降维的作用。在本研究中,对6类底物分子进行了基于EC类和EC子类的PCA分析,实现方法是R中的prcomp函数,并使用库’ggbiplot’画出了图像(其中一幅如下)。PCA分析的结果表明当前的数据集分布很不均匀,必须要选择合适的方法进行标准化。

▲5.构建训练数据集:

由PCA分析可知,原数据集是不均衡的,(65.75%底物分子是属于EC1与EC2,仅6.83%底物分子属于EC5和EC6),所以使用了R中的Caret

包里的upsampling策略解决该问题,最终得到了两个数据集:①原始数据集:without-sampling的数据 ②使用了upsampling的数据集:with-sampling数据。

▲6.机器学习方法的选择与实现:

⑴选择:使用了WeKa来比较多种不同的机器学习方法,比较结果如下图:

显而易见,随机森林是最优的。

⑵实现:使用了R里的randomForest(后简称rF包)包,mtry参数由R中rF包里的tuneRF函数算出,且不断更换ntree值(100-500,步长为100),同时,最优mtry值也跟着改变,以此来寻找最优时的随机森林模型,模型评估相关参数信息如下:

▲7.(分子)指纹印迹的选择:

选择在ntree为500(500时袋外错误率最低,见下图),且mtry为最优值时,%OOB错误率(袋外错误率)最低的指纹印迹。

▲8.随机森林模型的构建与评价:

对两个数据集(with-upsampling和without-upsampling)各构建了7个不同的随机森林模型,7个中1个是关于EC类的分类(EC class-specific RF model),另外6个是关于EC类的子类分类(EC subclass-specific RF models)。

每个模型由以下三种办法评价:

①交叉验证(cross-calidation):

在本研究中,作者使用了ten-fold cross-calidation,即将数据分为了10个等量的子集,一个用来测试,余下九个用来训练,用R中的CV实现。

②随机抽取数据用于训练与测试:

75%数据用于训练,25%数据用来测试,训练与测试的数据都是随机选择。

③盲选数据集(blind set):

使用了盲选的162个分子(从每个EC类里随机选了10%),来测试构建的随机森林模型,余下的1447个分子用来训练模型,最终把这162个分子也加入训练集中,构建成最后的随机森林模型。

▲9.输入分子的相似性搜索:

使用了Open Babel在EC subclass-specific substrate数据库中进行了分子相似性搜索,使用相似系数(tanimoto coefficient)来衡量分子相似性。

Open Babel软件提供了3种不同的(分子)指纹印迹:FP2,FP4,MACCSFP,若数据库中的某个分子与输入分子有两个印迹达到匹配(top hit),则该分子视作相似分子,两个分子间的相似系数(TF)计算公式如下:

▲10.将该方法实现在线网页化,并进行相关药物肠道微生物和代谢酶的预测。

结果

1. 代谢酶及底物数据库:

为了实现用于预测药物代谢酶和相关肠道微生物的方法,第一步就是去构建一个代谢酶以及他们的底物分子(来源于所有已知的人肠道微生物)的庞大数据集。因此,一个药物代谢酶数据库因此而构建完成,该库中包含了来自491个人肠道微生物的基因组,324697个含有EC编号的代谢酶。针对于这些属于不同EC类别的代谢酶,构建了一个包含1609个分子的底物数据库。通过这种方法,作者便可以探索微生物代谢酶的底物分子。这些底物分子便可以用来构成机器学习方法中的数据集。

出现在EC类中的酶底物分布显示出在不同类别中他们各自数量的不均衡性。被来自第一类和第二类酶类(EC1和EC2)代谢的分子数量是最多的(65.57%),然而被EC5和EC6酶类代谢的分子数只占底物分子总数的6.83%。第一类和第二类酶类分别是氧化还原酶类和转移酶,代表了人肠道最常见的代谢反应。另一方面,对于EC5(异构酶)和EC6(连接酶)相关的酶类反应就没那么常见了,因此,能被这些酶类代谢的底物分子相对的就很少了。类似地,在不同EC子类中的底物分布显示55个子类中,22个子类能代谢的底物少于5个,然而仅有三个子类可以代谢超过100个分子。以上的分析表明’类不均衡是由于被不同EC类代谢的分子数目不同导致的。

机器学习方法的表现是和类不均衡性息息相关的,因此,要想在训练时得到可靠的预测就需要大量的实例。因此,为了解决类不均衡性问题,作者采用了上采样(upsampling)策略,通过R中的Caret包的upSample实现。下采样策略也被用来进行了测试,但和上采样策略以及无-上采样策略比起来,效果更差,因此,不考虑将它纳入后续的分析之中。最终的模型使用了两个数据集,一个采用了上采样策略处理,另一个采用无-上采样策略处理。

2. 每个分子生成的指纹印记:

底物分子的结构特征可通过基于指纹印记的子结构所代表,这可以被用来作为构建机器学习模型或者实现分子相似性搜索的输入特征。因此,对于每个在底物数据库中的分子,都用‘PaDEL’计算生成了10个标准的指纹印记。从每个指纹印记选择了最好的属性用于合并生成了新的杂合指纹印记。在这种情况下,重要属性就能够区分不同的EC类和彼此不相关的EC类。

3. 底物分子在不同EC类和子类中的多样性:

为了鉴别在六个EC类和EC类的每个子类中具有最高特异性的组分,作者对于在第、底物数据库中的所有的1609个分子的分子指纹印记进行了PCA分析。对于六个EC类而言,特异性从PC-1到PC-6显著减少。同样的,对于所有属于一个EC类的EC子类从PC-1到PC-10特异性显著性减少,对于所有的6个EC类都呈现出同样的趋势。PCA分析的结果说明了:对于实现一个数据集高度多元化的预测模型,由于总数不超过50%的特异性成分,能做的降维是很有限的。因此,需要用一种强大的机器学习算法来实现可靠的分类模型。

4. 用于分类而构建的EC类和子类专属的随机森林模型:

为了选择分类效果最好的模型,作者使用了Weka来进行不同机器学习方法性能的比较。在该评价体系中(使用10重交叉验证),使用来自6个不同的EC类的完整分子数据集作为计算所有6个EC类的分类正确率的输入值。在不同的机器学习算法中,随机森林表现最优,因此,可以考虑使用R中的随机森林包去做深度优化以实现最低的丢包率以及最高的分类精度。诸如mtry(每个分类节点随机选择的变量子集),ntree(森林中决策树的数目)之类的参数优化,对每个指纹印记都做了。为了选择出构建随机森林最好的指纹印记,作者使用了R随机森林包中的tuneRF函数去优化每个指纹印记的mtry。

对于每个指纹印记,袋外率的值都是用优化后的mtry和500的ntree值计算的。关于六个EC类,在10个指纹印记和混合印记中,混合印记显示出了最低的袋外率。作者也注意到使用了上采样策略的数据集比没有使用的数据集效果更好。最终的随机森林模型使用了通过优化后的mtry及ntree参数的混合指纹印记来进行构建。

5. 作者在在线服务器上选了部分药物进行与预测,发现预测的结果与这些药物已知的微生物代谢信息是一样的。

讨论

许多实验方法已经显示许多人类肠道微生物的代谢活动对于人类肠道处的药物分子代谢起着巨大作用。肠道细菌可以改变遭遇他们的口服药物的药代动力学和药效特性。既然大多数口服药物首先遇到肠道微生物,那么它们就可以改变药物在肠道处的药效和毒性。此外,许多宏基因项目已经显示在不同人群中的微生物分布和组成的多样性。因此,关于特异性代谢药物分子的细菌菌种的了解将会对于预测个人对于药物是否会被某些微生物代谢很有帮助。鉴别肠道微生物在药物代谢方面的潜在角色对于设计更有效的药物分子是及其重要的。

对于该篇文章的方法而言,关键在于数据集的有效程度,也就是说,我们对于药物代谢相关的微生物及其代谢酶的研究得到的结论越多(且要准确),以及(分子)指纹印迹的选择越好,则DrugBug的预测就会越准确。

该方法的诞生无疑为微生物与药物代谢的研究提供了一种新的可能性,是广大研究人员的福音。

1. DrugBug在线网址(分子输入格式为mol/sdf格式):

http://metagenomics.iiserb.ac.in/drugbug/algorithm.php

解读人:廖和睿

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181026G0XIVY00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券