这篇文章介绍了一种利用机器学习从大量宏基因组和微生物基因组数据中识别抗菌肽(AMPs)的方法。研究团队创建了一个名为AMPSphere的数据库,包含863,498种非冗余肽,其中大部分之前未曾被发现。通过实验验证,这些抗菌肽对抗药性病原体显示出有效性,主要通过攻击细菌膜来发挥作用。该研究为发现新型抗生素提供了新的途径,并揭示了这些肽的进化起源。
抗菌肽(AMPs),也称为宿主防御肽(host defence peptides,HDPs),是所有生物类群中先天免疫反应的一部分。原核和真核细胞之间的基础差异,可能成为抗菌肽的发挥作用的靶标。这些肽是强效的广谱抗菌剂,有潜力成为新型治疗药物。抗菌肽能杀死革兰氏阴性和阳性细菌、包膜病毒、真菌,甚至转化或癌变的细胞。与大多数传统抗生素不同,抗菌肽通常破坏生物膜,形成跨膜通道,并可能通过作为免疫调节剂增强免疫力。抗菌肽是一类独特且多样化的分子,通常由12到50个氨基酸组成,包含大量疏水残基和两个或更多带正电的残基。这些肽具有多种抗菌活性,从膜渗透到作用于各种细胞质目标。
AMPSphere使用机器学习(ML)模型Macrel来预测候选抗菌肽(c_AMPs)。
Macrel使用随机森林从大型肽数据集中预测AMPs,其重点在于精确性而非召回率。Macrel是一个pipline,可以处理来自基因组和宏基因组的肽段、contig或reads。
安装参考:https://github.com/BigDataBiology/macrel
conda install -c bioconda macrel
网站: https://ampsphere.big-data-biology.org/home
在右侧框中输入fasta格式的sequence,点击submit
输出:
点击download as csv进行下载:
在这项研究中,作者利用机器学习(ML)在全球微生物组中识别了近一百万个候选AMPs。基于之前ProGenomes2数据库中的87,920个高质量微生物基因组以及63,410个公开可用的宏基因组中列出了全球微生物组中的AMPs。从而创建了AMPSphere(https://ampsphere.big-data-biology.org/),这是一个开放获取的、公开可用的资源,包含863,498个非冗余肽段和来自72种不同栖息地的6,499个高质量AMP家族,包括海洋和土壤环境以及人类肠道。大多数c_AMPs(91.5%)未曾在之前的研究中出现过。最后,作者进行了生物活性实验,并发现79个(共100个)合成AMP显示出对病原体或共生菌的抗微生物活性。