前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >宏基因组binning原理

宏基因组binning原理

作者头像
SYSU星空
发布2022-05-05 14:01:02
9640
发布2022-05-05 14:01:02
举报
宏基因组binning也即将序列进行聚类、分装,是根据基因组特征以及组装信息等将属于不同基因组的序列分离开来的过程。通过binning得到的bins(更确切的说是strain-level clusters或strain-leveltaxonomic units)很可能是实验室无法纯培养的未知的微生物的基因组序列,对其进行组学分析具有重要意义[1]。

在宏基因组中分离单基因组,可利用序列特征或序列组装信息,常见的可用信息主要有以下几种:

a.根据核酸使用频率(通常是四核苷酸频率)、GC含量和必需的单拷贝基因等基因组特征;

b.根据contig序列的覆盖度coverage信息;

c.根据测序数据的kmer丰度信息;

d.根据序列在不同样品的共出现规律(co-abundance patternsacross multiple samples);

e.将序列map到数据库的参考序列所获得的注释信息,也即物种binning。

根据所使用的序列数据不同,binning策略可分为三种:基于组装前的clean reads,基于组装后的contigs,基于注释的基因genes。

⑴基于reads binning

环境样本中微生物的丰度不同,其基因组kmer的期望深度也不同,根据kmer丰度可以直接对reads进行聚类,将属于不同基因组的reads分离开来。其优势是可以聚类出宏基因组中丰度非常低的物种,而且可以分离系统发育关系很近的物种。考虑到在宏基因组组装中reads利用率很低,单样品5Gb测序量情况下,环境样品组装reads利用率一般只有10%左右,肠道样品或极端环境样品组装reads利用率一般能达到30%,这样很多物种,尤其是低丰度的物种的reads没有被没有被组装出来,没有体现在contig中而被浪费,因此基于reads binning才有可能得到低丰度的物种基因组的的测序数据,在实际研究中基于reads binning的LSA(Latent Strain Analysis)方法可以聚类出丰度低到0.00001%的物种,并且对同一物种中的不同菌株的敏感性很强[2]。

⑵基于genes binning

在宏基因组做完序列组装和基因预测之后,把所有样品中预测到的基因混合在一起,去冗余得到unique genes集合,根据gene在各个样品中的丰度变化模式,计算gene之间的相关性,利用这种相关性进行聚类。利用这种策略进行binning得到的bins可称为CAG(co-abundance genegroups),包含有700个以上的gene的CAG称为MGS(metagenomic species),CAG可用进行关联分析,MGS可用进行后续的单菌组装[3]。当然根据具体的聚类算法和相关性系数的不同,对genes binning得到的bins的叫法也不同,除以上外还有MLG(metagenomic linkage groups)、MGC(metagenomic clusters)和MetaOTUs(metagenomic operational taxonomicunits)等,同时,MLG, MGC, MGS和MetaOTUs物种注释的标准也是不一样的。

目前已发表的宏基因组关联分析(MWAS)和多组学联合分析文章中,宏基因组binning很多都用genes binning方法,尤其是疾病的MWAS研究中基本都用genes binning[4]。这种方法的优势是基于genes丰度变化模式进行binning可操作性比较强,过程比较简单,可复制性强,对计算机资源消耗比较低。

⑶基于contigs binning

在宏基因组做完序列组装之后,将所有reads序列map到contigs上获得contig覆盖率,再综合GC含量、核算组成等信息对contig进行聚类,将属于不同基因组的contig序列分开。contig binning目前应用十分广泛,最常用的就是用于组装单物种基因组,目前已经有多种基于contig binning的软件[1],对于丰度较高的物种contigs binning效果较好,但是目前也有些缺陷或者说还有很多可提升的空间,例如对核酸组成信息的利用,开发得就不够充分,四碱基使用频率因简单而被广泛使用和接受,但现在已有研究表明k-mer丰度信息也是很好的种系特征,同时越长的k-mer含有越多的信息,还有基因和参考基因组间的同源关系也是有价值的种系信号,但这些都还没有被自动化的binning软件整合。

binning结果对于参数设置是很敏感的,但是很多binning软件只有有限的可调整的参数,这使得想要获得高质量的bins经常需要手动调整。

参考文献:

[1] Sangwan N, Xia F, Gilbert J A. Recoveringcomplete and draft population genomes from metagenome datasets[J]. Microbiome,2016, 4(1): 8.

[2] Cleary B, Brito I L, Huang K, et al. Detectionof low-abundance bacterial strains in metagenomic datasets by eigengenomepartitioning[J]. Nature biotechnology, 2015, 33(10): 1053-1060.

[3] Nielsen H B, Almeida M, Juncker A S, et al.Identification and assembly of genomes and genetic elements in complexmetagenomic samples without using reference genomes[J]. Nature biotechnology,2014, 32(8): 822.

[4] Wang J, Jia H. Metagenome-wide associationstudies: fine-mining the microbiome[J]. Nature Reviews Microbiology, 2016,14(8): 508-522.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微生态与微进化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档