metagenomics, 在希腊语中meta意思是超越的。宏基因组研究的目的是通过对菌种(株)的鉴定,获得真实的多样性数据,功能,协作和进化。宏基因组分析的三个任务是物种分析(它们是谁),功能分析(能干什么,潜力),比较分析(怎么比较它们)。
优点:
有两种方法,一种是基于reads比对的,另一种是基于序列组装的。前者适合进行物种组成、宏基因组功能和代谢途径分析;后者可以进行物种分类和基因功能预测。
首先是序列打断成合适的长度,加接头。然后,片段大小选择和去除无接头的序列。最后,PCR选择有双端接头的,保证有足够的文库序列量。上面方法多少还是有些偏好性,直接测序方法可以避免,但是还不够成熟。
不同于16S的扩增为目的,宏基因组测序样本DNA提取量要足够。
把reads组装成contigs,将会使下游分析变得轻松。有两种组装方法,基于参考的组装和从头组装。基于参考的组装,首先要有一个相近的参考基因组。如果有大的插入、缺失或者多态性,效果会很差。相比de-nova组装,耗计算资源少些,更小的运行内存和时间。有许多组装软件,各有千秋。几个技术性的问题是,1)没有参考基因组比较组装结果;2)组装取决于有没有相近的基因组;3)另外,组装也受测序深度的影响。因此,组装软件的开发还处于初级阶段。
把reads、contigs分类成组,每组可能代表一个个体的基因组或者相近个体的基因组。组装一个完整的基因组(环)是有难度的。注:现在纳米孔测序是可以实现的。有几个分箱方法,最有常用的是基于组成的、完全基于相似度的方法。也有同时使用两者的混合方法,以及分级聚类、测序深度等其他方法。因为不同物种有不同的保守核酸序列,可以映射到不同的物种参考基因组,GC含量以及K-mers等也不同,所以可以分箱。基于相似度的分箱,看序列与参考数据库的相似性来分。基因组和物种分类分箱工具都有,不同工具在重现基因组、样本分类准确性、平均分箱完整度和纯度(物种分类分箱)、低丰度物种的表现不同。分箱有几个问题:
基因组和宏基因组功能注释前者用组装的长contigs注释,后者以未组装的reads或短contigs注释。注释用的工具主要有RAST、IMG等。
基因预测和功能注释注释这个过程主要分两步,也就是基因预测和功能注释,主要是鉴定基因、蛋白和RNA。和单个基因组功能注释类似,分配假定基因功能和邻近分类,但只有不到一半的宏基因组数据能被注释。这主要是以下几个原因: