一直以来,看到这本书《Statistical Analysis of Microbiome Data with R》活跃在朋友圈和公众号,既然口碑这么好,当然有必要学习下啦!分享记录一下书中我所认为重要的点。
这章的内容基本上是概论和综述,不过读读同样有收获的,毕竟大牛写的书,认知还是比我水平高很多的。
人类微生物组的概念,这里首先谈了microbiota和miceobiome两个词的区别,前者是指一个特定环境中的群落微生物物种,后者是物种和他们的基因的集合。
一代和二代测序相关的内容就没有多少新知识了,毕竟书的编辑时间在2016年左右,许多知识还停留在以前,这里略过。
关于特种分类方面,涉及了系统发生学(Phylogenetics)的概念,作者从林奈的拉丁文双名法,说到了界门纲目科属种,以及在这之上的Domain(域)的概念,这个好像用得不多,应该是分类水平太高了。
OTU的定义,一般是97%相似度为界,因为同一种的16S相似度在97%以上,相应地,属在5%,门在20%,这个现在有争议。在某些时候,OTU被认为“等同”于种。
优点是:
缺点是:
1.相比样本直接提取,放-80冰箱后检测,厚壁菌门/拟杆菌门的比例会增加。我认为应该是厚壁菌门较多是革兰氏阳性菌,冻过后破壁率增加,更易提取?
1.识别和去除人工嵌合体序列(以前是根据参考数据库处理,现在大多云噪了吧)。2.去除低质量和过短的序列 3.去除测序错误(也是降噪)
两个方法分别是基于系统发生学的方法和基于相似性的方法。前者依赖于一个完备的数据库,算力消耗小(说实话如果样本量不是太多不会消耗太多算力,普通笔记本电脑足够啦),分类稳定,但是不能分析新物种。后者克服了这个缺点,相应的缺点就是耗费计算资源,相对慢,大内存(RAM),主流研究都是采用这个方法的。
有几个聚类方法可以完成聚类OTU,平均邻接(average neighbour)算法是最具鲁棒性的。OTU是否代表一个独特的序列在生物信息学上还是一个难题,有以下几个原因:
- END -