开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

如果进行宏基因组数据分析

共 7 篇文章

1

个人电脑也做做宏基因组玩玩

2

宏基因组学习笔记2

3

宏基因组学习笔记

4

使用melonnpan通过扩增子或宏基因组测序数据有效预测微生物群落的代谢图谱

5

qiime2+picrust1学习笔记

6

[翻译]q2 picrust2 教程

7

肠型分析学习笔记

清单首页如果进行宏基因组数据分析文章详情

清单「如果进行宏基因组数据分析」 03/07

宏基因组学习笔记

一直以来，看到这本书《Statistical Analysis of Microbiome Data with R》活跃在朋友圈和公众号，既然口碑这么好，当然有必要学习下啦！分享记录一下书中我所认为重要的点。

第一章宏基因组数据的生物信息分析

这章的内容基本上是概论和综述，不过读读同样有收获的，毕竟大牛写的书，认知还是比我水平高很多的。

16S

1.几个概念

人类微生物组的概念，这里首先谈了microbiota和miceobiome两个词的区别，前者是指一个特定环境中的群落微生物物种，后者是物种和他们的基因的集合。

一代和二代测序相关的内容就没有多少新知识了，毕竟书的编辑时间在2016年左右，许多知识还停留在以前，这里略过。

关于特种分类方面，涉及了系统发生学（Phylogenetics）的概念，作者从林奈的拉丁文双名法，说到了界门纲目科属种，以及在这之上的Domain(域)的概念，这个好像用得不多，应该是分类水平太高了。

OTU的定义，一般是97%相似度为界，因为同一种的16S相似度在97%以上，相应地，属在5%，门在20%，这个现在有争议。在某些时候，OTU被认为“等同”于种。

2. 16S测序的优缺点

优点是：

1）16S基因的广泛存在性，方便。
2）具有保守区和可变区，方便设计通用引物扩增片段并测序。
3）有学者设计的优秀引物
4）有较完备的数据库
5）价格便宜，流程相对成熟

缺点是：

1）PCR有扩增的偏好性
2）会过高估计多样性
3）不能直接获得功能相关信息
4）无法用来研究新物种
5）流程缺乏“金标准”

3.几点额外收获

1.相比样本直接提取，放-80冰箱后检测，厚壁菌门/拟杆菌门的比例会增加。我认为应该是厚壁菌门较多是革兰氏阳性菌，冻过后破壁率增加，更易提取？

4.质量控制

1.识别和去除人工嵌合体序列（以前是根据参考数据库处理，现在大多云噪了吧）。2.去除低质量和过短的序列 3.去除测序错误（也是降噪）

5.OTU聚类

两个方法分别是基于系统发生学的方法和基于相似性的方法。前者依赖于一个完备的数据库，算力消耗小（说实话如果样本量不是太多不会消耗太多算力，普通笔记本电脑足够啦），分类稳定，但是不能分析新物种。后者克服了这个缺点，相应的缺点就是耗费计算资源，相对慢，大内存（RAM)，主流研究都是采用这个方法的。

6.为什么用OTU做分析单元

有几个聚类方法可以完成聚类OTU，平均邻接（average neighbour）算法是最具鲁棒性的。OTU是否代表一个独特的序列在生物信息学上还是一个难题，有以下几个原因：

1.这些等级的相似度阀值没有经历过严格的测试。
2.序列独立于参考数据库构建OTU，可能把不同的分类放在同一个OTU里
3.只根据OTU估计样本多样性会夸大结果 sci-hub大法，地址备份在这里：https://link.springer.com.sci-hub.tw/book/10.1007/978-981-13-1534-3

- END -

举报