前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >宏基因组笔记(第二章)

宏基因组笔记(第二章)

作者头像
用户1075469
发布2020-11-11 16:08:06
6690
发布2020-11-11 16:08:06
举报
文章被收录于专栏:科技记者科技记者

一直以来,看到这本书《Statistical Analysis of Microbiome Data with R》活跃在朋友圈和公众号,既然口碑这么好,当然有必要学习下啦!分享记录一下书中我所认为重要的点。下面是这本书的第二章:

什么是微生物组数据

2.1 测序

16S或者宏基因组测序后,数据使用Qiime或Mothur,比对或者denovo聚类生成OTU表格,注释获得物种分类表,以及相对丰度。

2.2 数据结构

是结构化的进化树,系统发生关系和进化。样本(行)-特征(列)偶发表,特征可以是OTU、基因 、物种分类或者序列变异的表。

2.3 特征

  • 重复、样本、个体、对象、描述或者生态采样点-物种、OTU等丰度矩阵。
  • 过度分散的,这是因为:1)DNA/RNA测序的测序文库大小差别很大;2)变化幅度超过多元回归的预测,如泊松,第11章,我们采用R包来处理这些。

2.4 稀疏多0矩阵

  • 稀疏多0,在一些样本中许多物种分类或OTU都是缺失的。1)样本的0,又称0计数,可能是取样问题;2)结构的0,真0,绝对0,也就是真的没有;3)约等于0,不是真的0,而是低于噪声误差。
  • 0的来源,1)测序假阳性,测序深度的差别;2)一个给定组分,发生率低,测序总深度也低时;3)数据处理时,转换成相对丰度时,比对和标准化的影响。

2.5 挑战

以上的这些数据特点为研究者带来了各种挑战。包含统计学上的挑战,还有:

  • 1)如何组织成进化树;
  • 2)如何减少数据的维度,以及p值过大和n值过小;
  • 3)如何处理罕见物种(OTU);
  • 4)如何对过度分散、稀疏多0矩阵进行建模。例如人的肠道微生物研究就面临类似的问题。

分散性是16S数据处理的一个主要挑战:

  • 对精确参数估计的模型来说是一个难题,甚至是不可能实现的任务。例如,由于太多0的存在,物种(OTU)的分布会很混乱,而且没办法使用标准的模型进行分析。
  • 多0也让非参数模型失效,非参模型主要基于秩或者中位数,所以也没法用。

过多0的解决失败会导致偏好性的参数估计和误导结论。

2.6总结

在本章,我们观察和总结了微生物组数据的特点,我们了解了它们长什么样。微生物组数据是组成性的,高维度的,不明确的,过度分散和多0的。这些特点对数据分析造成很大挑战,让参数和非参模型均失效。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-11-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技记者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是微生物组数据
    • 2.1 测序
      • 2.2 数据结构
        • 2.3 特征
          • 2.4 稀疏多0矩阵
            • 2.5 挑战
              • 2.6总结
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档