前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NC-iCAMP过程解析

NC-iCAMP过程解析

作者头像
Listenlii-生物信息知识分享
发布2020-11-03 15:17:16
2.8K0
发布2020-11-03 15:17:16
举报
文章被收录于专栏:Listenlii的生物信息笔记

Journal: Nature communications

Published: 18 September 2020

Link:

https://www.nature.com/articles/s41467-020-18560-z?utm_source=other&utm_medium=other&utm_content=external&utm_campaign=JRCN_USG_JG02_CN_Stork_OA#Sec1

前几天我们组公众号介绍了最新评估群落构建过程的方法iCAMP。

定量框架揭示了草地微生物群落对气候变暖的驱动力

但是文章没有具体讲解方法是如何实现的。本文进行简单说明。我关注的是整套流程的思路,还有非常多的细节并没有写。

之前广泛使用的stegen的群落构建理论是基于对系统发育树整体打乱的基础上进行的。

Stegen, J.C. et al. Quantifying community assembly processes and identifying features that impose them. ISME J. 7, 2069 (2013).

Stegen, J.C., Lin, X., Fredrickson, J. K. & Konopka, A. E. Estimating and mapping ecological processes influencing microbial community assembly. Front.Microbiol. 6, 370 (2015).

但是真实情况更可能是生态过程在基因型和种群上发生,而不是整个群落。在一个微生物群落中,某些种群处于强选择之下,而其他种群可能处于强漂移之下。这种类型的差异不能使用整个群落级别的度量来识别。

而且不同的生物体对环境变化的反应也有很大的不同。在不同的微生物群中,分散能力、多样化率和对漂变的敏感性也有本质上的不同。

因此,在单个分类单元/谱系的水平而不是整个群落的水平上考虑生态过程是有意义的。

iCAMP的方法就是在系统发育树的的基础上先进一步划分了bins,对bins再利用stegen的基本理论进行群落构建过程的分析。

一、三种binning的方法

1. 基于和高丰度物种的距离。丰度最高的物种作为第一个bin的中心。其他物种和他的距离若小于系统发育阈值(ds),就会被划到这个bin中。若大于阈值,则被划分为一个新的bin。以此类推,生成了一系列半径小于ds的bins,称为严格的bins。然而一些严格的bins可能包含类群太少,不能为进一步的分析提供足够的统计能力。每个小bin被合并到它的最近邻bin中,直到所有bin达到最小的大小要求的nmin。

2.基于成对距离。第一个bin是最丰富的物种,其他物种的成对距离均低于ds。第二个bin包括剩余物种中第二丰富的物种。这个过程一直持续到所有类群被分类到不同的bins。为了保证每个bin有足够的大小, 小于nmin的小bin被合并到最近的邻居中,直到所有bin都达到最小需求nmin。

3.基于系统发育树。系统发育树在与根有一定的系统发育距离时(尽可能短)被截断,在此距离下,所有物种之间的连接都低于阈值ds。在截断点后从同一祖先派生衍生的类群被分组到同一严格bin中。然后每个小的bin合并到最近的bin中。重复这个过程,直到所有合并的bin都有足够的大小(≥nmin)。

所有的binning算法都需要一个可靠的系统发育树,但是如果针对高度分化的标记基因(如ITS),树可能很难构建。在这种情况下,应该考虑一些特殊的系统发育树构建方法(如杂交或约束的系统发育树构建)。

nmin一般取6-96之间。对于模拟数据,nmin为24,对于经验数据,nmin为12。ds默认为0.2.

三种方法结果差异不大,模拟群落中差异小于9%。其中第三种基于系统发育树的略好一些。

系统发育binning的目的是获得充分的bin内部的系统发育信号。为了评价每个单元内的系统发育信号,通过Mantel检验分析两两系统发育距离与生态位偏好差异之间的相关性,其中生态位偏好是指一个分类单元的最佳适合(或相对丰度反映的相对适合度)的生态位。Pearson相关系数R > 0.1和p < 0.05为系统发育信号显著的bin。

a-c,三种算法;

d-f,低中高系统发育信号

二、零模型分析

第二步是每个bin内的零模型分析,可由βNRI和RCbray计算。由于bin内存在显著的系统发育信号,βNRI的系统发育零模型随机化在bin内部进行。而RCbray的分类学零模型是用来推断中性扩散过程的,它不是种特异性的,而是在同一群落下以概率影响所有分类单元,因此跨bin随机化是合理的。RCbray随机化在bin间进行。

注意这个新方法和之前的方法存在几处不同。

首先之前的方法是基于βNTI计算的,而新方法用βNRI。

βNTI通过MNTD (Mean nearest phylogenetic taxon distance,最近种间平均进化距离) 得到,MNTD代表任意一个物种与群落中与自己亲缘关系最近的一个物种的平均进化距离。

βNRI通过MPD (Mean phylogenetic distance, 种间平均进化距离)得到,MPD是群落中所有物种对间平均的进化距离。选βNRI的理由是在中度和高度系统发育信号条件下,其定量准确度和定性的表现上都显著的优于βNTI。在低系统发育信号条件下也略好于βNTI。

其次这里打乱的和计算的是不同bin,而不是整棵树上的物种。

零模型算法约束的是每个分类单元的出现频率,并固定每个样本的总丰富度(如果我没有理解错的话)。

整合bins的结果

第三步是将不同bins的结果进行整合。在个体层面上定义中性已经被证明是成功发展统一的中性理论的关键。因此,一个过程的相对重要性可以被定量地测量为每个bin或整个群落的丰度加权百分比。定性地说,在每次群落(样本)两两比较中,相对重要度较高的过程被视为主导过程。

综合过程如下,这个图表达的挺清楚的:

a,第一步;

b,第二步;

c-f,第三步。

此外,高丰度类群会导致系统生成零模型分析的计算资源需求和时间成本增加,相对丰度低的类群可能会带来更多的技术噪音。

因此在进行iCAMP分析之前,可能需要对大数据进行缩减。比较了三种方法,包括经典的稀释、基于样本间平均相对丰度的切割和基于每个样本中的累积丰度的切割。

稀释导致对漂移的明显高估,这可能是因为稀疏本身是一种随机的抽样过程,它带来了更多的人为随机性,同时也比其他方法去除了更多的序列。其他两个方法性能类似,但是都会导致偏差和错误率的升高。

总 结

如果要用iCAMP的新方法,必须要注意几个参数的选择及方法的局限性:

1.binning过程ds和nmin的选择;

2. 零模型算法的约束条件;

3. 大数据是否删减;

4. 最后对于生态过程的定量,其实还是按照之前的思路算一个平均值。这其中还会有误差。需要未来继续开发新方法。

5. 方法只考虑了bin内部的作用,而bin之间的相互作用则没有考虑。未来可以把功能基因和网络的方法融合到iCAMP中。

6. 其他物种,如真菌的系统发育树可靠性低。可能需要另外特别的建树方法。

下篇介绍iCAMP的基本功能~

点分享

点点赞

点在看

一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。

目前能力有限,尚不能创造知识,只是知识的搬运工。

欢迎大家扫描下方二维码关注我的公众号,若有问题也可直接加我的微信:水岸风堤(lii32703)。请备注姓名及单位,否则自动忽略。

欢迎分享,转载请联系我。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档