关键词:
箱式图;DADA2;群落构建;微生物功能;ASV;VPA;KEGG;wilcoxon检验;Venn图;simpson evennes;βNTI & RC;kraken2;LSA;重抽;R内存;possion回归
≥5
问:DADA2处理一批文献里的ITS数据,280个样品,出来的结果发现ASV水平没有一个ASV是由两个样品之间共享的,按照文献说的97%转成OTU后才有一半的OTU是被共享的。
答:这就是我上周说的样本多我不建议用DADA2做。是方法本身的问题。只能换方法解决。
问1:请问大家是如何看待我们计算随机性和确定性过程其本质内涵的。比如焦硕老师这篇Stochastic community assembly decreases soil fungal richness in arid ecosystems,随机过程似乎是作为 因 来导致 多样性的减少 这个果的。
答1:个人感觉内涵就是讨论不同生态系统中环境压力导致的群落变化的比重。
问2:是不是只要有随机过程的文章 随机过程的贡献都很大?
答2.1:不是。盐湖里盐度重要,热泉里温度重要。这个东西是很玄,可能极端环境 确定性过程重要。
答2.2:这个跟算法和pipeline也有很大关系....反正就是很玄。
问3:看到有人做河流微生物的随机过程和确定性过程 因为随机过程包括限制扩散 但是水流也会导致微生物的扩散 所以怎么知道扩散是由随机过程的扩散带来的还是水流带来的呢?
答3.1:同样是河流里的微生物群落构建,有人说是确定性过程控制,也有人说是随机性过程控制的。我也感觉这东西很难有个一致说法。
答3.2:跟空间尺度可能有关。
答3.3:确定性和随机性的群落构建是产生和维持群落多样性的高层级过程,本身在定义的过程中就把多样性的产生和维持当成过程的果,换句话说就是多样性是现在,群落构建是过去是原因。
答3.4:确定性和随机性过程在群落构建过程中本身可能就容易混淆,vellend在生态群落理论中把群落构建的高层级过程总结为咱们现在常见的选择、扩散、漂变、成种(多样化),他提出随机性是考虑物种自身特性后仍然发生随机情况,但是现在有一些研究也说明了选择和扩散以及种群大小都能不同程度的影响随机性生态漂变。
答3.5:selection,dispersal,diversification和drift这四个过程只有selection是完全的确定性,drift是完全的随机性。dispersal,diversification既有确定性成分,又有随机性成分。现在很多研究都在尝试将这两个过程再具体细分为是确定性还是随机性。
问:我们在研究微生物的某项功能的时候(比如CH4的氧化),我们是要关注微生物生物量、功能基因的丰度变化(pmoA),还是关注相关酶活性的变化呢? 2、 如果发现氮输入改变了CH4的吸收,但功能基因的丰度变化(pmoA)没有改变,而氧化酶的活性却是发生了改变,这个是怎么解释。
答:此类问题室内实验≠原位情况 基因丰度≠动力学 单一功能基因≠群落功能。
问:对于基因丰度和动力学的指标不相同时应该更倾向于依据哪个?
答:高水平文章跟破案一样 要形成证据链,任意一种手段描述就行,结果有矛盾太正常。两个都要解释清楚,或者舍去一个不好解释的结果。
答1:不可以。在属或者种水平去做特定的分析是可以的,但:合并的这些和因为分类原因没合并的asv已经不是一个概念了,除非丢弃那些分类不了的。
答2:不可以简单的将相同分类水平的合并,不太了解deblur,但是在DADA2当中的注释,划分为某一类群的最小置信度是50,所以相同的注释信息并不代表相同的序列信息,如果要合并还是要用Vsearch来做比较合理。
The minimum bootstrap confidence for assigning a taxonomic level
这个值可以根据需求调整,而且DADA2好像也有相应的注释到种的方法和数据库(细菌),100%的注释精度。
问2:是不是像表达量:FPKM有一个normalize的算法?
答2:RPKM和FPKM是应用于RNA-seq的,是为了解决基因表达的问题,应该不太用于扩增子,逻辑应该不一样。
貌似数据之前存在共线性,用赖老师的rdacca.hp包就不用考虑共线性了。
问:从KEGG下载了ko00001.json,用脚本整理的时候漏了好多ko号,又不知道哪里有问题
答:有个包keggrest可以解决。
问:有两个组的人,分别收集了五种症状的有无情况,用什么统计方法比较两个组人的症状的数量是否有差异比较科学呢?不知道wilcoxon检验是否科学?
答1:wilcoxon test是基于rank的检验,担心的就是因为只有0-5的数据范围,可能出现II类错误会比较大。wilcoxon是非参数检验,比起参数检验检,对数据分布假设的要求没那么高,但是II类错误的概率会大一些,但是wilcoxon本身第一步需要对样本数据进行排序,0-5的范围,排序可能排不开,都堆在一起了。
II类错误意思是, 如果用wilcoxon test算出来是显著,那可以说显著。如果用wilcoxon test算出来不显著,那可能是II类错误大造成的,可以再试试GLM看显不显著。
就像在机器学习当中,需要去权衡不同算法的解释性和算法的灵活程度,两者很难同时得到,很多东西都需要权衡取舍。
答2:非参数检验普遍比较保守,得到不显著的结果不一定真不显著
VPA如果结果是负的直接填0就行 。负值没有生物学意义。
可参考赖江山老师文章:https://mp.weixin.qq.com/s/6l6x11ZF_MJCJAJZOitrOA
多样性和相似度概念介绍:https://mothur.org/wiki/calculators/
群落构建概念看周集中老师这篇综述:
Stochastic Community Assembly: Does It Matter in Microbial Ecology?
计算随机性和决定性需要每一个分组下至少有6到8个重复,然后计算每个分组下不同重复之间的bNTI和RC,然后根据它们的值来判断生态过程,每个分组下任意两个重复之间都会有一个生态过程,然后就可以统计那个分组里不同生态过程所占的比例了。然后就可以比较不同分组之间到底是哪个生态过程占主导。不同分组的样本之间的生态过程是不考虑的,比如第一分组里的第一个重复和第二个分组里的到第一个重复之间bNTI和RC所判断的生态过程是不考虑的,只考虑组内!
一个计算方法:
MPB:原核微生物群落随机性和确定性装配过程的计算方法
https://mp.weixin.qq.com/s/E7C_2xzWq8nxO5TewED7zQ
问:汇总是采用百分比还是中位数?
采用中位数的一个介绍:https://mp.weixin.qq.com/s/k2UYgNTOhlRxmbaCMBrGmg
问:关于kraken2软件的输出report结果遇到的疑问。report结果第二列的解释是"Number of fragments covered by the clade rooted at this taxon",是否这里的‘fragments’指的就是所设置的k-mer,即<第二列的值> * k = 数据映射到对应基因组(taxon)的bp数呢?
答:指的就是归类到该taxon及该taxon以下的read数。
问:只有6个时间点,每个时间点有4个重复,合理吗?
答:There is also a minimum sample number requirement for eLSA analysis. We suggest the sample number to be greater than 5+D, where D is the desired delay limit, since shifting and trimming by eLSA will further reduce the effective sample number and result in lower statistical power.
参考:
https://bmcsystbiol.biomedcentral.com/articles/10.1186/1752-0509-5-S2-S15#Sec2
局部相似性分析(LSA)计算变量间关系的时滞效应及关联网络构建:
https://mp.weixin.qq.com/s/NNp85kncYxmWiEaQQAO17g
要。
不是很清楚。我还见过迁移率m大于1的。
gc()清理一下内存;把不用的对象rm()掉,如果还不行就没办法了。
感觉应该可以,不过可以关注一下数据是否是over-dispersed。
一篇关于over-dispersed的文章:https://data.princeton.edu/wws509/r/overdispersion