前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ISME:微生物网络构建的相关性方法在灵敏度和精确度方面差异很大

ISME:微生物网络构建的相关性方法在灵敏度和精确度方面差异很大

作者头像
Listenlii-生物信息知识分享
发布2022-05-18 08:30:28
2K0
发布2022-05-18 08:30:28
举报
文章被收录于专栏:Listenlii的生物信息笔记

一篇较老的文章,之前看过,但是最近看到一些相关研究,又找到了这篇文章再看一次。

网上简单搜了一下,竟然还没有人解读过。因此本文简单总结结果。

背景

相关性网络(correlation networks)被用于表征微生物之间的相互作用。微生物(OTU)为节点,成对的特征为边,可提供有生物学或生物化学意义的关系。如共生微生物之间可能存在正相关,拮抗微生物之间存在负相关。环境因此的影响也会使微生物之间存在间接的相关。如系统发育相关的微生物有正相关的趋势。

然而,测量相关性网络存在挑战。

其中之一来自于群落的复杂性。如5000个物种的群落,两两关系个数将超过一千万;更何况还有多个物种之间的关系。

第二,微生物数据为相对丰度,不是绝对丰度。这种稀疏性和数据缺失使得统计分析很困难。

第三,微生物之间存在多样的关系类型,如线性,指数,周期性等等,难以全部检测。

方法

考察了91套数据,包括8种不同的样本模型。

研究的相关性方法:CoNet,LSA,MIC,RMT,SparCC,Bray-Curtis, Pearson, Spearman

检测指标:

true positives (TP)

false positives (FP)

TN (true negatives)

FN (false negatives)

sensitivity (true positive rate—TP/(TP+FN))

specificity (true negative rate—TN/(FP+TN))

precision (TP/(TP+FP))

图1 a,样本类型;b,相关性方法

结果

1.不同相关性方法产生数量显著差异的边

Fig.S1 不同相关性方法共享的边的比例

2.抽样显著影响了边的推断

微生物是组成数据,总量保持不变。其中一个物种丰度升高,其他必然降低,因此产生假的相关。这种效应在小样本时更加明显。有效物种数越少,对边的影响越大。

基于秩次的方法,如MIC, Spearman和Bray-Curtis受组成数据影响稍微小一些。

不推荐用DESeq标准化方法来建立相关性,因为会产生负值。

目前的方法对于组成数据构建网络依然效果不好。

图2 圈越大表明越接近真实OTU之间的相关性。

3.FP受样本类型和相关性方法的影响

RMT和CoNet的FP比例最低。

总体来说所有方法的precision指标都很低。

Fig.S10 a, 模拟;b, 真实数据的FP。

4.常见的线性生态关系可被一些方法检测到

大多数工具都能很好地检测到互惠和共生,而偏害和部分专性互养不可检测。

所有工具都把寄生检测为共存而不是互斥,三个工具SparCC, Spearman和LSA把竞争检测为互斥。当关系变强,所有工具的效果都会变好。

对于3个及以上物种的关系,SparCC和LSA对竞争的检测效果最好。

总体来说,当群落超过3个物种时,目前所有工具都无法准确检测他们之间的相互作用关系。

图3 a, 成对;b, 三个及以上物种关系。

所有工具的准确性都很低。为了降低假阳性,作者建议去掉稀有OTU,阈值为~50% OTU

虽然去掉OTU会破坏网络结构,但是相比而言假阳性FP更不可接受。

图4 a-d, 真实数据条件下不同方法对于线性生态关系的准确性; e-h,非线性生态关系的准确性

5. 非线性的生态关系比线性关系更难以检测

Lotka–Volterra模型基于一阶微分方程,用于描述很多经典生态学模型。结果表明灵敏度相较于线性模型都下降~10%。

对于2个物种的关系,MIC, SparCC, LSA, CoNet和Spearman表现较好;对于6个物种的关系,SparCC和Pearson表现较好。

6. 时间相关关系随信号、采样频率和时间转换而变化

边和样本量、时间点都相关。

图5 时间序列相关的关系

7. 集成方法提高了精度和F1分数

当需要一定的precision, 可以使用包含CoNet, SparCC, Spearman和Pearson的集成方法。即用CoNet的方法和其他方法取交集。

如果允许存在较低的假阳性,且OUT超过一般都是0,可使用CoNet和Pearson的集成方法,增加F1值。

对于Lotka–Volterra70%的稀疏关系,LSA具有较高的准确性和F1值。

讨论

  • 采用0.05作为校正后的显著性P值的阈值太高了,用0.001更有用。
  • 测序技术和标准化方法对边影响同样很大,值得研究。
  • 本研究的RMT采用Pearson相关,效果比单独使用Pearson。但是RMT采用其他相关指数,如Spearman仍需研究。
  • 数据的稀疏性仍是最大的挑战之一。作者建议先去掉极度稀有的OTU再构建网络。
  • 如果OTU包含一半以上的0,网络构建效果将急剧下降。

作者推荐的方法选择流程:

图7 不同相关性方法的选择依据

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档