随机森林图=森林图? 随机森林分类法=森林分类? No No No, 这是一个发生在读书会上的疑问,小编因为傻傻分不清楚这两种算法,特别推出该科普栏目,【Mr.Right】正式上线!我们将用每一次正式的案例,来记录每一个容易犯的小错误~让我把每一个坑,都为大家填满~我们的口号是:escape the mistake, meet your Mr.Right!
快来跟小编一起共同探索知识的海洋,结识有趣的人!来围观我们的第一期【Mr.Right】栏目,随机森林Random forest的科普
~ ( ̄▽ ̄) ~
【Mr.Right第一期】
森林中的惨案
作者|葛畅
文章背景:
Correlative studies have shown an association between changes in the gut microbiome and metabolic disorders.
相关研究显示肠道菌群的变化与代谢紊乱之间存在关联。
Lower α diversity was observed in women with PCOS compared with healthy women.
观察结果PCOS妇女与健康女性相比,肠道菌群α多样性(菌群丰富度)降低。
A random forest identified bacteria that discriminated between healthy women and women with PCOS.
一种随机森林发现了在健康的妇女和有PCOS的妇女之间有区别的细菌。
01
随机森林
故事的开端还是从文献里提取出的图片说起。
拿到这个图,我也是一脸懵逼的,首先我们先明确一下标题。random forest discriminatory bacteria这些长了吧唧的细菌名字,和随机森林有什么关系?
随机森林就是一种分类方法,他帮我把细菌分好类,然后选了8种和分类方法相关性最高的细菌出来。但是后来我做pre的时候就发现,越想就越觉得不对,看着图也看不明白了。
这个随机森林,究竟是怎样选择细菌的呢?
随机森林(random forest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。
它由很多的决策树组成,但每一棵决策树之间是没有关联的。在得到森林之后,当对一个新的样本进行判断或预测的时候,让森林中的每一棵决策树分别进行判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。
我们训练随机森林机器学习分类器,根据观察到的用SVs来表示的alpha多样性和细菌的数据样本,来确定患有PCOS和健康女性分类。随机森林的准确率最高的是判断PCOS(65%准确率)和健康女性(50%的准确性)。
当去除某种细菌属,引起的模型精度数值最大的下降,那么这种菌属就是对判断pcos最重要的菌属。作者依次找到了八种菌属,并画出了这八种菌属在pcos和健康人体内的相对丰度的图表。(其中,前四种菌属的相对丰度在pcos人群中比正常人高,后四种菌属则相反)
02
森林图
其实我在做pre的时候脑袋是糊的,我把随机森林的结果,念成了森林图。然鹅,森林图和随机森林一样,都是统计学中的重要方法,二者听起来很像,实际上却完全不一样。
森林图(forest plots)是以统计指标和统计分析方法为基础, 用数值运算结果绘制出的图型。它在平面直角坐标系中, 以一条垂直的无效线(横坐标刻度为1 或0)为中心, 用平行于横轴的多条线段描述了每个被纳入研究的效应量和可信区间(conf idence interval , CI), 用一个棱形(或其它图形)描述了多个研究合并的效应量及可信区间。它非常简单和直观地描述了Meta-分析的统计结果, 是Meta-分析中最常用的结果表达形式。
到此,本期随机森林的知识科普完了~
下面还有一些相关衍生知识点~
让我们再次回顾一下图片
作者通过随机森林的方法得到这八种细菌
(其中,前四种菌属的相对丰度在pcos人群中比正常人高,后四种菌属则相反),很多细菌表示了一类菌株,便要在末尾加上spp.,表述某个属内很多个种名未定的菌株或不同的种
前四种细菌,分别翻译为Porphyromonas spp.(卟啉单胞菌属),Bacteroides coprophilus(拟杆菌),Blautia spp(乙酸细菌属),faecalibacterium prausnitzii(普拉梭菌)。他们依次有如下的作用:
Porphyromonas spp.(卟啉单胞菌属)增加肠道通透性和益生菌;Bacteroides coprophilus(拟杆菌)更多出现在肥胖者中;Blautia spp(乙酸细菌属)更多出现在2型糖尿病和葡萄糖耐受不耐受的患者;faecalibacterium prausnitzii(普拉梭菌)是产生短链脂肪酸(SCFA)的共生细菌,在一些报道中,这种细菌的低丰度与肥胖和克罗恩病有关,这与我们在PCOS女性身上观察到的模式相反。
后四种细菌,随机森林中发现的四种PCOS妇女丰度较低的分类群,都被认为可以合成SCFAs。SCFAs是对宿主具有明显生理作用的微生物代谢物。尤其是丁酸盐,它参与了许多对宿主有益的过程,包括降低细菌毒性,维持结肠稳态,包括作为肠上皮细胞的能量来源和抗炎作用。
肥胖个体中,特定类型的 Anaerococcus (缺氧球菌)更为丰富,而Ruminococcus bromii(瘤胃球菌属)与较低浓度的SCFAs和胰岛素敏感性相关。
Odoribacter(臭杆菌) 和 Roseburia 菌株(罗斯式菌)的减少与克罗恩病和溃疡性结肠炎有关,并可能通过减少SCFA的产生来增加宿主的炎症反应。
END
参考文献:
Torres PJ,et al J Clin Endocrinol Metab 2018 Apr 01
领取专属 10元无门槛券
私享最新 技术干货