做生物信息学分析的人一定绕不开基因富集分析,米老鼠在这里给大家推荐一款做富集分析的强大工具WebGestalt(http://www.webgestalt.org/),它涵盖的数据库丰富,方法灵活,比之前的DAVID和Metascape更加有用。话不多说,现在我就教大家如何上手这款工具。
第一步 挑选目标物种
在这一步,我们需要选择目标基因是来自哪个物种的。一般来说,我们研究的基本上是人类基因组,所以大家选择“Homo sapiens”这个默认选项即可,如果你是研究其它生物的,那么你可以在下拉框里选择相应的物种即可。
第二步 选择计算方法
这一步主要是用来选择我们进行富集分析的方法,一般我们常用的就是前两种“over-representation analysis”(ORA)和“gene set enrichment analysis”(GSEA)。注意一下,第一种算法要求我们提供参考基因列表(reference gene list)而第二种算法GSEA则不需要,但是GSEA算法需要我们提供各个基因的得分。因此,对于只有基因名称的用户来说,只能使用ORA算法,这里我也选择ORA方法。关于两种算法的差异,米老鼠会在后续的内容和大家详细讲解。
第三步 选择功能数据库
这里需要你选择注释数据的来源,该网站提供了9类注释数据库,在这里我选择pathway,目的是进行接下来的通路分析:
当你选择功能数据库类型后,你还需要选择具体的注释数据库,这里我选择KEGG和Reactome数据库,你可以点击旁边的“+”按钮来添加相关数据库:
到这里我已经完成了整个参数的设置。当然WebGestalt还有一些高级选项,你可以去了解了解,但是不建议新手去修改这些默认参数,当你真正理解富集分析这个方法后可以根据自己的需要去修改。
第四步:选择你的基因名类型并上传你的基因
这里你有两个选择:一个是上传基因列表文件,这个文件就是一个没有题头的文本文件,包含一列基因名;另一个是直接输入基因。米老鼠一般喜欢复制基因名后粘贴到输入框中。
这里我们的基因名是gene symbol类型:
第五步:选择参考基因列表
在这一步,我们需要设置参考基因集,这是ORA算法所必需的,这里我们选择编码蛋白质的基因组:
第六步:点击“Submit”按钮,静候结果即可
我们也可以直接点击“Results Download”直接将summary结果下载下来。
附上结果链接地址:http://www.webgestalt.org/results/1587115919/#
关于WebGestalt的使用今天就讲到这儿,我会在下期内容中带着大家简单分析一下结果!