生信论文的套路
GEPIA是北京大学张泽民教授实验室的唐泽方等人通过 R 、Perl等语言对数据进行处理、可视化而设计的癌症大数据分析网站 。分析内容包括肿瘤/正常差异表达谱分析、表达分布、病理分期、生存分析,相似基因,基因表达相关性和降维分析等。界面友好,操作简答,通过点击GEPIA 就可以进行综合全面的分析。
网址:http://gepia.cancer-pku.cn/
首页界面如下,目前已经有更新版GEPIA2(点击右侧test可以进入)
GEPIA数据库的主要功能
GEPIA最基础的分析是差异分析,这与其他数据库基本一致。
既可以展示某基因在所有肿瘤的表达情况(个人不喜欢散点图,极丑,所以没有展示),柱状图展示,清晰明了,但是没有p值。
也可以具体展示,输入基因名称,选择要分析的肿瘤,点击plot即可。
得出柱状图,此时差异分析是有差异展示情况的。以ERBB2在乳腺癌中的表达分析为例,最终得出结果。至于生存分析,个人建议还是首选km plotter,因此不做详细展示。
GEPIA另外一个比较有特色的功能是基因表达的相关性分析。我们以乳腺癌中ERBB2和EGFR表达的相关性分析为例展示。
点击plot。
对于分析基因与热点分子,如免疫检查点分子的相关性,便利而强大。
此外,基因表达与肿瘤分期的相关性分析也是GEPIA数据库的特色,在生信论文里面很常见。比如某基因家族与肾癌分期的相关性分析。如下图。
目前,我们介绍这么多转录水平差异分析的网站,oncomine是基础,必须有。其余数据库,各有侧重,在做分析时,需综合考虑做出验证。当然还有其他很多数据库,比如HCCDB数据库是肝癌的专门数据库等。只要熟练掌握这几种数据库,转录水平的差异分析就过关了。最重要的是通过使用数据库,提升科学思维,尽快发表论文。