我想做信号通路分析,但我就是不想学编程

“我想做信号通路分析,但我就是不想学编程。”

“我又不是生信狗,学代码会死。”

“你们这些做生信的,整天把数据分析搞得神神秘秘,不就是怕被人抢饭碗而已嘛。”

“这都没分析出我想要的结果,不靠谱。”

“你们做生信的不都是写好pipeline的吗?怎么那么久还没分析好?”

……

……

……

哦……

科研日常问题:我有一张基因/蛋白列表,想知道富集在什么通路上,如何做?

这篇文章就教大家,如何一句代码都不用敲,通过简单的复制粘贴还有点两下鼠标,就能实现通路富集的分析

Metascape

1

http://metascape.org/gp/index.html#/main/step1

Metascape的主界面长这样,操作起来非常简单,只需要按照提示,一步一步进行操作即可。数据库更新得很勤,不怕落伍。

首先在Step 1那里,粘贴你的基因列表。然后Step 2会问你是什么物种。Step 3点Express Analysis。然后就自动出结果了,输出的图片颜值很高,还能下载原始的excel表回去自己作图,还能自动导出成漂酿的成套的ppt结果汇报……是不是so easy!!!

氮素!!!

Metascape有一个不是很讨喜的地方,就是默认的Express Analysis,总是喜欢把各个数据库的信号通路混一起分析,这样很容易出现,某些非常general的数据库,就容易抢戏,出现各种冗余。比如说,下面这个结果,就是默认把Reactome、CORUM和GO数据库全部给搅在一起展示了。

当然,这并不是不可破解的问题。只要在Step 3那里,点击Custom Analysis,然后在Enrichment的选项卡里,勾选你想要的数据库就好了。

目前,Metascape支持不少流行的数据库,比如Hallmark Gene Sets、Reactome等,还有我最不爱用的GO和KEGG。至于其他参数是啥意思,不懂话就佛系对待吧,别改了。。。

之前在《拿到基因两眼一抹黑?没关系,先做个基因富集分析吧!》一文里除了介绍了Metascape还介绍了另外一个在线富集分析软件DAVID,网站:https://david.ncifcrf.gov/。正好本文未提到,做个补充。如果嫌这个更新慢,去东方,最好用的在线GO富集分析工具每周更新。

Enrichr

2

如果嫌Metascape的数据库少,那就试试数据库多到上天的Enrichr吧。

http://amp.pharm.mssm.edu/Enrichr/

Enrichr的界面更加清爽了,只需要你把基因/蛋白列表贴进去然后点submit就完事了。

我第一次用Enrichr就被震惊了!

这也太多数据库了吧!!!

以上只列出了其中三页数据库,即转录调控、信号通路、基因本体,后面还有疾病/药物,细胞类型,还有一些杂七杂八的,甚至连过期数据库都有。而且数据同样支持导出。

氮素!!!

如果你用了就知道,Enrichr根本就没问你,贴的基因到底是个啥物种。因此,这个程序有个很坑的地方,就是把所有物种的数据库全部混一起分析了……比如下面这个WikiPathways分析,就把人和小鼠的结果一起展示了……(并且未知这种混合,是否会影响通路富集分析的结果)

此外,由于Enrichr的数据库太多,所以更新不是很及时。比如上面展示的WikiPathways,还是2016年的,而这两年WikiPathways的更新频率几乎是月更。

ConsensusPathDB

3

http://cpdb.molgen.mpg.de/

CPDB是德国人开发的,界面长这样,不算很直观。但数据库量一样很大,整合了32个数据库。想做信号通路富集分析,点左边的over-representation analysis,贴上列表,选择数据类型(到底是gene id,还是symbol,还是别的什么),然后提交就好了。

下一步,就是选要用哪些数据库来分析。

最好还是一次只选一个,因为不知道原始的程序设计是如何的,到底是各个数据库独立分析,还是跟metascape默认一样,全部混一起。整体而言,分析速度极快,使用起来也很方便。

氮素!!!

CPDB只支持分析人类基因……

总结

4

以上这些工具的分析结果,在调教好参数的情况下(比如p值 cut-off,数据库类型),各个网站出来的结果没太大区别,所以算法上应该都是靠谱的。我拿同一套东西跑ClusterProfiler,结果也是没差多少。

这几个数据库都有什么优缺点呢?

Metascape:支持物种多,数据库更新非常及时,且导出的数据颜值高,甚至可以直接发表。但是支持数据库较少,而且在国内打开较慢,且运行速度有时候较慢(毕竟分析完后还要生成pdf、excel、ppt还顺便打成压缩包那么一大堆东西)。

Enrichr:数据库多到上天,分析速度还行。但是不支持选择特定物种,默认就是多物种的数据库混一起的,同时部分数据库更新不够及时。

CPDB:速度快,支持非常多的数据库,更新还算勤,几个月更一次吧。但只能分析人类基因。

总体而言,Metascape还是最好用的,毕竟支持的物种比较多,人、鼠、斑马鱼、果蝇、线虫、疟原虫、酵母、拟南芥都有。虽然支持的数据库不算多,但简单过一遍分析,看看有什么通路冒出来,也算是勉强够用。

那有没有支持的物种多、数据库多、更新勤、速度快,甚至能够做非模式生物、自定义通路数据库的在线工具呢?

学R语言,然后琢磨一下ClusterProfiler这个神包吧。

PS:我自己喜欢用的通路数据库是Reactome(没钱买KEGG怎么办?REACTOME开源通路更强大),WikiPathways,HumanCyc(虽然免费的库比较旧),还有Hallmark gene sets。虽然ClusterProfiler只有Reactome(额外再下个包),但只要去下载对应的数据库,用其中的通用enrichment分析函数enricher,就可以任性分析了。

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2018-11-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张戈的专栏

博客集成Hitokoto·一言经典语句功能

Hitokoto·一言是一个挺有意思的项目,官方的自我介绍如下: 一言网(Hitokoto.cn)创立于 2016 年,隶属于萌创 Team,目前网站主要提供一...

35312
来自专栏木子昭的博客

Eagle 自带爬虫功能的图片数据库

4003
来自专栏玄魂工作室

MOSEC议题解读 | PWN2OWN shannon基带破解之旅

基带漏洞威胁最大的是可以通过OTA(空中接口)利用,即通过发射加载漏洞利用代码的无线电波,从空中接口利用漏洞,在受害者无任何感知的情况下,远距离对受害者进行攻击...

1803
来自专栏Android机动车

我和极光那些事 | 我和Android推送的时间简史

关于作者:夏韦子 博客: http://blog.leanote.com/xiaweizi

1081

使用Bluemix,NoSQL DB和Watson创建云应用程序

大家好,因为近几年工作很忙,我已经很久没有写过文章了。我现在是IBM的Bluemix平台的云架构师。我曾经使用Tomcat服务器上的Web应用程序编写了一个在B...

2056
来自专栏数据库

数据挖掘专题四

接着上一期,我们找到差异基因以后,我们希望找到这些差异基因的功能,看它富集在哪些功能上,我们就可以做一下GO的富集分析。 一般GO(Gene oncology)...

2187
来自专栏生信宝典

生信宝典之傻瓜式(六)查找转录因子的靶基因

2547
来自专栏Jerry的SAP技术分享

SAP S4CRM 1811 服务订单API介绍

Jerry在今年2月28日,SAP Customer Management for S/4HANA 1.0正式问世这个具有纪念意义的日子,同时发布了中英文版的博...

1833
来自专栏一个会写诗的程序员的博客

《MongoDB极简教程》第一章 NoSQL简史 & MongoDB安装&环境配置NoSQLNoSQL 简史CAP定理(CAP theorem)BASEMongoDB 特性&优势文档参考安装&环境配置

MongoDB 是一款开源的文档数据库,并且是业内领先的 NoSQL 数据库,用 C++ 编写而成。

1163
来自专栏CRPER折腾记

MacOS : 前端必备姿势(工作环境)

算是爬出来了...此篇的工作设备是(Macbook Pro 2017款,所以可能会说到 touchbar!)

5500

扫码关注云+社区

领取腾讯云代金券