专栏首页生信宝典我想做信号通路分析,但我就是不想学编程

我想做信号通路分析,但我就是不想学编程

“我想做信号通路分析,但我就是不想学编程。”

“我又不是生信狗,学代码会死。”

“你们这些做生信的,整天把数据分析搞得神神秘秘,不就是怕被人抢饭碗而已嘛。”

“这都没分析出我想要的结果,不靠谱。”

“你们做生信的不都是写好pipeline的吗?怎么那么久还没分析好?”

……

……

……

哦……

科研日常问题:我有一张基因/蛋白列表,想知道富集在什么通路上,如何做?

这篇文章就教大家,如何一句代码都不用敲,通过简单的复制粘贴还有点两下鼠标,就能实现通路富集的分析

Metascape

1

http://metascape.org/gp/index.html#/main/step1

Metascape的主界面长这样,操作起来非常简单,只需要按照提示,一步一步进行操作即可。数据库更新得很勤,不怕落伍。

首先在Step 1那里,粘贴你的基因列表。然后Step 2会问你是什么物种。Step 3点Express Analysis。然后就自动出结果了,输出的图片颜值很高,还能下载原始的excel表回去自己作图,还能自动导出成漂酿的成套的ppt结果汇报……是不是so easy!!!

氮素!!!

Metascape有一个不是很讨喜的地方,就是默认的Express Analysis,总是喜欢把各个数据库的信号通路混一起分析,这样很容易出现,某些非常general的数据库,就容易抢戏,出现各种冗余。比如说,下面这个结果,就是默认把Reactome、CORUM和GO数据库全部给搅在一起展示了。

当然,这并不是不可破解的问题。只要在Step 3那里,点击Custom Analysis,然后在Enrichment的选项卡里,勾选你想要的数据库就好了。

目前,Metascape支持不少流行的数据库,比如Hallmark Gene Sets、Reactome等,还有我最不爱用的GO和KEGG。至于其他参数是啥意思,不懂话就佛系对待吧,别改了。。。

之前在《拿到基因两眼一抹黑?没关系,先做个基因富集分析吧!》一文里除了介绍了Metascape还介绍了另外一个在线富集分析软件DAVID,网站:https://david.ncifcrf.gov/。正好本文未提到,做个补充。如果嫌这个更新慢,去东方,最好用的在线GO富集分析工具每周更新。

Enrichr

2

如果嫌Metascape的数据库少,那就试试数据库多到上天的Enrichr吧。

http://amp.pharm.mssm.edu/Enrichr/

Enrichr的界面更加清爽了,只需要你把基因/蛋白列表贴进去然后点submit就完事了。

我第一次用Enrichr就被震惊了!

这也太多数据库了吧!!!

以上只列出了其中三页数据库,即转录调控、信号通路、基因本体,后面还有疾病/药物,细胞类型,还有一些杂七杂八的,甚至连过期数据库都有。而且数据同样支持导出。

氮素!!!

如果你用了就知道,Enrichr根本就没问你,贴的基因到底是个啥物种。因此,这个程序有个很坑的地方,就是把所有物种的数据库全部混一起分析了……比如下面这个WikiPathways分析,就把人和小鼠的结果一起展示了……(并且未知这种混合,是否会影响通路富集分析的结果)

此外,由于Enrichr的数据库太多,所以更新不是很及时。比如上面展示的WikiPathways,还是2016年的,而这两年WikiPathways的更新频率几乎是月更。

ConsensusPathDB

3

http://cpdb.molgen.mpg.de/

CPDB是德国人开发的,界面长这样,不算很直观。但数据库量一样很大,整合了32个数据库。想做信号通路富集分析,点左边的over-representation analysis,贴上列表,选择数据类型(到底是gene id,还是symbol,还是别的什么),然后提交就好了。

下一步,就是选要用哪些数据库来分析。

最好还是一次只选一个,因为不知道原始的程序设计是如何的,到底是各个数据库独立分析,还是跟metascape默认一样,全部混一起。整体而言,分析速度极快,使用起来也很方便。

氮素!!!

CPDB只支持分析人类基因……

总结

4

以上这些工具的分析结果,在调教好参数的情况下(比如p值 cut-off,数据库类型),各个网站出来的结果没太大区别,所以算法上应该都是靠谱的。我拿同一套东西跑ClusterProfiler,结果也是没差多少。

这几个数据库都有什么优缺点呢?

Metascape:支持物种多,数据库更新非常及时,且导出的数据颜值高,甚至可以直接发表。但是支持数据库较少,而且在国内打开较慢,且运行速度有时候较慢(毕竟分析完后还要生成pdf、excel、ppt还顺便打成压缩包那么一大堆东西)。

Enrichr:数据库多到上天,分析速度还行。但是不支持选择特定物种,默认就是多物种的数据库混一起的,同时部分数据库更新不够及时。

CPDB:速度快,支持非常多的数据库,更新还算勤,几个月更一次吧。但只能分析人类基因。

总体而言,Metascape还是最好用的,毕竟支持的物种比较多,人、鼠、斑马鱼、果蝇、线虫、疟原虫、酵母、拟南芥都有。虽然支持的数据库不算多,但简单过一遍分析,看看有什么通路冒出来,也算是勉强够用。

那有没有支持的物种多、数据库多、更新勤、速度快,甚至能够做非模式生物、自定义通路数据库的在线工具呢?

学R语言,然后琢磨一下ClusterProfiler这个神包吧。

PS:我自己喜欢用的通路数据库是Reactome(没钱买KEGG怎么办?REACTOME开源通路更强大),WikiPathways,HumanCyc(虽然免费的库比较旧),还有Hallmark gene sets。虽然ClusterProfiler只有Reactome(额外再下个包),但只要去下载对应的数据库,用其中的通用enrichment分析函数enricher,就可以任性分析了。

本文分享自微信公众号 - 生信宝典(Bio_data)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 微生物组—宏基因组分析专题研讨会(2020.2)

    在广大粉丝的期待下,《生信宝典》联合《宏基因组》在2020年2月14-16日,北京鼓楼推出《宏基因组分析》专题培训第七期,为大家提供一条走进生信大门的捷径、为同...

    生信宝典
  • 测序数据可视化 (一)

    测序reads比对回基因组后,可以通过多种方式查看比对结果。直接查看bam文件可查看测序序列比对的信息和测序序列的碱基突变信息,在检查比对结果或分析全基因组或外...

    生信宝典
  • 推荐一个牛逼的生物信息 Python 库 - Dash Bio

    要开始使用 Dash Bio,请使用 pip install dash_bio 安装,然后转到 Dash Bio 的文档: http://dash.plot.l...

    生信宝典
  • 连载 | 深入浅出理解云数据库,年薪百万DBA之路 · 第三回

    为帮助开发者更好的了解和运用数据库,腾讯云数据库团队特出品《深入浅出理解云数据库》系列文章,从数据库的基本概念到云数据库特性及应用,从数据库基础原理知识到腾...

    腾讯云数据库 TencentDB
  • 巨杉数据库 CTO 王涛:新一代分布式数据库

    2019数据技术嘉年华于11月16日在京落下了帷幕。大会历时两天,来自全国各地上千名学术精英、数据库领袖人物、数据库专家、技术爱好者在这里汇聚一堂,围绕“开源 ...

    数据和云
  • 如何估算一台数据库服务器能够承受的并发量?

    在估算之前我们必须清楚这台数据库服务器的配置是什么情况,正常情况下我们需要摸清楚以下几点因素:

    物流IT圈
  • 本地IDC机房数据库容灾解决方案

    下文以腾讯云数据库 MySQL为例,介绍如何充分利用腾讯云的优势,减轻DBA的负担,轻松来搭建数据库。

    腾讯云数据库 TencentDB
  • Python 操作 MySQL 数据库(上)

    在昨天的文章(听说你还不会将数据存入文件?)中我们学习用文件形式将数据保存到磁盘中,虽然这已经是一种不错的方式,但是头秃的大佬们还是发明了更快更便捷的东西:「数...

    Rocky0429
  • 2019图数据库场景及发展趋势解读

    点击上方蓝字关注我们吧 作者简介:邵宗文,现为腾讯云数据库专家产品经理,十余年数据库从业经验。2009年加入腾讯,曾负责腾讯网,新闻客户端,快报,视频,财经,...

    腾讯云数据库 TencentDB
  • Python数据库操作 mysql数据库介绍#学习猿地

      > 专业的数据库是专门对数据进行创建,访问,管理,搜索等操作的软件,比起我们自己用文件读写的方式对象数据进行管理更加的方便,快速,安全

    学习猿地

扫码关注云+社区

领取腾讯云代金券