麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。

你需要了解你的分子目前已有哪些研究,跟其他分子是怎样的关系。当然可以从文献中慢慢去了解,但KEGG绘制了已知的通路数据,直观呈现,无疑是提升检索效率好的办法。

KEGG的主要用途有:查询通路信息、信号通路检索,以及非常推荐的分析工具KEGG Mapper,它可以根据前期筛选得到的差异分子列表去构建分子调控网络,得到清晰简明的通路图。

咱们通过五个案例,来把这些功能用法撸一遍。

(好了我承认这是酸菜老师布置的作业,我又陪大家做作业来了)

作业一

请使用KEGG检索人类基因PTEN的信息并查看其参与了哪些信号通路,查看其在p53信号通路中的位置。

先找到网页下方的KEGG GENES子数据库。

在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。不过注意格式,“物种 : 基因”

接着就有个弹窗显示该基因的信息,包括其参与的信号通路,其中就有我们要找的p53信号通路。

点击通路编号“hsa04115”,就可看到信号通路图,我们查询的PTEN基因被红色标注了出来。如果要查找该通路中的其他基因,也可以在本页面的搜索框中输入相应关键词,同样得到红色高亮显示。

作业二

查看KEGG中参与信号转导的信号通路,并点击mTOR信号通路,查看其关联的信号通路及调控的表型。

在KEGG首页上选择KEGG PATHWAY子数据库。

在点开后的页面往下拉到信号转导通路,相当多了。

找到mTOR信号通路,点进去。圆角矩形文本框中的就是其相关联的信号通路。

我们可以看到,mTOR上游有AMPK、MAPK、Insulin、PI3K-AKT等信号通路,各通路之间又有交互影响。

mTOR通路可以影响微管组织、脂解作用、脂类合成、自噬、蛋白合成、细胞骨架、细胞存活等表型,其中自噬、甘油酯代谢、actin细胞骨架调控在本数据库里有通路图谱。

作业三

请分析以下分子(人源)参与了哪些信号通路,并在信号通路中用粉红色标记表达下调的分子,用黄色标记表达上调的分子,给出基因匹配最多的信号通路图。

不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。

在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。

在弹出的页面中选择Reviewed的结果,再选择下载格式(Excel、非压缩);也可以点旁边的Columns选择我们需要的列名。Entry即Uniprot编码。

下载好后,将Entry贴到我们原来的表格中。此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。这时本来需要根据全称确认哪个是我们需要的,不过这次题目中没有说明,就全都要了吧,表达值也算一样的。

接下来用Excel的筛选工具,对表达值一列筛选。先选出0者,填上yellow。

注意颜色名称都要小写,否则KEGG识别不出来。

然后到KEGG主页,在最下方的分析工具里找到KEGG Mapper:

在新页面中选择Search & Color Pathway:

然后填好物种、ID格式,把刚才的Entry和颜色贴进来,点Exec查询。

搜出来一个相当长的列表,通路名后边的小括号内数字,就是该通路中含有我们查询的基因的数量。

按要求选择匹配最多的那个,点开就是我们需要的通路图了,匹配基因、上调下调一目了然。

作业四

根据所给的芯片结果数据,分析差异变化从大到小排列,前50个分子参与的信号通路,给出匹配度最高的信号通路图(要求用橙色orange标记上调基因,用青色cyan标记下调基因)

我们从生信公司拿到了芯片数据,要先做个预处理。找到变化倍数(Fold Change, FC)绝对值,按降序排列。

再找到EntrezGeneID,排除空值。

再在Excel上方的“数据”菜单中找到“删除重复项”,弹窗中选择EntrezGeneID,确认。

把前50个贴到另一个表里,仅留EntrezGeneID和Regulation两列,根据要求将上调下调的分别赋予颜色。然后按刚才查询通路的办法再操作一遍就好了,不过注意这回的输入格式是NCBI-GeneID。

然后点开匹配度最高的通路就是了。

作业五

在GEO数据库中检索到GSE18842,并使用GEO在线工具分析该数据集中tumor和control组间差异表达的分子,并用KEGG Mapper进行通路分析,给出匹配度第2的通路,并用颜色标记:红色标记上调倍数[4, ∞);粉红色标记上调倍数在(0, 4);蓝色标记下调倍数(-∞, -4];青色标记下调倍数在(-4, 0)。

这里主要讲讲GEO数据库的检索和简单分析,后边的步骤跟之前的差不多了。GEO涵盖很多疾病的高通量数据,多个学科的小伙伴都可以应用。

打开我们熟悉的Pubmed,选择GEO Dataset,输入关键字GSE18842,Search。

进入相应的条目页面后,拉到下方点Analyze with GEO2R。

进入分析后,要先按数据提供的信息分配组别。点开上方的Define groups,分别输入组名Control和Tumor。然后按Title排序,选中所有control样本,再点一次Control组名,即可看到最左Group一列填上了相应的组名。同样的方法分配好Tumor组。

然后拉到下方点Top 250,默认分析结果仅显示变化最明显的250个分子(按p值排序)。我们也可以点Save all results,后续再按变化倍数排序,自己筛选所需的数量。

然后在新页面中点Select Columns,弹窗里选上Gene ID。

此时若点开单个基因,可以看到它在各样本中的表达情况。

收起柱状图,把数据复制贴到Excel表里。然后对GeneID一列去除重复值和空白值,剩下的将logFC和GeneID复制到一个新表格中。

我们还会发现一种情况,即有些探针是指向一个分子组合,这些通常是一个家族中的不同成员,用“///”分隔。而KEGG中需要一个分子单独一行,所以也要处理一下。

就手动把后面的分子贴到新插入的一行吧……变化倍数也复制下来,耐心点。

后边筛选数值、标记颜色、搜索通路的操作都会了吧?跟前边讲的一样哦。只是提醒一点,这里的logFC是FC以2为底数取的对数,所以题目中的上调倍数[4, ∞)的区间,是指logFC的[2, ∞)。

我们还是按要求选匹配第2的。

贴上结果图,细胞周期信号通路里多个分子被上调4倍以上。

本文来自企鹅号 - 解螺旋媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏逍遥剑客的游戏开发

溶解效果

1327
来自专栏云霄雨霁

加权无向图----加权无向图的实现

1430
来自专栏二进制文集

吐槽下《MongoDB 实战》(第二版)的翻译

最近在研究 Mongo,买了华中科技大学出版社的《MongoDB 实战》第二版,但是在看了一个小时后就发现,全书的翻译满满的槽点,不吐不快。

583
来自专栏微信公众号:Java团长

Java打飞机小游戏(附完整源码)

技术源于分享,所以今天抽空把自己之前用java做过的小游戏整理贴出来给大家参考学习。java确实不适合写桌面应用,这里只是通过这个游戏让大家理解oop面向对象编...

1512
来自专栏数说工作室

特征选择怎么选? | 讨论

想构建一个模型,几十万行数据、400多变量,怎么选? (1)全部塞进去 模型运行慢,一不小心跑一个月能受得了?更关键塞进了那么多无效变量,效果肯定也不好啊。...

3506
来自专栏Crossin的编程教室

【编程课堂】jieba-中文分词利器

0、前言 在之前的文章【编程课堂】词云 wordcloud 中,我们曾使用过 jieba 库,当时并没有深入讲解,所以本次将其单独列出来详细讲解。 jieba库...

33611
来自专栏PPV课数据科学社区

《用地图说话》之:十字绣中国热力数据地图

作图思路: 准备一块300*300小单元格组成的区域,对照地图图形,在每个省图形范围内的单元格填入该省的数据,然后对这些单元格应用条件格式->色阶,就形成了一幅...

2753
来自专栏wannshan(javaer,RPC)

dubbo负载均衡代码分析3(加权轮询策略)

接上篇 https://cloud.tencent.com/developer/article/1109577 加权轮询,我第一次没理解,个人觉得不好理解。于是...

3316
来自专栏开发 & 算法杂谈

凸包问题之GrahamScan解法

当沿着Convex hull逆时针漫游时,总是向左转在极坐标系下按照极角大小排列,然后逆时针方向漫游点集,去除非Convex hull顶点(非左 转点)。

724
来自专栏生信宝典

R语言学习 - 富集分析泡泡图

功能富集泡泡图 功能富集分析用来展示某一组基因(一般是单个样品上调或下调的基因)倾向参与哪些功能调控通路,对从整体理解变化了的基因的功能和潜在的调控意义具有指导...

2969

扫码关注云+社区