麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。

你需要了解你的分子目前已有哪些研究,跟其他分子是怎样的关系。当然可以从文献中慢慢去了解,但KEGG绘制了已知的通路数据,直观呈现,无疑是提升检索效率好的办法。

KEGG的主要用途有:查询通路信息、信号通路检索,以及非常推荐的分析工具KEGG Mapper,它可以根据前期筛选得到的差异分子列表去构建分子调控网络,得到清晰简明的通路图。

咱们通过五个案例,来把这些功能用法撸一遍。

(好了我承认这是酸菜老师布置的作业,我又陪大家做作业来了)

作业一

请使用KEGG检索人类基因PTEN的信息并查看其参与了哪些信号通路,查看其在p53信号通路中的位置。

先找到网页下方的KEGG GENES子数据库。

在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。不过注意格式,“物种 : 基因”

接着就有个弹窗显示该基因的信息,包括其参与的信号通路,其中就有我们要找的p53信号通路。

点击通路编号“hsa04115”,就可看到信号通路图,我们查询的PTEN基因被红色标注了出来。如果要查找该通路中的其他基因,也可以在本页面的搜索框中输入相应关键词,同样得到红色高亮显示。

作业二

查看KEGG中参与信号转导的信号通路,并点击mTOR信号通路,查看其关联的信号通路及调控的表型。

在KEGG首页上选择KEGG PATHWAY子数据库。

在点开后的页面往下拉到信号转导通路,相当多了。

找到mTOR信号通路,点进去。圆角矩形文本框中的就是其相关联的信号通路。

我们可以看到,mTOR上游有AMPK、MAPK、Insulin、PI3K-AKT等信号通路,各通路之间又有交互影响。

mTOR通路可以影响微管组织、脂解作用、脂类合成、自噬、蛋白合成、细胞骨架、细胞存活等表型,其中自噬、甘油酯代谢、actin细胞骨架调控在本数据库里有通路图谱。

作业三

请分析以下分子(人源)参与了哪些信号通路,并在信号通路中用粉红色标记表达下调的分子,用黄色标记表达上调的分子,给出基因匹配最多的信号通路图。

不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。

在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。

在弹出的页面中选择Reviewed的结果,再选择下载格式(Excel、非压缩);也可以点旁边的Columns选择我们需要的列名。Entry即Uniprot编码。

下载好后,将Entry贴到我们原来的表格中。此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。这时本来需要根据全称确认哪个是我们需要的,不过这次题目中没有说明,就全都要了吧,表达值也算一样的。

接下来用Excel的筛选工具,对表达值一列筛选。先选出0者,填上yellow。

注意颜色名称都要小写,否则KEGG识别不出来。

然后到KEGG主页,在最下方的分析工具里找到KEGG Mapper:

在新页面中选择Search & Color Pathway:

然后填好物种、ID格式,把刚才的Entry和颜色贴进来,点Exec查询。

搜出来一个相当长的列表,通路名后边的小括号内数字,就是该通路中含有我们查询的基因的数量。

按要求选择匹配最多的那个,点开就是我们需要的通路图了,匹配基因、上调下调一目了然。

作业四

根据所给的芯片结果数据,分析差异变化从大到小排列,前50个分子参与的信号通路,给出匹配度最高的信号通路图(要求用橙色orange标记上调基因,用青色cyan标记下调基因)

我们从生信公司拿到了芯片数据,要先做个预处理。找到变化倍数(Fold Change, FC)绝对值,按降序排列。

再找到EntrezGeneID,排除空值。

再在Excel上方的“数据”菜单中找到“删除重复项”,弹窗中选择EntrezGeneID,确认。

把前50个贴到另一个表里,仅留EntrezGeneID和Regulation两列,根据要求将上调下调的分别赋予颜色。然后按刚才查询通路的办法再操作一遍就好了,不过注意这回的输入格式是NCBI-GeneID。

然后点开匹配度最高的通路就是了。

作业五

在GEO数据库中检索到GSE18842,并使用GEO在线工具分析该数据集中tumor和control组间差异表达的分子,并用KEGG Mapper进行通路分析,给出匹配度第2的通路,并用颜色标记:红色标记上调倍数[4, ∞);粉红色标记上调倍数在(0, 4);蓝色标记下调倍数(-∞, -4];青色标记下调倍数在(-4, 0)。

这里主要讲讲GEO数据库的检索和简单分析,后边的步骤跟之前的差不多了。GEO涵盖很多疾病的高通量数据,多个学科的小伙伴都可以应用。

打开我们熟悉的Pubmed,选择GEO Dataset,输入关键字GSE18842,Search。

进入相应的条目页面后,拉到下方点Analyze with GEO2R。

进入分析后,要先按数据提供的信息分配组别。点开上方的Define groups,分别输入组名Control和Tumor。然后按Title排序,选中所有control样本,再点一次Control组名,即可看到最左Group一列填上了相应的组名。同样的方法分配好Tumor组。

然后拉到下方点Top 250,默认分析结果仅显示变化最明显的250个分子(按p值排序)。我们也可以点Save all results,后续再按变化倍数排序,自己筛选所需的数量。

然后在新页面中点Select Columns,弹窗里选上Gene ID。

此时若点开单个基因,可以看到它在各样本中的表达情况。

收起柱状图,把数据复制贴到Excel表里。然后对GeneID一列去除重复值和空白值,剩下的将logFC和GeneID复制到一个新表格中。

我们还会发现一种情况,即有些探针是指向一个分子组合,这些通常是一个家族中的不同成员,用“///”分隔。而KEGG中需要一个分子单独一行,所以也要处理一下。

就手动把后面的分子贴到新插入的一行吧……变化倍数也复制下来,耐心点。

后边筛选数值、标记颜色、搜索通路的操作都会了吧?跟前边讲的一样哦。只是提醒一点,这里的logFC是FC以2为底数取的对数,所以题目中的上调倍数[4, ∞)的区间,是指logFC的[2, ∞)。

我们还是按要求选匹配第2的。

贴上结果图,细胞周期信号通路里多个分子被上调4倍以上。

本文来自企鹅号 - 解螺旋媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Crossin的编程教室

【每周一坑】图像的指纹:数字水印 + 【解答】鸡兔同笼

曾经有过这样的新闻:某公司的员工将内网论坛上的言论截屏发布到互联网上,引发了热议。于是公司通过截图定位到了员工的身份,将其开除。

722
来自专栏简书专栏

基于pandas、matplotlib、pyecharts的人工智能相关职位招聘市场数据分析

容大教育人工智能班数据分析阶段实战项目:人工智能相关职位数据分析 小组成员:雷坤、韦民童、李波、陶宇 项目周期5天,数据分析为第2天的需求。

853
来自专栏SDNLAB

P4编程理论与实践——理论篇

由于对SDN充满着兴趣,在学习了一段时间OpenFlow之后,一次偶然的机会接触到了P4。P4可以实现很多新的Idea,但是无奈于国内的实践资料太少了(有些资料...

1499
来自专栏PPV课数据科学社区

电商评论情感分析

? 随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文...

4827
来自专栏大数据挖掘DT机器学习

R语言绘制中国地图,并展示流行病学数据

本文作者:姜晓东,博士毕业于上海交通大学,目前任教于湖南师范大学医学院,专业神经毒理学。 流行病学的数据讲究“三间分布”,即人群分布、时间分布和空间分布。其中...

8576
来自专栏企鹅号快讯

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。...

2520
来自专栏Crossin的编程教室

【每周一坑】双色球选号器

说到做到,每周一坑 没有跳票,今天又来了! 我反复说,学会语法只是编程的开始,不断地写代码才是提升技能的必经之路。所以这个栏目我们肯定是要做下去的,哪怕它的阅读...

3045
来自专栏Data Analysis & Viz

手把手教你完成一个数据科学小项目(3):数据异常与清洗

本系列将全面涉及本项目从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等细节,并将代码统一开源在GitHub:DesertsX/gulius-proje...

1033
来自专栏生信技能树

y叔的ChIP-seq数据分析大礼包

CS0: ChIPseq从入门到放弃 接下来要出一个ChIPseq系列,讲一讲ChIPseq和我的ChIPseeker包,从入门到放弃是我自己的个人写照。我做C...

43110
来自专栏Duncan's Blog

Personalized Search泛读记录

搜索在20年前就已出现在互联网,而如今搜索已经无处不在。传统的搜索像这样,用户给出Query,Query中包含1个或多个关键词,搜索引擎通过关键词去检索返回查询...

542

扫码关注云+社区