首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

作者头像
企鹅号小编
发布2017-12-26 11:40:17
2.1K0
发布2017-12-26 11:40:17
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。

你需要了解你的分子目前已有哪些研究,跟其他分子是怎样的关系。当然可以从文献中慢慢去了解,但KEGG绘制了已知的通路数据,直观呈现,无疑是提升检索效率好的办法。

KEGG的主要用途有:查询通路信息、信号通路检索,以及非常推荐的分析工具KEGG Mapper,它可以根据前期筛选得到的差异分子列表去构建分子调控网络,得到清晰简明的通路图。

咱们通过五个案例,来把这些功能用法撸一遍。

(好了我承认这是酸菜老师布置的作业,我又陪大家做作业来了)

作业一

请使用KEGG检索人类基因PTEN的信息并查看其参与了哪些信号通路,查看其在p53信号通路中的位置。

先找到网页下方的KEGG GENES子数据库。

在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。不过注意格式,“物种 : 基因”

接着就有个弹窗显示该基因的信息,包括其参与的信号通路,其中就有我们要找的p53信号通路。

点击通路编号“hsa04115”,就可看到信号通路图,我们查询的PTEN基因被红色标注了出来。如果要查找该通路中的其他基因,也可以在本页面的搜索框中输入相应关键词,同样得到红色高亮显示。

作业二

查看KEGG中参与信号转导的信号通路,并点击mTOR信号通路,查看其关联的信号通路及调控的表型。

在KEGG首页上选择KEGG PATHWAY子数据库。

在点开后的页面往下拉到信号转导通路,相当多了。

找到mTOR信号通路,点进去。圆角矩形文本框中的就是其相关联的信号通路。

我们可以看到,mTOR上游有AMPK、MAPK、Insulin、PI3K-AKT等信号通路,各通路之间又有交互影响。

mTOR通路可以影响微管组织、脂解作用、脂类合成、自噬、蛋白合成、细胞骨架、细胞存活等表型,其中自噬、甘油酯代谢、actin细胞骨架调控在本数据库里有通路图谱。

作业三

请分析以下分子(人源)参与了哪些信号通路,并在信号通路中用粉红色标记表达下调的分子,用黄色标记表达上调的分子,给出基因匹配最多的信号通路图。

不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。

在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。

在弹出的页面中选择Reviewed的结果,再选择下载格式(Excel、非压缩);也可以点旁边的Columns选择我们需要的列名。Entry即Uniprot编码。

下载好后,将Entry贴到我们原来的表格中。此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。这时本来需要根据全称确认哪个是我们需要的,不过这次题目中没有说明,就全都要了吧,表达值也算一样的。

接下来用Excel的筛选工具,对表达值一列筛选。先选出0者,填上yellow。

注意颜色名称都要小写,否则KEGG识别不出来。

然后到KEGG主页,在最下方的分析工具里找到KEGG Mapper:

在新页面中选择Search & Color Pathway:

然后填好物种、ID格式,把刚才的Entry和颜色贴进来,点Exec查询。

搜出来一个相当长的列表,通路名后边的小括号内数字,就是该通路中含有我们查询的基因的数量。

按要求选择匹配最多的那个,点开就是我们需要的通路图了,匹配基因、上调下调一目了然。

作业四

根据所给的芯片结果数据,分析差异变化从大到小排列,前50个分子参与的信号通路,给出匹配度最高的信号通路图(要求用橙色orange标记上调基因,用青色cyan标记下调基因)

我们从生信公司拿到了芯片数据,要先做个预处理。找到变化倍数(Fold Change, FC)绝对值,按降序排列。

再找到EntrezGeneID,排除空值。

再在Excel上方的“数据”菜单中找到“删除重复项”,弹窗中选择EntrezGeneID,确认。

把前50个贴到另一个表里,仅留EntrezGeneID和Regulation两列,根据要求将上调下调的分别赋予颜色。然后按刚才查询通路的办法再操作一遍就好了,不过注意这回的输入格式是NCBI-GeneID。

然后点开匹配度最高的通路就是了。

作业五

在GEO数据库中检索到GSE18842,并使用GEO在线工具分析该数据集中tumor和control组间差异表达的分子,并用KEGG Mapper进行通路分析,给出匹配度第2的通路,并用颜色标记:红色标记上调倍数[4, ∞);粉红色标记上调倍数在(0, 4);蓝色标记下调倍数(-∞, -4];青色标记下调倍数在(-4, 0)。

这里主要讲讲GEO数据库的检索和简单分析,后边的步骤跟之前的差不多了。GEO涵盖很多疾病的高通量数据,多个学科的小伙伴都可以应用。

打开我们熟悉的Pubmed,选择GEO Dataset,输入关键字GSE18842,Search。

进入相应的条目页面后,拉到下方点Analyze with GEO2R。

进入分析后,要先按数据提供的信息分配组别。点开上方的Define groups,分别输入组名Control和Tumor。然后按Title排序,选中所有control样本,再点一次Control组名,即可看到最左Group一列填上了相应的组名。同样的方法分配好Tumor组。

然后拉到下方点Top 250,默认分析结果仅显示变化最明显的250个分子(按p值排序)。我们也可以点Save all results,后续再按变化倍数排序,自己筛选所需的数量。

然后在新页面中点Select Columns,弹窗里选上Gene ID。

此时若点开单个基因,可以看到它在各样本中的表达情况。

收起柱状图,把数据复制贴到Excel表里。然后对GeneID一列去除重复值和空白值,剩下的将logFC和GeneID复制到一个新表格中。

我们还会发现一种情况,即有些探针是指向一个分子组合,这些通常是一个家族中的不同成员,用“///”分隔。而KEGG中需要一个分子单独一行,所以也要处理一下。

就手动把后面的分子贴到新插入的一行吧……变化倍数也复制下来,耐心点。

后边筛选数值、标记颜色、搜索通路的操作都会了吧?跟前边讲的一样哦。只是提醒一点,这里的logFC是FC以2为底数取的对数,所以题目中的上调倍数[4, ∞)的区间,是指logFC的[2, ∞)。

我们还是按要求选匹配第2的。

贴上结果图,细胞周期信号通路里多个分子被上调4倍以上。

欲知更多骚操作,欢迎来围观科研技能单元课~

本文来自企鹅号 - 解螺旋媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 解螺旋媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档