麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。

你需要了解你的分子目前已有哪些研究,跟其他分子是怎样的关系。当然可以从文献中慢慢去了解,但KEGG绘制了已知的通路数据,直观呈现,无疑是提升检索效率好的办法。

KEGG的主要用途有:查询通路信息、信号通路检索,以及非常推荐的分析工具KEGG Mapper,它可以根据前期筛选得到的差异分子列表去构建分子调控网络,得到清晰简明的通路图。

咱们通过五个案例,来把这些功能用法撸一遍。

(好了我承认这是酸菜老师布置的作业,我又陪大家做作业来了)

作业一

请使用KEGG检索人类基因PTEN的信息并查看其参与了哪些信号通路,查看其在p53信号通路中的位置。

先找到网页下方的KEGG GENES子数据库。

在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。不过注意格式,“物种 : 基因”

接着就有个弹窗显示该基因的信息,包括其参与的信号通路,其中就有我们要找的p53信号通路。

点击通路编号“hsa04115”,就可看到信号通路图,我们查询的PTEN基因被红色标注了出来。如果要查找该通路中的其他基因,也可以在本页面的搜索框中输入相应关键词,同样得到红色高亮显示。

作业二

查看KEGG中参与信号转导的信号通路,并点击mTOR信号通路,查看其关联的信号通路及调控的表型。

在KEGG首页上选择KEGG PATHWAY子数据库。

在点开后的页面往下拉到信号转导通路,相当多了。

找到mTOR信号通路,点进去。圆角矩形文本框中的就是其相关联的信号通路。

我们可以看到,mTOR上游有AMPK、MAPK、Insulin、PI3K-AKT等信号通路,各通路之间又有交互影响。

mTOR通路可以影响微管组织、脂解作用、脂类合成、自噬、蛋白合成、细胞骨架、细胞存活等表型,其中自噬、甘油酯代谢、actin细胞骨架调控在本数据库里有通路图谱。

作业三

请分析以下分子(人源)参与了哪些信号通路,并在信号通路中用粉红色标记表达下调的分子,用黄色标记表达上调的分子,给出基因匹配最多的信号通路图。

不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。

在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。

在弹出的页面中选择Reviewed的结果,再选择下载格式(Excel、非压缩);也可以点旁边的Columns选择我们需要的列名。Entry即Uniprot编码。

下载好后,将Entry贴到我们原来的表格中。此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。这时本来需要根据全称确认哪个是我们需要的,不过这次题目中没有说明,就全都要了吧,表达值也算一样的。

接下来用Excel的筛选工具,对表达值一列筛选。先选出0者,填上yellow。

注意颜色名称都要小写,否则KEGG识别不出来。

然后到KEGG主页,在最下方的分析工具里找到KEGG Mapper:

在新页面中选择Search & Color Pathway:

然后填好物种、ID格式,把刚才的Entry和颜色贴进来,点Exec查询。

搜出来一个相当长的列表,通路名后边的小括号内数字,就是该通路中含有我们查询的基因的数量。

按要求选择匹配最多的那个,点开就是我们需要的通路图了,匹配基因、上调下调一目了然。

作业四

根据所给的芯片结果数据,分析差异变化从大到小排列,前50个分子参与的信号通路,给出匹配度最高的信号通路图(要求用橙色orange标记上调基因,用青色cyan标记下调基因)

我们从生信公司拿到了芯片数据,要先做个预处理。找到变化倍数(Fold Change, FC)绝对值,按降序排列。

再找到EntrezGeneID,排除空值。

再在Excel上方的“数据”菜单中找到“删除重复项”,弹窗中选择EntrezGeneID,确认。

把前50个贴到另一个表里,仅留EntrezGeneID和Regulation两列,根据要求将上调下调的分别赋予颜色。然后按刚才查询通路的办法再操作一遍就好了,不过注意这回的输入格式是NCBI-GeneID。

然后点开匹配度最高的通路就是了。

作业五

在GEO数据库中检索到GSE18842,并使用GEO在线工具分析该数据集中tumor和control组间差异表达的分子,并用KEGG Mapper进行通路分析,给出匹配度第2的通路,并用颜色标记:红色标记上调倍数[4, ∞);粉红色标记上调倍数在(0, 4);蓝色标记下调倍数(-∞, -4];青色标记下调倍数在(-4, 0)。

这里主要讲讲GEO数据库的检索和简单分析,后边的步骤跟之前的差不多了。GEO涵盖很多疾病的高通量数据,多个学科的小伙伴都可以应用。

打开我们熟悉的Pubmed,选择GEO Dataset,输入关键字GSE18842,Search。

进入相应的条目页面后,拉到下方点Analyze with GEO2R。

进入分析后,要先按数据提供的信息分配组别。点开上方的Define groups,分别输入组名Control和Tumor。然后按Title排序,选中所有control样本,再点一次Control组名,即可看到最左Group一列填上了相应的组名。同样的方法分配好Tumor组。

然后拉到下方点Top 250,默认分析结果仅显示变化最明显的250个分子(按p值排序)。我们也可以点Save all results,后续再按变化倍数排序,自己筛选所需的数量。

然后在新页面中点Select Columns,弹窗里选上Gene ID。

此时若点开单个基因,可以看到它在各样本中的表达情况。

收起柱状图,把数据复制贴到Excel表里。然后对GeneID一列去除重复值和空白值,剩下的将logFC和GeneID复制到一个新表格中。

我们还会发现一种情况,即有些探针是指向一个分子组合,这些通常是一个家族中的不同成员,用“///”分隔。而KEGG中需要一个分子单独一行,所以也要处理一下。

就手动把后面的分子贴到新插入的一行吧……变化倍数也复制下来,耐心点。

后边筛选数值、标记颜色、搜索通路的操作都会了吧?跟前边讲的一样哦。只是提醒一点,这里的logFC是FC以2为底数取的对数,所以题目中的上调倍数[4, ∞)的区间,是指logFC的[2, ∞)。

我们还是按要求选匹配第2的。

贴上结果图,细胞周期信号通路里多个分子被上调4倍以上。

欲知更多骚操作,欢迎来围观科研技能单元课~

本文来自企鹅号 - 解螺旋媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏逍遥剑客的游戏开发

Nebula3绘制2D纹理

1356
来自专栏Charlie's Road

UIKit Dynamics:开始入门 —《Graphics & Animation系列一》

翻译自raywenderlich网站iOS教程Graphics & Animation系列 介绍 UIKit Dynamics是一个集成到UIKit中的完整物理...

813
来自专栏数据库

速来围观!——三种NCBI常见数据库

在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此...

19310
来自专栏iOSDevLog

初试 iOS 11 新框架:Vision Framework 让文字检测变得更容易

2634
来自专栏技术总结

UIKit Dynamics 置身真实世界

23810
来自专栏华章科技

你真的懂数据分析吗?一文读懂数据分析的流程、基本方法和实践

导读:无论你的工作内容是什么,掌握一定的数据分析能力,都可以帮你更好的认识世界,更好的提升工作效率。数据分析除了包含传统意义上的统计分析之外,也包含寻找有效特征...

872
来自专栏一个会写诗的程序员的博客

前端布局单位选择之 rem

进行布局的话建议用less去写,因为less中可以用变量,这样我们可以省去频繁用计算器的时间了。

771
来自专栏程序员笔记

Unity3D入门:做个第一人称射击游戏

1507
来自专栏跟着阿笨一起玩NET

c#开发地磅称重软件

2012年时即做过一个地磅称重软件,最近公司又接了一个地磅过磅软件的项目,把遇到的问题总结一下以备后用。

1142
来自专栏数说工作室

3行代码实现 Python 并行处理,速度提高6倍!

原标题:Here’s how you can get a 2–6x speed-up on your data pre-processing with Pyth...

1245

扫码关注云+社区