麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。

你需要了解你的分子目前已有哪些研究,跟其他分子是怎样的关系。当然可以从文献中慢慢去了解,但KEGG绘制了已知的通路数据,直观呈现,无疑是提升检索效率好的办法。

KEGG的主要用途有:查询通路信息、信号通路检索,以及非常推荐的分析工具KEGG Mapper,它可以根据前期筛选得到的差异分子列表去构建分子调控网络,得到清晰简明的通路图。

咱们通过五个案例,来把这些功能用法撸一遍。

(好了我承认这是酸菜老师布置的作业,我又陪大家做作业来了)

作业一

请使用KEGG检索人类基因PTEN的信息并查看其参与了哪些信号通路,查看其在p53信号通路中的位置。

先找到网页下方的KEGG GENES子数据库。

在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。不过注意格式,“物种 : 基因”

接着就有个弹窗显示该基因的信息,包括其参与的信号通路,其中就有我们要找的p53信号通路。

点击通路编号“hsa04115”,就可看到信号通路图,我们查询的PTEN基因被红色标注了出来。如果要查找该通路中的其他基因,也可以在本页面的搜索框中输入相应关键词,同样得到红色高亮显示。

作业二

查看KEGG中参与信号转导的信号通路,并点击mTOR信号通路,查看其关联的信号通路及调控的表型。

在KEGG首页上选择KEGG PATHWAY子数据库。

在点开后的页面往下拉到信号转导通路,相当多了。

找到mTOR信号通路,点进去。圆角矩形文本框中的就是其相关联的信号通路。

我们可以看到,mTOR上游有AMPK、MAPK、Insulin、PI3K-AKT等信号通路,各通路之间又有交互影响。

mTOR通路可以影响微管组织、脂解作用、脂类合成、自噬、蛋白合成、细胞骨架、细胞存活等表型,其中自噬、甘油酯代谢、actin细胞骨架调控在本数据库里有通路图谱。

作业三

请分析以下分子(人源)参与了哪些信号通路,并在信号通路中用粉红色标记表达下调的分子,用黄色标记表达上调的分子,给出基因匹配最多的信号通路图。

不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。

在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。

在弹出的页面中选择Reviewed的结果,再选择下载格式(Excel、非压缩);也可以点旁边的Columns选择我们需要的列名。Entry即Uniprot编码。

下载好后,将Entry贴到我们原来的表格中。此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。这时本来需要根据全称确认哪个是我们需要的,不过这次题目中没有说明,就全都要了吧,表达值也算一样的。

接下来用Excel的筛选工具,对表达值一列筛选。先选出0者,填上yellow。

注意颜色名称都要小写,否则KEGG识别不出来。

然后到KEGG主页,在最下方的分析工具里找到KEGG Mapper:

在新页面中选择Search & Color Pathway:

然后填好物种、ID格式,把刚才的Entry和颜色贴进来,点Exec查询。

搜出来一个相当长的列表,通路名后边的小括号内数字,就是该通路中含有我们查询的基因的数量。

按要求选择匹配最多的那个,点开就是我们需要的通路图了,匹配基因、上调下调一目了然。

作业四

根据所给的芯片结果数据,分析差异变化从大到小排列,前50个分子参与的信号通路,给出匹配度最高的信号通路图(要求用橙色orange标记上调基因,用青色cyan标记下调基因)

我们从生信公司拿到了芯片数据,要先做个预处理。找到变化倍数(Fold Change, FC)绝对值,按降序排列。

再找到EntrezGeneID,排除空值。

再在Excel上方的“数据”菜单中找到“删除重复项”,弹窗中选择EntrezGeneID,确认。

把前50个贴到另一个表里,仅留EntrezGeneID和Regulation两列,根据要求将上调下调的分别赋予颜色。然后按刚才查询通路的办法再操作一遍就好了,不过注意这回的输入格式是NCBI-GeneID。

然后点开匹配度最高的通路就是了。

作业五

在GEO数据库中检索到GSE18842,并使用GEO在线工具分析该数据集中tumor和control组间差异表达的分子,并用KEGG Mapper进行通路分析,给出匹配度第2的通路,并用颜色标记:红色标记上调倍数[4, ∞);粉红色标记上调倍数在(0, 4);蓝色标记下调倍数(-∞, -4];青色标记下调倍数在(-4, 0)。

这里主要讲讲GEO数据库的检索和简单分析,后边的步骤跟之前的差不多了。GEO涵盖很多疾病的高通量数据,多个学科的小伙伴都可以应用。

打开我们熟悉的Pubmed,选择GEO Dataset,输入关键字GSE18842,Search。

进入相应的条目页面后,拉到下方点Analyze with GEO2R。

进入分析后,要先按数据提供的信息分配组别。点开上方的Define groups,分别输入组名Control和Tumor。然后按Title排序,选中所有control样本,再点一次Control组名,即可看到最左Group一列填上了相应的组名。同样的方法分配好Tumor组。

然后拉到下方点Top 250,默认分析结果仅显示变化最明显的250个分子(按p值排序)。我们也可以点Save all results,后续再按变化倍数排序,自己筛选所需的数量。

然后在新页面中点Select Columns,弹窗里选上Gene ID。

此时若点开单个基因,可以看到它在各样本中的表达情况。

收起柱状图,把数据复制贴到Excel表里。然后对GeneID一列去除重复值和空白值,剩下的将logFC和GeneID复制到一个新表格中。

我们还会发现一种情况,即有些探针是指向一个分子组合,这些通常是一个家族中的不同成员,用“///”分隔。而KEGG中需要一个分子单独一行,所以也要处理一下。

就手动把后面的分子贴到新插入的一行吧……变化倍数也复制下来,耐心点。

后边筛选数值、标记颜色、搜索通路的操作都会了吧?跟前边讲的一样哦。只是提醒一点,这里的logFC是FC以2为底数取的对数,所以题目中的上调倍数[4, ∞)的区间,是指logFC的[2, ∞)。

我们还是按要求选匹配第2的。

贴上结果图,细胞周期信号通路里多个分子被上调4倍以上。

欲知更多骚操作,欢迎来围观科研技能单元课~

本文来自企鹅号 - 解螺旋媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

PID控制原理:看完这三个故事,你就明白了

一、PID的故事 小明接到这样一个任务:有一个水缸点漏水(而且漏水的速度还不一定固定不变),要求水面高度维持在某个位置,一旦发现水面高度低于要求位置,就要往水缸...

2543
来自专栏逍遥剑客的游戏开发

有向无环图的自动布局算法

1555
来自专栏素质云笔记

keras系列︱keras是如何指定显卡且限制显存用量

keras在使用GPU的时候有个特点,就是默认全部占满显存。 若单核GPU也无所谓,若是服务器GPU较多,性能较好,全部占满就太浪费了。 于是乎有以下三...

3369
来自专栏企鹅号快讯

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。...

2186
来自专栏SeanCheney的专栏

《Scikit-Learn与TensorFlow机器学习实用指南》 第2章 一个完整的机器学习项目使用真实数据项目概览获取数据数据探索和可视化、发现规律为机器学习算法准备数据选择并训练模型模型微调启动

本章中,你会假装作为被一家地产公司刚刚雇佣的数据科学家,完整地学习一个案例项目。下面是主要步骤: 项目概述。 获取数据。 发现并可视化数据,发现规律。 为机器学...

73915
来自专栏生信技能树

单细胞转录组3大R包之monocle2

主要是针对单细胞转录组测序数据开发的,用来找不同细胞类型或者不同细胞状态的差异表达基因。分析起始是表达矩阵,作者推荐用比较老旧的Tophat+Cufflinks...

1.2K9
来自专栏Python攻城狮

Python数据科学(六)- 资料清理(Ⅰ)1.Pandas1.资料筛选2.侦测遗失值3.补齐遗失值

成功爬取到我们所需要的数据以后,接下来应该做的是对资料进行清理和转换, 很多人遇到这种情况最自然地反应就是“写个脚本”,当然这也算是一个很好的解决方法,但是,p...

953
来自专栏逍遥剑客的游戏开发

Direct3D学习(七):DirectX下天空盒子的实现

1164
来自专栏菩提树下的杨过

机器学习笔记(4):多类逻辑回归-使用gluton

接上一篇机器学习笔记(3):多类逻辑回归继续,这次改用gluton来实现关键处理,原文见这里 ,代码如下: import matplotlib.pyplot a...

1875
来自专栏机器之心

教程 | 无需复杂深度学习算法,基于计算机视觉使用Python和OpenCV计算道路交通

4258

扫码关注云+社区