首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何利用clusterProfiler获取最新的KEGG和基因对应关系

本文是洲更写的,文中说到两步,其实只需要这一步,然后就可以用或函数进行分析,也就是通用的分析函数,不管是什么注释,不管是什么物种,都可以支持。

这样做的好处也有一些

分析时不用联网,可以搞个local版本

分析具有可重复性,实时爬网络数据,毕竟有时候服务器端有更新的话,就会导致有一些变化。

第二步所谓需要序列,其实是想本地blast,自己注释,这种一般是和KO数据库进行比对。等候洲更的更新,看他后面怎么玩。

Y叔的的一大优点就是能够利用最新的KEGG数据库,而不是停留在最后一个公开版的KEGG数据库(2011-5-15).

大部分情况下,大家都是直接用或者完成富集分析,但是我最近想到,我其实可以利用这个功能反向建立一个注释用的数据库,只需要两步

第一步: 获取KEGG编号对应的基因编号

第二步: 根据基因编号获取序列信息

这里只讲第一步,如何用Y叔获取最新的KEGG和基因的对应关系, 我们以人类为例。

先用下载给定物种的KEGG数据库

这一步得到的是一个列表,这个列表有两个成员,

一个是KEGG的通路编号和基因编号的关系,另一个是KEGG通路编号和名字的关系

我们可以将其进行合并

最后的PATH_ID_NAME的表格信息如下

保存到本地

拓展:如何在此基础上增加ENSEMBL的编号?这可以使用biomaRt进行ID转换

于是我们得到了ENSEMBL的基因编号,通过merge就可以将其添加到之前的数据框中

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190516A0J9CF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券