Gene ID 转换工具

写在前面

我们在研究基因的时候,尤其是在研究高通量数据分析,经常会碰到我们研究的这个数据的基因ID不是我们通常意义上的基因名。拿TCGA的数据举例,TCGA RNA-seq的数据比对的基因是ID是Ensembl数据库的ID号,如果我们拿到这样的ID号的话,有一些分析是进行不下去的,所以需要转化为传统意义上的Gene Symbol。

基因ID转换的工具很多,各个数据库不同的还是在于背景数据库的问题。有时候我们拿到的基因的ID是新的ID号,但是使用的的数据库里面的数据是旧的结果就导致很多ID没办法转换为基因名。我们就介绍几个进行ID转换的工具吧!

对于ID转换的工具而言,其实操作都差不多,我们要做的其实就三步:

  1. 提交我们要转换的ID号
  2. 选择这个ID号属于什么数据库
  3. 选择我们想要转换成什么ID号

DAVID

DAVID(https://david.ncifcrf.gov/home.jsp),因为很多生信的文章富集分析使用的是这个数据库,所以就导致这个数据库很出名。这个数据库除了可以做富集也是可以做ID的转换的。

我们需要做的就是在ID转换的里面,在填写数据的左边,按照下图当中的操作填入具体的相对应的ID。

点击submit之后,在右边栏当中选择想要转换的ID号,然后点击submit即可。

g:Convert

之前我们在介绍富集分析软件的时候,提到过一个多ID的富集分析软件g:GOST。具体的数据库介绍,可以查看推送的第二条。在这个数据库里面有一个g:Convert(https://biit.cs.ut.ee/gprofiler/convert)的工具,这个工具可以让我们进行ID的转换。

在这个数据库进行ID转换的话,我们不需要选择输入的是什么ID,只需要选择输出什么ID就行。然后就得到想要结果。

另外,这个数据库对于转换的结果,默认的都会添加gene symbol的。所以在输出选择里面是没有gene symbol这个选项的。

另外这个由于这个数据库做富集的时候支持多种不同形式的ID来进行富集。所以在基因转换的时候也是支持的。例如我们输入这些混合的ID,就可以得到所有和这些ID有关的基因名了。

biomart

之前在某一个帖子里面提到过id转换的话推荐使用biomart,这次就介绍一下biomart这个数据库。这个数据库是ensembl数据库里面进行id转换的一个工具,数据库的网址是:https://m.ensembl.org/biomart/martview/

我们进入数据库之后第一步是选择我们要转换的物种。

选择完物种之后的话,我们就需要制定输入和输出了。

我们点击Filters就可以就可以选择我们输入什么类型的ID,这个数据库支持这么多类型的输入。

其中第二个GENE里面可以输入多个数据库ID。这里我们可以选择我们输入的ID是什么,在每个数据库参考ID的后面,都有实例让我们来看是不是这样的ID号。

选择好输入好之后的话,我们点击Attributes来指定我们想要导出的ID类型。例如我们选择输出:基因名、染色体位置、基因的起始位置和中止位置。

在选择好之后,我们点击Results就可以获得转换后的结果了。

写到最后

以上是我们介绍的三个ID转换的数据库。网络版本的转换工具有一个不好的地方在于如果我们转换的ID过多的话,有可能卡,或者说就查过它的最大限制了。这个时候往往使用一些代码行的工具可能刚好用一些。代码行的话,biomart也是有相对于的R包的。有兴趣的可以学习一下。

本文分享自微信公众号 - 数据库百科(yxkygjx),作者:Hogg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 关于基因ID的二三事

    对于一个基因而言,我们经常使用的,同时在文章里面能看到的还是基因名。例如: TP53, RNF180。这样的名字,是这个基因功能+编号的简写。例如TP53就是T...

    医学数据库百科
  • 基因ID转换工具比较

    DAVID、g:Convert 以及 biomart,但是这个工具内置的数据怎么样并不清楚,所以今天就来评价一下这几个工具吧。

    医学数据库百科
  • miRNA富集分析数据库

    对于miRNA而言。其功能的预测基本都是通过其影响的基因来进行来讲总结的。随着关于miRNA的研究过多,目前也有了关于miRNA功能注释的数据库也越来越多。这样...

    医学数据库百科
  • SQLServer SQL连接查询深度探险(摘录

    测试的SQL脚本如下:此脚本适合MySQL、DB2,如果要在Oracle上执行,需要做个替换BIGINT->INTEGER,VARCHAR、->VARCHAR...

    授客
  • python:爬虫入门

    直接上代码吧: 一、爬取某外卖平台的指定商家菜品信息 from urllib import request import json import random ...

    菩提树下的杨过
  • 分布式ID生成器的解决方案总结

    在互联网的业务系统中,涉及到各种各样的ID,如在支付系统中就会有支付ID、退款ID等。那一般生成ID都有哪些解决方案呢?特别是在复杂的分布式系统业务场景中,我们...

    Java技术栈
  • Google Analytics里的各种ID

    默认情况下,Google Analytics 会为每台设备分配一个唯一的 Client ID,并在报告中将每个 Client ID 视为一个唯一身份用户。Cli...

    GA小站
  • SAP CRM产品主数据里的七种ID

    3实际上就是PRODUCT_ID了。除了4之外,其他6种ID都能作为alternative ID被查找到。

    Jerry Wang
  • 细聊分布式ID生成方法

    一、需求缘起 几乎所有的业务系统,都有生成一个记录标识的需求,例如: (1)消息标识:message-id (2)订单标识:order-id (3)帖子标识:t...

    架构师之路
  • Google Analytics里面的几个用户标识

    默认情况下,Google Analytics 会为每台设备分配一个唯一的 Client ID,并在报告中将每个 Client ID 视为一个唯一身份用户。Cli...

    GA小站

扫码关注云+社区

领取腾讯云代金券