前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基因ID转换工具比较

基因ID转换工具比较

作者头像
医学数据库百科
发布2020-06-05 11:27:45
1.4K0
发布2020-06-05 11:27:45
举报

写在前面

昨天我们介绍了三个ID转换的工具:

DAVIDg:Convert 以及 biomart,但是这个工具内置的数据怎么样并不清楚,所以今天就来评价一下这几个工具吧。

数据准备

由于我们使用最多的是TCGA的数据,所以我们就用TCGA的ID号来进行一下多个数据库的评估。

首先由于TCGA比对的ID使用的是ENSG + 版本的的样式。这样的ID号我们只能只能使用biomart来进行转换,同样的转换的结果也不是很理想。至于说TCGA的ID号怎么转换最好,这个我们可以明天再讲一下。

为了评价三个数据库的结果,所以我们就把有版本号的结果进行了拆分。拆成了ENSG类别的ID号来进行多数据库评价。我们这里选择随机的999个基因ID来进行评价。

多数据库评价结果

利用这999个ENSG ID号,我们在DAVID数据库当中进行了转换。结果发现,在这999个ID当中,只有515个基因存在于数据库当中。剩下的484个是没有纳入到数据库当中的。

同样的,我们在g:Convert数据库当中进行的转换。999个的基因当中,经过转换,最终有894个基因得到转换。

最后,通过biomart数据库来进行转换。我们在输入好之后,点击count就就可以得到统计的结果。经过统计。我们发现有925个基因得到的注释。

综上来看的话,还是biomart转换的结果更好一些。所以如果要进行id转换的话,还是推荐使用biomart。有时候biomart或者说ensembl数据库整体来说在国内有时候会上不去,这个时候其实使用g:Convert也是可以的。至于DAVID嘛。。还是放弃吧。。。

biomart数据库的另一种使用方法

我们在进行基因组分析的时候,经常得到了很多目标基因。但是对于这些基因具体是蛋白编码的还是非编码的不是很清楚。这个时候看着一个个基因总不能一个个去查吧,这个时候就可以使用biomart进行基因类型的注释了。

在biomart的Attributes里面,有一个Gene Type的注释,这个注释可以让我们知道基因的类型,如果我们选上这个输出结果的话。

在选择之后,点击Results,我们就可以看到在的最后一栏就有了一个Gene Type的列,这个里面就注释了每一个基因是蛋白编码的还是其他的。

写到最后

以上就是我们对于三个数据库的比较以及对于biomart使用过程当中的一个对于基因类型注释的小技巧。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据库百科 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档