学习
实践
活动
工具
TVP
写文章

ID转换大全

实际上掌握了编程的思维,任何一门语言都可以做id转换!

对于初学者来说,这个是非常实用的一个,很多人当初就是因为要做这个转换,才慢慢走入了编程的道路。

使用大部分软件的时候,第一步就是文件数据准备,基本上都是数据的拆分和整合,这个拿id转换做基础练习也挺好的!

本来应该作为第一讲,但是当初认为太基础了,而忽略掉了,放在这里也好,大部分同学已经跟我们学习两个月了,可以拿这个题目来检验自己的水平了!

ID转换简单来说,就是找到对应关系表,然后用hash或者字典对应一下即可。但也可以很复杂:

为什么要转换id?

有多少种ID?

什么id权威?

id是一一对应的吗?

ID是什么生信组织维护?

id有版本吗?

id一定正确吗?

什么情况下选择什么id?

不同数据库下载的id对应表一定一样吗?

你们看我的博客,就知道,我是如何重视ID转换的:

用R的shiny包写一个基因的ID转换小程序

gene的各种ID转换终结者-bioconductor系列包

gene的symbol与entrez ID并不是绝对的一一对应的

还有论坛里面的:生信人必须了解的各种ID表示方式

当然,我们时间有限,不可能面面俱到,很多东西都是需要自己去慢慢挖掘的!

需要集中学习的是 entrez gene ID, HUGO symbol, refseq ID, ensembl ID

作业,就是用perl,python,R来把1~1000 这1000个 entrez gene ID转为另外3个吧,如果该entrez gene ID不存在,就不用转了。

请自己下载基因ID的对应关系文件,参考,http://www.bio-info-trainee.com/75.html

最后:

请务必把下面的代码运行一下,把输出的all_gene_bioconductor.html文件好好看看!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180115G0LYD800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券