前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >有趣的基因命名

有趣的基因命名

作者头像
生信技能树
发布2019-12-05 10:30:50
9920
发布2019-12-05 10:30:50
举报
文章被收录于专栏:生信技能树生信技能树

gene symbol 是非常官方的,由HUGO 组织负责维护,有专门的数据库HGNC database of human gene names | HUGO

以前分析数据的时候,有一些基因的symbol很奇怪,让我百思不得其解,比如:

  • C orf 系列基因,
  • HS.系列基因,
  • KRTAP系列基因,
  • LOC系列基因,
  • MIR系列基因,
  • LINC系列基因

它们往往一个系列,就有好几百个基因,

  • C12orf44; Chromosome 12 Open Reading Frame 44; 这个是C orf系列基因的意思
  • MIR系列基因应该是 miRNA相关的基因
  • LINC系列基因应该就是long intergenic non-protein coding RNA
  • OC系列基因,是非正式的,推定的,日后可能被更合适的名字替代

还有一些RNA基因,根本就没有symbol,比如:CTA/B/C/D-系列的

  • Aliases for ENSG00000271971 Gene
  • CTD-2006H14.2 5
  • External Ids for ENSG00000271971 Gene
  • Ensembl: ENSG00000271971

还有,如果你看到HS.开头的基因,它是unigene的ID了,已经不再是symbol啦。

当然了,本来就有很多基因家族里面的成员的名字就很类似,也可以理解哈。

关于非编码蛋白的基因

如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,然后制定以后后缀,这个后缀可以下方式分类: ● 反义 (antisense,AS),BACE1-AS; ● 内含子(intronic,IT),例如,SPRY4-IT1; ● 重叠 (overlapping,OT),例如,OSX2-OT; ● 长链基因间lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485。

上述命名的基本架构适用于大多数lncRNA,但对于基因密集区域的lncRNA可能就不适用了,这种情况下,你应该与HGNC沟通来解决。

关于Excel表格的日期基因

当然了,如果你是Excel表格操作,你还有可能遇到日期基因

image-20191129123404482

具体见:Excel-坑你的基因名没商量!-计算机基础-生信技能树 www.biotrainee.com/thread-908-1-1

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 关于非编码蛋白的基因
  • 关于Excel表格的日期基因
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档