前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >gencode-高质量的基因注释信息数据库

gencode-高质量的基因注释信息数据库

作者头像
生信修炼手册
发布2020-05-08 16:41:08
1.1K0
发布2020-05-08 16:41:08
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

对于人和小鼠而言,NCBI, Ensembl等数据库都保存了对应的基因注释信息,不同数据库中的信息来源和可信度都不一样,gencode综合HAVANA和Ensembl 数据库中的信息,通过实验手段加以验证,从而构建一个高质量的注释信息数据库。网址如下

https://www.gencodegenes.org/

官网提供了GTF和GFF3两种格式的文件以供下载,示意如下

每种类型的文件提供了3种区域

  1. CHR
  2. ALL
  3. PRI

对于基因组而言,包括了chromsomeunplaced_scaffold, alt_scaffold, patch等序列,这些序列上都存在对应的基因。CHR指的是染色体级别的信息,包括细胞核内的染色体和线粒体;ALL包括所有的序列,PRI只包含染色体和unplaced_scaffold序列上的信息。官方推荐,使用CHR级别的信息。

文件中采用level来表示注释信息的可信度,目前共包括3个level。

level1代表可靠的注释信息,有直接的实验证据支持的注释信息;level2代表的是经过人工校对的注释信息,取HAVANA和Ensembl注释信息中一致的注释信息;level3指的是软件注释的信息,通常是Ensemble中和HAVANA不一致的注释信息。

如果想要得到更高可信度的注释信息,可以根据level进行过滤,只选择1和2这两个层级的注释信息。

文件中共包含的基因和转录本的个数统计如下

1. human
2. mouse

在文件中,会给出基因或者转录本的类型信息,解释如下

  1. protein_coding 蛋白编码基因
  2. lincRNA 位于基因间区的长链非编码RNA
  3. non_coding 文献中证实的非编码RNA

完整的基因类型信息详见以下链接

https://www.gencodegenes.org/gencode_biotypes.html

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. human
  • 2. mouse
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档