前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >玩转基因组浏览器之使用IGV查看基因结构信息

玩转基因组浏览器之使用IGV查看基因结构信息

作者头像
生信修炼手册
发布2020-05-07 16:19:39
2.3K0
发布2020-05-07 16:19:39
举报
文章被收录于专栏:生信修炼手册生信修炼手册

基因结构是最基本的基因组注释信息,通常情况下,我们最关心基因区域内的数据分布情况,有多种文件格式可以存储基因结构信息

  1. GFF
  2. GTF
  3. BED

用固定格式来存储对应的信息,使得生物信息软件可以更加标准化其输入输出,为数据分析带来便利。但是存储在文件中的信息对于我们而言,并不够直观。为了更加直观的查看基因结构,可以使用IGV浏览器,只需要将对应格式的文件导入软件中即可。

基因结构信息的本质是染色体坐标,IGV要求导入的数据必须是排序之后的结果。以GTF文件为例,可以采用如下命令先进行排序

代码语言:javascript
复制
sort -k1,1 -k4,4n -k5,5n hg19.gtf > hg19.sort.gtf

排序之后还需要对文件建立索引,这样检索的速度会更快,用igvtools可以建立索引,命令如下

代码语言:javascript
复制
igvtools  index hg19.sort.gtf

运行完成后,会生成一个后缀为idx的文件,将排序后的gtf文件和其索引放在同一个目录下,然后导入gtf文件即可。导入成功之后, 可以看到如下所示的结果

所有的转录本折叠在同一行进行展示,下方是对应的gene name。这种展示方式称之为Collapsed, 比较节省空间,但是很多的转录本折叠在一起,无法相互区分。

同一个基因的多个转录本会存在重叠,相邻基因的转录本也可能存在重叠,为了更加的区分重叠的转录本,还支持以下两种展示方式

1. Expanded

结果示意如下

2. Squished

结果示意如下

通过右键可以切换不同的展示方式,Expanded模式下转录本区分的最清楚,但是占据的空间很大,Squished则是一种折中方案,抛弃了gene_name, 进一步压缩了空间。

每一条转录本,由3种元素构成

  1. 矩形
  2. 线条
  3. 箭头

示意如下

其中矩形表示exon区域 ,线条表示基因的正负链信息,向右的箭头表示正链,向左的箭头表示负链。有时会看到类似下图的转录本结构

上图中较窄的矩形区域表示的是UTR区域,对于蛋白编码RNA, 当GTF文件中提供了UTR或者CDS的区间时,会自动计算出UTR区域并进行标注。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Expanded
  • 2. Squished
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档