前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >转录本定量本来就不是一件容易的事情

转录本定量本来就不是一件容易的事情

作者头像
生信技能树
发布2019-11-14 15:18:48
7420
发布2019-11-14 15:18:48
举报
文章被收录于专栏:生信技能树

gtf文件大家都了解,基因或者外显子的坐标相对独立,但是转录本很不一样,同一个基因的不同转录本共用外显子,这样的话它们的坐标其实很多都是overlap的,这样,我们的二代测序的100bp或者150bp的reads就无法判定它到底属于哪一个转录本!(这个时候全长转录组测序(iso-seq)可能是更好的选择)

比如文章:2015 Nov 7. doi: 10.1080/01621459.2015.1040880 就尝试图解如下:

image-20191112170928855

我们可以很轻松的对这个基因的3个exon进行表达量计数,但是呢,这3个转录本就需要通过公式来推断了,而且这还是一种理想的情况下,我们的这个 基因仅仅是有这3个转录本,所以得到这样的结果,就不奇怪了。

TCGA数据库也不提供基于转录本的表达矩阵

比如我一直强推的UCSC的XENA数据库里面:

https://xenabrowser.net/datapages/

比如对BRCA来说,基于exon的表达矩阵是:

https://tcga.xenahubs.net/download/TCGA.BRCA.sampleMap/HiSeqV2_exon.gz

代码语言:javascript
复制
Level_3 data (file names: *.exon_quantification.txt) are downloaded from TCGA DCC, log2(x+1) transformed, and processed at UCSC into Xena repository.

input data formatROWs (identifiers) x COLUMNs (samples) (i.e. genomicMatrix)
239,323 identifiers X 1218 samples

基于基因的表达矩阵如下:

https://tcga.xenahubs.net/download/TCGA.BRCA.sampleMap/HiSeqV2.gz

代码语言:javascript
复制
Level_3 data (file names: *.rsem.genes.normalized_results) are downloaded from TCGA DCC, log2(x+1) transformed, and processed at UCSC into Xena repository

input data formatROWs (identifiers) x COLUMNs (samples) (i.e. genomicMatrix)
20,531 identifiers X 1218 samples

不过还好有专门的isoform数据库

我们下次再讲。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • TCGA数据库也不提供基于转录本的表达矩阵
  • 不过还好有专门的isoform数据库
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档