前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何优雅的统计基因外显子长度

如何优雅的统计基因外显子长度

作者头像
生信小王子
发布2020-08-10 16:48:15
2.1K0
发布2020-08-10 16:48:15
举报
文章被收录于专栏:生信小王子

小编最近在统计基因组内每个基因的外显子长度,原以为非常简单,直接查找外显子的位置计算就可以,但写脚本的时候才发现非常麻烦。因为基因组中很多外显子区域是重合的,粗暴的将每个外显子的长度加在一起是不对的,这时我们可以使用R包"GenomicFeatures "去除外显子重叠的部分,优雅的统计每个基因的外显子长度。

代码语言:javascript
复制
## 安装R包"GenomicFeatures"
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("GenomicFeatures")
## 加载R包
library("GenomicFeatures")
## 导入gff3文件
txdb <- makeTxDbFromGFF("genome.gff3",format="gff3")
## 获取外显子位置
exons_gene <- exonsBy(txdb, by = "gene")
## 去除外显子重叠部分,计算外显子长度
exons_gene_len <- lapply(exons_gene,function(x){sum(width(reduce(x)))})

简单几步,我们就可以准确地计算出每个基因的外显子长度啦!

"GenomicFeatures "还有非常多的功能,如提取基因的启动子序列、获得基因内含子的长度等等,大家可以查看它的manual,学习更多的用法!

本文R语言代码引自:

http://www.bioinfo-scrounger.com/archives/342/ 作者: Kai

参考资料:

http://www.bioconductor.org/packages/release/bioc/vignettes/GenomicFeatures/inst/doc/GenomicFeatures.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信小王子 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档