前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言实现基因组的注释

R语言实现基因组的注释

作者头像
一粒沙
发布2021-11-12 10:27:00
2.6K0
发布2021-11-12 10:27:00
举报
文章被收录于专栏:R语言交流中心R语言交流中心

批量获取一个基因或者SNP的详细信息在很多时候都是很困扰的一个问题,今天给大家介绍一个可以注释位点或者基因的R包cellabaseR。此包提供了getGene,getSnp,getProtein,getTranscript,getRegion,getVariant,getClinical,getTf,getXref信息获取功能。

所涉及的数据资源见链接:http://docs.opencb.org/display/cellbase/Data+sources+and+species。首先看下包的安装;

代码语言:javascript
复制
BiocManager::install("cellbaseR")
BiocManager::install("Gviz")
BiocManager::install("VariantAnnotation")

接下来通过实例来看下具体的使用:

代码语言:javascript
复制
###创建基础库
library(cellbaseR)
cb <-CellBaseR()
代码语言:javascript
复制
##获取基础数据
res <-getMeta(object=cb, resource="species")
代码语言:javascript
复制
##获取基因信息
genes <-c("TP73","TET1")
res <-getGene(object = cb, ids = genes, resource = "info")

其中包括了基因的详细信息大家可以自行进行查看

代码语言:javascript
复制
>colnames(res)
 [1] "id"          "name"        "biotype"     "status"    
 [5] "chromosome"  "start"       "end"         "strand"    
 [9] "source"      "description""transcripts" "annotation"
代码语言:javascript
复制
###抽取详细信息
transcripts<- res$transcripts[[1]]
str(transcripts,1)
代码语言:javascript
复制
##获取区域的信息。Resource需要自己进行根据需要进行设置包括genes, snps,clincally relevant variants, proteins等。
res <-getRegion(object=cb,ids="17:1000000-1005000",resource="clinical")
res <-getRegion(object=cb,ids="17:1000000-1005000",resource="conservation")
res <-getRegion(object=cb,ids="17:1000000-1005000",resource="regulatory")
str(res,1)
代码语言:javascript
复制
##获取突变数据
res2 <-getVariant(object=cb, ids="1:169549811:A:G",resource="annotation")
代码语言:javascript
复制
##获取公共突变信息
cbParam <-CellBaseParam(feature=c("TP73","TET1"), limit=100)
res <-getClinical(object=cb,param=cbParam)
代码语言:javascript
复制
##获取SNP的信息
res <-getSnp(object=cb, ids="rs6025", resource="info")
代码语言:javascript
复制
##获取蛋白质的信息
res <-getProtein(object=cb, ids="O15350", resource="info")
代码语言:javascript
复制
##获取转录因子信息
param <- CellBaseParam(limit= 12)
res <-getTf(object=cb, ids="CTCF", resource="tfbs", param=param)
代码语言:javascript
复制
##获取基因在不同数据库中的信息
res <-getXref(object=cb, ids="ENST00000373644", resource="xref")
代码语言:javascript
复制
##基于Gviz实现基因组的可视化
test <-createGeneModel(object = cb, region = "17:1500000-1550000")
if(require("Gviz")){
  testTrack <- Gviz::GeneRegionTrack(test)
  Gviz::plotTracks(testTrack,transcriptAnnotation='symbol')
}
代码语言:javascript
复制
##注释VCF文件
library(VariantAnnotation)
fl <-system.file("extdata","hapmap_exome_chr22_200.vcf.gz",package = "cellbaseR" )
res <-AnnotateVcf(object=cb, file=fl, BPPARAM = bpparam(workers=2),batch_size = 100)
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-11-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 R语言交流中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档