在R里面对坐标进行基因组区域注释

坐标注释最简单的生物学应用就是peaks区域的注释,通常我们可以使用linux的各种软件加上gtf等格式的基因组注释信息来完成,在R里面当然也是可以轻松完成的啦!

假设有如下格式的坐标:

> head(pos)
    chr     start       end
1 chr10 100505299 100505300
2 chr10 100505299 100505300
3 chr10 104125494 104125495
4 chr10  11320827  11320828
5 chr10 118691247 118691248
6 chr10 119123605 119123606

这里可以使用大名鼎鼎的Y书开发的ChIPseeker包,加上人类的注释信息包TxDb.Hsapiens.UCSC.hg38.knownGene来进行注释,示例代码如下:

pos=data.frame(chr=str_split(dat$id,':',simplify = T)[,1],
                  start=as.numeric(str_split(dat$id,':',simplify = T)[,2]) )
pos$end=pos$start+1 
pos_anno=as.data.frame(peakAnno)
require(ChIPseeker)
library(org.Hs.eg.db)
library(org.Mm.eg.db)
library(GenomicRanges)
peak <- GRanges(seqnames=Rle(pos[,1]),
                ranges=IRanges(pos[,2], pos[,3]), strand=rep(c("*"), nrow(pos)))
peak
library(TxDb.Hsapiens.UCSC.hg38.knownGene)
txdb=TxDb.Hsapiens.UCSC.hg38.knownGene
peakAnno <- annotatePeak(peak, tssRegion=c(-3000, 3000),
                         TxDb=txdb, annoDb="org.Hs.eg.db")
pos_anno=as.data.frame(peakAnno)

是不是很简单呀!

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-09-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

分布式TensorFlow入坑指南:从实例到代码带你玩转多机器深度学习

通过多 GPU 并行的方式可以有很好的加速效果,然而一台机器上所支持的 GPU 是有限的,因此本文介绍了分布式 TensorFlow。分布式 TensorFlo...

2557
来自专栏用户2442861的专栏

Tesseract:训练

http://www.zmonster.me/2015/05/05/tesseract-training.html

1491
来自专栏小巫技术博客

Building TensorFlow on Android(译)

1571
来自专栏Small Code

【TensorFlow | 升级】TensorFlow 1.0 发布

NOW 首届 TensorFlow 开发者大会(TensorFlow Dev Summit)已于美国时间昨日召开,YouTube 还进行了直播。更重要的是,Te...

21110
来自专栏小小挖掘机

windows下使用word2vec训练维基百科中文语料全攻略!(一)

训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2vec,...

2906
来自专栏李想的专栏

使用腾讯云“自定义监控”监控 GPU 使用率

本文旨在通过使用腾讯云的“自定义监控”服务来自行实现对 GPU 服务器的 GPU 使用率的监控。

1.3K13
来自专栏生信宝典

测序数据可视化 (三) - UCSC genomebrowser

UCSC 在线基因组浏览器也可用来查看基因组数据,并且其上收集了ENCODE数据,重复序列数据,物种保守信息数据,MOTIF分布等信息,对于我们在公共数据中在线...

50710
来自专栏逆向技术

逆向知识第八讲,if语句在汇编中表达的方式

           逆向知识第八讲,if语句在汇编中表达的方式 一丶if else的最简单情况还原(无分支情况) 高级代码: #include "stdafx...

2646
来自专栏张尧博客

6个好玩儿的LINUX命令

4265
来自专栏Java技术栈

Zookeeper面试题锦集

1、zookeeper是什么框架? 2、有哪些应用场景? 3、使用什么协议? 4、说说分布式一致性算法Paxos 5、说一说选举算法及流程 6、zookeepe...

4868

扫码关注云+社区

领取腾讯云代金券