专栏首页生信技能树第三个万能芯片探针ID注释平台R包

第三个万能芯片探针ID注释平台R包

下载全部表达芯片平台的探针的碱基序列自主注释到基因ID

前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种bioconductor包的方法,大家无需下载几十个bioconductor包,然后自己一个个提取基因信息,我全部为大家做好啦,也就是 idmap1 这个目前host在GitHub, R包:

  • https://github.com/jmzeng1314/idmap1

但是第一个包只能是解决有bioconductor包的那些芯片平台,毕竟是少数,所以我又开发了第二个万能芯片探针ID注释平台包,参见:第二个万能芯片探针ID注释平台R包 , 把全部表达芯片的soft文件下载好后,提前它们的芯片和基因symbol对应关系并存储好,最后是 idmap2 这个目前也host在GitHub, R包:

  • https://github.com/jmzeng1314/idmap2

大量的GPL平台的soft文件并不提供基因注释新

比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827

能拿到的信息就探针序列,所以是idmap1和idmap2都是无法注释的,这个时候就需要我们的idmap3啦!

我下载了全部提供探针碱基序列的GPL平台,然后批量比对到其对应的参考基因组,比如human,mouse,rat ,然后注释到其最新版gtf文件,获取探针比对到参考基因组坐标后注释到的基因信息。

安装我的idmap3包

idmap1解决了bioconductor包下载困难的问题,idmap2解决了GPL平台的soft文件下载困难,而这个idmap3解决了那些并不提供探针的注释信息的平台。

library(devtools)
install_github("jmzeng1314/idmap3")
library(idmap3)

因为有40M,所以下载安装会比较慢哦,喝杯咖啡吧!也欢迎赞助我一杯咖啡,我们一起喝!

关于GitHub下载困难

在中国大陆,大部分人访问GitHub还是很困难的,如果你确实无法下载, 就需要下载我的微云版本:

然后参考我以前的教程:安装GitHub的R包困难解决方案

使用idmap3

比如如果想获取Agilent-079487 Arraystar Human LncRNA microarray V4 (Probe Name version)的注释信息,一行代码就搞定!它的平台是:GPL21827

library(idmap3)
ids=idmap3::get_pipe_IDs('GPL21827')
head(ids) 

这个平台,GPL21827,Agilent-079487 Arraystar Human LncRNA microarray V4 因为在GEO里面仅仅是提供了探针序列,所以我们前面的两个R包都无能为力,只能这个idmap3哦!

你想知道我们支持哪些平台吗,当然是可以看的:

data(gpl_list)
gpl_list[,1:4]

希望你的平台,在我们的列表,能帮助你进行芯片注释。

比较soft文件自带的注释信息和我们的流程注释

rm(list = ls())
options(stringsAsFactors = F)
library(idmap2)
library(idmap3)
# Agilent-011521 Human 1A Microarray G4110A  (Feature Number version)   GPL885
ids2=get_soft_IDs('GPL885')
ids3=get_pipe_IDs('GPL885')
tmp=merge(ids2,ids3,by.x='ID',by.y='probe_id')
table(tmp$symbol.x==tmp$symbol.y)

length(unique(tmp[,1]))
length(unique(tmp[tmp$symbol.x==tmp$symbol.y,1]))
length(unique(tmp[tmp$symbol.x!=tmp$symbol.y,1]))

data("gpl_list")
gpl_list[,1:2]

可以看到很多有趣的问题:

其实很多探针,会同步注释在一个lncRNA和一个mRNA上面,因为lncRNA和mRNA坐标是有交叉的。

而且soft文件自带的注释信息的基因名字都太陈旧了。

An 800 kb deletion at 17q23.2 including the MED13 (THRAP1) gene, revealed by aCGH in a patient with a SMC 17p.

Name:ATRAID. Synonyms:APR3, C2orf28.

Complete information for ASIC5 gene (Protein Coding), Acid Sensing Ion Channel Subunit Family Member ... Previous HGNC Symbols for ASIC5 Gene. 

是不是需要更新你的注释啦

那么,赶快使用我们的包吧!

大家在使用过程中,有任何问题,欢迎留言反馈bugs哈,我们会认真对待每一个留言,把服务做到更好!

本文分享自微信公众号 - 生信技能树(biotrainee),作者:生信技能树

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 把bam文件读入R,并且转为grange对象

    但是把读入的数据变成grange对象就需要一点点技巧,下面演示如何创建grange对象samtools等命令行工具有多复杂的功能和技巧, 那么这个R包就可以多复...

    生信技能树
  • 搞定参考基因组,只需要五秒钟(序列相似性搜索工具—UCSC BLAT)

    看我如何用5个小时才解决了Jimmy老师5秒钟就帮我搞定的问题~ 作为学徒的我这两天在跑Jimmy老师给的ATAC测试数据

    生信技能树
  • fasterq快速转换sra文件到fastq测序数据

    这个软件用起来跟fastq区别不大,主要区别在于 -e 这个指令,可以指定线程数。

    生信技能树
  • C#核编之格式化编程

    一、格式化控制台输入输出     1、 在前面的随笔中,会经常看到诸如{0},{1}之类的标记嵌入在字符串变量中。.NET引入一种字符串格式化的新风格。与C的p...

    郑小超.
  • Otter-入门篇2(Manager安装配置)

    Otter-入门篇2(Manager安装配置) ? 前言 上一节已经简单介绍了Otter的基本信息,本节我们就来开准备搭建一个我们自己的Otter环境,因为一个...

    喵了个咪233
  • Waymo为防无人车撞伤行人又开新脑洞:柔性汽车外壳

    陈桦 编译自 TheVerge 量子位 报道 | 公众号 QbitAI ? △ 这个车已经进博物馆了,这里只是示意图 可能是为了让人民群众放心,现在的自动驾驶程...

    量子位
  • 滴滴顺风车二次整改,隐私与安全的平衡点何在?

    在还没有Uber、滴滴的时候,出租车司机永远不知道下一个上车的是一个小姐姐还是一个老大爷。即便是现在的快车、专车也大多数是平台派单,而顺风车却是个例外(至少在整...

    FB客服
  • [入门] Docker容器数据储存和转移

    容器和镜像之间的主要区别是顶部的可写层。所有对容器添加新的或修改现有数据的内容都存储在该可写层中。当容器被删除时,可写层也被删除。底层镜像保持不变。

    宣言言言
  • 初次学习 Docker Volume 的基本使用 (四)

    在很早的一篇帖子里 http://dockone.io/question/24 就有人问:「请教下代码放在 Docker 里面还是外面呢」多数人评论类似下面的观...

    叶梅树
  • 计算机专用英语词汇1695个词汇表

    特别感谢: 不愿意透露姓名的小虾同学提供的音标部分 1.单词说明:   command n. 命令,指令 [kə'mɑ:nd]   单词拼写 名词 单词含...

    惨绿少年

扫码关注云+社区

领取腾讯云代金券