前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >lncRNA芯片的探针到底该如何注释到基因组信息呢

lncRNA芯片的探针到底该如何注释到基因组信息呢

作者头像
生信技能树
发布2019-12-05 10:33:42
1.7K0
发布2019-12-05 10:33:42
举报
文章被收录于专栏:生信技能树生信技能树

这个,当然没有问题,就是需要时间来实现,主要是因为lncRNA芯片的探针设计的时候并不是依据基因组设计,而是mRNA和lncRNA本身序列设计的,所以探针是会跨越外显子的,这一点在官网问答也说的很清楚:

For the coding mRNA on the array, is it just the exon regions or is it the whole gene locus (introns and exons)?参考:https://www.arraystar.com/service/faq/ For each protein-coding mRNA, we designed a probe targeting their specific exon or exon-junction regions.

假如我们采取基因组比对策略,会有一个bugs出现,我给大家实例演示一下bowtie和hisat的区别,反正都是Johns Hopkins University的科研人员开发的。bowtie和hisat的软件安装,数据库参考文件,索引构建等等准备工作这里就不赘述了。

首先使用bowtie1比对全部的fasta序列探针

下面是一个例子,我首先去下载制作了 GPL15314_seq2fa.fasta 文件,然后使用bowtie1比对,参数选择的解释也在下面:

代码语言:javascript
复制
bowtie1=/trainee/jmzeng/tools/bowtie-1.1.2/bowtie
# http://bowtie-bio.sourceforge.net/manual.shtml 
# In -v mode, alignments may have no more than V mismatches, where V may be a number from 0 through 3 set using the -v option. 
# -m, Suppress all alignments for a particular read or pair if more than <int> reportable alignments exist for it.
bowtie2=/trainee/jmzeng/tools/bowtie2-2.3.5.1/bowtie
fasta=/trainee/jmzeng/Probe_seqfasta/lncRNA/human/GPL15314_seq2fa.fasta
sample=GPL15314
# # GPL15314    Arraystar Human LncRNA microarray V2.0 (Agilent_033010 Probe Name version)
index=/trainee/jmzeng/genome_index/human/human
$bowtie1 -v 0 -m 1 -p 6 $index -f $fasta -S ${sample}.sam

得到的log日志是:

代码语言:javascript
复制
# reads processed: 60699
# reads with at least one reported alignment: 49162 (80.99%)
# reads that failed to align: 9043 (14.90%)
# reads with alignments suppressed due to -m: 2494 (4.11%)
Reported 49162 alignments to 1 output stream(s)

发现比对率有点低,然后我搜索了其中几个探针,去blat看看为什么比对不上,发现果然是外显子问题。我们的这个探针序列是60个碱基,使用bowtie1比对失败,就是因为它没办法把这个探针序列的60个碱基拆分成为两个部分,分开比对在参考基因组的不同区域。

然后点击进入详情,可以看到我们的这个探针序列的60个碱基被拆分成为两个部分,分开比对在参考基因组的不同区域。

image-20191201112356413

然后看看hisat

所以我们换一个比对工具,因为是需要跨越内含子的比对,所以选择hisat

代码语言:javascript
复制
hisat2=/trainee/jmzeng/tools//hisat2-2.0.0-beta/hisat2 
fasta=/trainee/jmzeng/Probe_seqfasta/lncRNA/human/GPL15314_seq2fa.fasta
sample=GPL15314
index=/teach/database/index/hisat/hg38/genome
$hisat2 -f $fasta  -x $index -S ${sample}.sam

然后发现

代码语言:javascript
复制
60699 reads; of these:
  60699 (100.00%) were unpaired; of these:
    519 (0.86%) aligned 0 times
    54578 (89.92%) aligned exactly 1 time
    5602 (9.23%) aligned >1 times
99.14% overall alignment rate

比对率不得了啊!

题外话

我很喜欢blat这个在线网页工具,因为当初听说它的速度甩blast工具几十条街。

在我B站视频,多次提到它的奇妙用法,但是我也是今天才知道,它居然也可以跨越内含子进行比对。

更多表达芯片的公共数据库挖掘系列更多教程,见推文 ;

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 首先使用bowtie1比对全部的fasta序列探针
  • 然后看看hisat
  • 题外话
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档