首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

lncRNA芯片的探针到底该如何注释到基因组信息呢

这个,当然没有问题,就是需要时间来实现,主要是因为lncRNA芯片的探针设计的时候并不是依据基因组设计,而是mRNA和lncRNA本身序列设计的,所以探针是会跨越外显子的,这一点在官网问答也说的很清楚:

For the coding mRNA on the array, is it just the exon regions or is it the whole gene locus (introns and exons)?参考:https://www.arraystar.com/service/faq/ For each protein-coding mRNA, we designed a probe targeting their specific exon or exon-junction regions.

假如我们采取基因组比对策略,会有一个bugs出现,我给大家实例演示一下bowtie和hisat的区别,反正都是Johns Hopkins University的科研人员开发的。bowtie和hisat的软件安装,数据库参考文件,索引构建等等准备工作这里就不赘述了。

首先使用bowtie1比对全部的fasta序列探针

下面是一个例子,我首先去下载制作了 GPL15314_seq2fa.fasta 文件,然后使用bowtie1比对,参数选择的解释也在下面:

代码语言:javascript
复制
bowtie1=/trainee/jmzeng/tools/bowtie-1.1.2/bowtie
# http://bowtie-bio.sourceforge.net/manual.shtml 
# In -v mode, alignments may have no more than V mismatches, where V may be a number from 0 through 3 set using the -v option. 
# -m, Suppress all alignments for a particular read or pair if more than <int> reportable alignments exist for it.
bowtie2=/trainee/jmzeng/tools/bowtie2-2.3.5.1/bowtie
fasta=/trainee/jmzeng/Probe_seqfasta/lncRNA/human/GPL15314_seq2fa.fasta
sample=GPL15314
# # GPL15314    Arraystar Human LncRNA microarray V2.0 (Agilent_033010 Probe Name version)
index=/trainee/jmzeng/genome_index/human/human
$bowtie1 -v 0 -m 1 -p 6 $index -f $fasta -S ${sample}.sam

得到的log日志是:

代码语言:javascript
复制
# reads processed: 60699
# reads with at least one reported alignment: 49162 (80.99%)
# reads that failed to align: 9043 (14.90%)
# reads with alignments suppressed due to -m: 2494 (4.11%)
Reported 49162 alignments to 1 output stream(s)

发现比对率有点低,然后我搜索了其中几个探针,去blat看看为什么比对不上,发现果然是外显子问题。我们的这个探针序列是60个碱基,使用bowtie1比对失败,就是因为它没办法把这个探针序列的60个碱基拆分成为两个部分,分开比对在参考基因组的不同区域。

然后点击进入详情,可以看到我们的这个探针序列的60个碱基被拆分成为两个部分,分开比对在参考基因组的不同区域。

image-20191201112356413

然后看看hisat

所以我们换一个比对工具,因为是需要跨越内含子的比对,所以选择hisat

代码语言:javascript
复制
hisat2=/trainee/jmzeng/tools//hisat2-2.0.0-beta/hisat2 
fasta=/trainee/jmzeng/Probe_seqfasta/lncRNA/human/GPL15314_seq2fa.fasta
sample=GPL15314
index=/teach/database/index/hisat/hg38/genome
$hisat2 -f $fasta  -x $index -S ${sample}.sam

然后发现

代码语言:javascript
复制
60699 reads; of these:
  60699 (100.00%) were unpaired; of these:
    519 (0.86%) aligned 0 times
    54578 (89.92%) aligned exactly 1 time
    5602 (9.23%) aligned >1 times
99.14% overall alignment rate

比对率不得了啊!

题外话

我很喜欢blat这个在线网页工具,因为当初听说它的速度甩blast工具几十条街。

在我B站视频,多次提到它的奇妙用法,但是我也是今天才知道,它居然也可以跨越内含子进行比对。

更多表达芯片的公共数据库挖掘系列更多教程,见推文 ;

下一篇
举报
领券