前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >tophat2+cufflinks进行转录组的比对分析

tophat2+cufflinks进行转录组的比对分析

作者头像
戈贝尔光和热
发布2018-12-27 14:58:38
3.4K0
发布2018-12-27 14:58:38
举报
文章被收录于专栏:HUBU生信HUBU生信

1.序列比对

序列比对用到tophat2软件,使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后,会直接生成bam文件,生成的bam文件直接可以给cufflinks构建转录本,从而避免了使用其他软件时生成的sam文件要转化成bam文件才能作为cufflinks的输入文件 代码如下

代码语言:javascript
复制
tophat -p 20 -o tophat_out GCA_000009725.1_ASM972v1_genomic SRR5399538_1.fastq

-p 指定线程

-o 指定输出目录

GCA_000009725.1_ASM972v1_genomic为利用bowtie2建立的索引文件

SRR5399538_1.fastq 为利用SAM toolkit将原始数据sra文件解压后的fastq文件

将待测基因分别于参考基因比对得到输出文件如图

14463769-ae06fafab69ce1f0.png
14463769-ae06fafab69ce1f0.png

accepted_hits.bam reads排序的结果以bam格式生成文件,是后面cufflinks软件的输入文件

junctions.bed deletions.bed insertions.bed 这三个分别是:

tophat处理的junctions,删除和插入的结果

unmapped.bam 没有map上的序列

align_summary.txt 可以查看map上的reads所占的比例

2.利用cufflinks构建转录本

比对完后,cufflinks就可以把比对到基因组的序列组装成一个转录组了,组装好的转录组包含了可能的剪切信息和所有转录的表达量Counts,从而计算出FPKM值

代码如下

代码语言:javascript
复制
cufflinks -g GCA_000009725.1_ASM972v1_genomic.gtf -o cufflinks_out -p 8 accepted_hits.bam

-g 后面的为参考基因组的注释文件

-o 指定输出目录

-p 指定线程

accepted_hits.bam 为用tophat2比对后的bam文件

然后输出的cufflinks_out里面就会有四个文件如图

image
image

下一步要用到的就是transcripts.gtf文件,这个文件就是样品的转录组

3.利用cuffmerge合并转录组

为了比较不同样品的差异,需要将实验组和对照组的转录组合并起来,cuffmerge不仅能用来合并,两个或多个转录组,还能把注释过后的基因组信息也合并起来,从而找到新的基因可变剪切提高合并转录组的质量 代码如下

代码语言:javascript
复制
cuffmerge -g GCA_000009725.1_ASM972v1_genomic.gtf -o merge_asm -p 8 accpted.txt

-g 后面为参考基因组的注释文件

-o 指定输出目录

accpted.txt 为所有要合并的转录组的绝对路径 例如

image
image

转录组拼接完成后会生成一个merged.gtf,这个文件就是合并好的转录组

4.利用cuffdiff进行基因表达差异分析

代码语言:javascript
复制
cuffdiff -o cuffdiff_out -L lable1,lable2,lable3,lable4 -p 10 -u merged_asm/merged.gtf tophat_out/SRR5399538/accepted_hits.bam  tophat_out/SRR5399539/accepted_hits.bam  tophat_out/SRR5399540/accepted_hits.bam  tophat_out/SRR5399541/accepted_hits.bam

-o 指定输出目录

-L 后面是bam文件的标签,有几个bam文件就取几个标签,由于我只有四个bam文件所以只有四个标签

-p 指定线程

-u 后面跟利用cuffmerge合并后的转录本

后面的是bam文件所在的绝对路径

cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了

cuffdiff输出如图

-o 指定输出目录

-L 后面是bam文件的标签,有几个bam文件就取几个标签,由于我只有四个bam文件所以只有四个标签

-p 指定线程

-u 后面跟利用cuffmerge合并后的转录本

后面的是bam文件所在的绝对路径

cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了

cuffdiff输出如图

14463769-f3aa5a8e8efacd57.png1.png
14463769-f3aa5a8e8efacd57.png1.png

FPKM tracking files cuffdiff计算每个样本中的转录本,初始转录本和基因FPKM

isoforms.fpkm_tracking 转录组的FPKM

gens.fpkm_tracking 基因的fpkm

cds fpkm_tracking 编码序列的fpkm

tss_groups.fpkm_tracking 原始转录组的FPKM

2.Count tracking files

评估每个样本中来自每个 transcript, primary transcript,和 gene的fragment数目

3.Read group tracking

计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目

4.Differential expression test

对于splicing transcript, primary transcripts, genes,

and coding sequences.样本之间的表达差异检验。

全文结束,欢迎在评论区讨论~

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-10-16 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.序列比对
  • 2.利用cufflinks构建转录本
  • 3.利用cuffmerge合并转录组
  • 4.利用cuffdiff进行基因表达差异分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档