前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用STAR-fusion进行融合基因的分析

使用STAR-fusion进行融合基因的分析

作者头像
生信修炼手册
发布2020-05-08 16:59:08
2.6K0
发布2020-05-08 16:59:08
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

STAR是目前主流的RNA-seq比对软件之一,而STAR-fusion就是一款基于STAR比对结果进行融合基因鉴定的软件,该项目的地址如下

https://github.com/STAR-Fusion/STAR-Fusion/wiki

在对应的文献中,将STAR-fusion与其他融合基因分析软件进行了比较

1. 运行时间

从上图可以看出,STAR-fusion的运行时间有明显优势。

2. ROC曲线

ROC曲线用于评估软件分析结果的好坏,横坐标为false positive rate, 简称FPR,代表分析结果的假阳性率,纵坐标为true positive rate, 又称之为敏感度sensitivity。对于一个理想的分析结果而言,肯定是假阳性率越低越好,敏感度越高越好。

在ROC曲线中,在曲线下的面积称之为AUC值,一个软件的AUC值越大,则其综合效果最好。

从上图可以看出,对于文章中的测试数据,STAR-fusion的分析结果较好。

该软件的安装比较简单,直接下载文件,解压缩即可,其运行过程如下

需要注意一点,STAR-fusion依赖STAR来比对序列,STAR这个软件运行速度很快,但是其内存消耗是巨大的,对于人类基因组而言,比对时1个样本就需要30G左右的内存,如果运用于融合基因的检测,所用内存会上升到40G左右,这对于计算资源是一个考验,在实际分析时,要根据已有的硬件资源合理设置并行的样本数。

STAR-fusin具体的运行过程如下

1. 建立reference lib

首先需要建立参考基因组对应的reference lib, 至少需要参考基因组对应的fasta文件和gtf文件,另外还可以提供已有的融合基因的注释等。

对于humanmouse而言,提供了已经构建好的文件,链接如下

https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/

plug-n是已经建立好的reference lib, 而source里面包含了所需的原始文件。从原始文件构建reference lib的命令如下

代码语言:javascript
复制
FusionFilter/prep_genome_lib.pl \
--genome_fa ref_genome.fa \
--gtf ref_annot.gtf \
--fusion_annot_lib CTAT_HumanFusionLib.dat.gz \
--annot_filter_rule AnnotFilterRule.pm \
--pfam_db PFAM.domtblout.dat.gz

这个perl脚本是集成在star-fusion的安装目录在的,pfam_dbanno_filter_rule可以从上图中的source压缩包中得到,而fusion_annot_lib是融合基因的注释信息,对于人和小鼠,上图中提供了对应的注释文件,如果没有,也可以不提供。

默认会在当前目录生成一个名为ctat_genome_lib_build_dir的目录,所有的结果文件都保存在这个目录下。

2. 运行STAR-fusion

STAR-fusion支持两种模式,第一种是直接从fastq开始,第二种是自己手动进行STAR比对,然后在运行STAR-fusion。第一种模式的用法如下

双端测序

代码语言:javascript
复制
STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
--left_fq reads_1.fq \
--right_fq reads_2.fq \
--output_dir star_fusion_outdir

单端测序

代码语言:javascript
复制
STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
--left_fq reads_1.fq \
--output_dir star_fusion_outdir

其中的CTAT_resource_lib就是第一步建立好的reference lib所在的目录。 直接根据STAR比对的结果进行分析的模式称之为Kickstart模式,用法如下

1. STAR比对
代码语言:javascript
复制
STAR --genomeDir ${star_index_dir} \                                                                                    
 --readFilesIn ${left_fq_filename} ${right_fq_filename} \                                                                      
 --twopassMode Basic \                                                                                                      
 --outReadsUnmapped None \                                                                                                  
 --chimSegmentMin 12 \                                                                                                    
 --chimJunctionOverhangMin 12 \                                                                                          
 --alignSJDBoverhangMin 10 \                                                                                              
 --alignMatesGapMax 100000 \                                                                                            
 --alignIntronMax 100000 \                                                                                                
 --chimSegmentReadGapMax 3 \                                                                                    
 --alignSJstitchMismatchNmax 5 -1 5 5 \
 --runThreadN ${THREAD_COUNT} \                                                                                                          
 --outSAMstrandField intronMotif \
 --chimOutJunctionFormat 1
2. 运行STAR-fusion
代码语言:javascript
复制
STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
-J Chimeric.out.junction \
--output_dir star_fusion_outdir

STAR-fusion的输出结果文件名为

star-fusion.fusion_predictions.tsv

列数很多,部分列截图如下

其中的JunctionReadSpanningFrag,在之前的文章中有介绍,这些reads的个数越多,为一个真实的融合基因的可能性越大,SpliceType表示断裂点breakpoint是否位于exon边界,更详细的结果解读请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 运行时间
  • 2. ROC曲线
  • 1. 建立reference lib
  • 2. 运行STAR-fusion
  • 1. STAR比对
  • 2. 运行STAR-fusion
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档