前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >比对软件STAR创建索引文件(index)

比对软件STAR创建索引文件(index)

作者头像
生信交流平台
发布2020-10-23 11:06:48
8.6K0
发布2020-10-23 11:06:48
举报

因为不连续的转录本结构,相对短的片段长度,和测序通量的不断提升,高通量RNA-seq数据的准确比对仍然是一个有挑战性且未解决的问题。当前可用的RNA-seq比对软件一般比对错误率较高,比对速度慢,受片段长度限制且比对偏差较大。STAR(Spliced Transcripts Alignments to a Reference,STAR)软件,使用了未压缩后缀阵列中的连续最大可比对种子搜索算法,接着对种子进行聚类和拼接。STAR在比对速度上胜过其他比对软件50多倍,在一个普通的12核服务器上,每小时比对5.5亿2 x 75 bp双端片段到人类基因组上,同时改进了比对敏感性和准确性。除了典型转录本外,STAR能够发现非典型剪切和嵌合(融合)转录本,并能够比对全长RNA序列。

STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于tophat的index),二是:序列比对。

创建index,这一步只需要运行一次就可以了

代码语言:javascript
复制
STAR --runMode genomeGenerate \
     --runThreadN 10 \
     --genomeDir ./index \
     --genomeFastaFiles ./Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa \
     --sjdbGTFfile ./Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf \
     --sjdbOverhang 75

—runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键 —runThreadN:运行的线程数,根据你自己电脑的配置来设置,数字越大运行越快 —genomeDir:这个参数很重要,是存放你生成index的文件路径,需要你事先建立一个有可读写权限的文件夹 —genomeFastaFiles 基因组fasta格式文件 —sjdbGTFfile GTF注释文件 —sjdbOverhang 这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值

有一点需要注意,STAR建索引时特别消耗内存,能把你服务器内存全部用光,然后报类似于下面的错误。

代码语言:javascript
复制
STAR
Apr 01 14:43:41 ..... Started STAR run
Apr 01 14:43:41 ... Starting to generate Genome files

EXITING because of FATAL PARAMETER ERROR: limitGenomeGenerateRAM=31000000000is too small for your genome
SOLUTION: please specify limitGenomeGenerateRAM not less than124544990592 and make that much RAM available

此时你就要根据报错信息和你电脑的内存设置limitGenomeGenerateRAM参数。报错信息建议specify limitGenomeGenerateRAM not less than 124544990592,此处设置比所需内存高一点点,如果低于所需内存也会报错,所以可以设置成125G内存。另外线程数可以设置高一点,2个线程可能要跑两天多,40个线程只要一个小时左右,内存消耗会因为线程数变多而增加,不过不用担心,并不会成倍增加,40个线程内存消耗也就增加了10%。下面是如何通过limitGenomeGenerateRAM来这是内存。

代码语言:javascript
复制
STAR --runMode genomeGenerate \
     --runThreadN 10 \
     --genomeDir ./index \
     --genomeFastaFiles ./Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa \
     --sjdbGTFfile ./Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf \
     --sjdbOverhang 75 \
     --limitGenomeGenerateRAM 125000000000
 

参考文献:

  1. STAR: ultrafast universal RNA-seq aligner
  2. https://github.com/alexdobin/STAR/
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信交流平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 有一点需要注意,STAR建索引时特别消耗内存,能把你服务器内存全部用光,然后报类似于下面的错误。
  • 此时你就要根据报错信息和你电脑的内存设置limitGenomeGenerateRAM参数。报错信息建议specify limitGenomeGenerateRAM not less than 124544990592,此处设置比所需内存高一点点,如果低于所需内存也会报错,所以可以设置成125G内存。另外线程数可以设置高一点,2个线程可能要跑两天多,40个线程只要一个小时左右,内存消耗会因为线程数变多而增加,不过不用担心,并不会成倍增加,40个线程内存消耗也就增加了10%。下面是如何通过limitGenomeGenerateRAM来这是内存。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档