专栏首页用户7627119的专栏比对软件STAR创建索引文件(index)

比对软件STAR创建索引文件(index)

因为不连续的转录本结构,相对短的片段长度,和测序通量的不断提升,高通量RNA-seq数据的准确比对仍然是一个有挑战性且未解决的问题。当前可用的RNA-seq比对软件一般比对错误率较高,比对速度慢,受片段长度限制且比对偏差较大。STAR(Spliced Transcripts Alignments to a Reference,STAR)软件,使用了未压缩后缀阵列中的连续最大可比对种子搜索算法,接着对种子进行聚类和拼接。STAR在比对速度上胜过其他比对软件50多倍,在一个普通的12核服务器上,每小时比对5.5亿2 x 75 bp双端片段到人类基因组上,同时改进了比对敏感性和准确性。除了典型转录本外,STAR能够发现非典型剪切和嵌合(融合)转录本,并能够比对全长RNA序列。

STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于tophat的index),二是:序列比对。

创建index,这一步只需要运行一次就可以了

STAR --runMode genomeGenerate \
     --runThreadN 10 \
     --genomeDir ./index \
     --genomeFastaFiles ./Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa \
     --sjdbGTFfile ./Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf \
     --sjdbOverhang 75

—runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键 —runThreadN:运行的线程数,根据你自己电脑的配置来设置,数字越大运行越快 —genomeDir:这个参数很重要,是存放你生成index的文件路径,需要你事先建立一个有可读写权限的文件夹 —genomeFastaFiles 基因组fasta格式文件 —sjdbGTFfile GTF注释文件 —sjdbOverhang 这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值

有一点需要注意,STAR建索引时特别消耗内存,能把你服务器内存全部用光,然后报类似于下面的错误。

STAR
Apr 01 14:43:41 ..... Started STAR run
Apr 01 14:43:41 ... Starting to generate Genome files

EXITING because of FATAL PARAMETER ERROR: limitGenomeGenerateRAM=31000000000is too small for your genome
SOLUTION: please specify limitGenomeGenerateRAM not less than124544990592 and make that much RAM available

此时你就要根据报错信息和你电脑的内存设置limitGenomeGenerateRAM参数。报错信息建议specify limitGenomeGenerateRAM not less than 124544990592,此处设置比所需内存高一点点,如果低于所需内存也会报错,所以可以设置成125G内存。另外线程数可以设置高一点,2个线程可能要跑两天多,40个线程只要一个小时左右,内存消耗会因为线程数变多而增加,不过不用担心,并不会成倍增加,40个线程内存消耗也就增加了10%。下面是如何通过limitGenomeGenerateRAM来这是内存。

STAR --runMode genomeGenerate \
     --runThreadN 10 \
     --genomeDir ./index \
     --genomeFastaFiles ./Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa \
     --sjdbGTFfile ./Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf \
     --sjdbOverhang 75 \
     --limitGenomeGenerateRAM 125000000000
 

参考文献:

  1. STAR: ultrafast universal RNA-seq aligner
  2. https://github.com/alexdobin/STAR/

本文分享自微信公众号 - 生信交流平台(gh_d04ce007f7b8),作者:生信交流平台

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-10-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • RNA-seq(5):序列比对:Hisat2

    1 HISAT2官网下载 人类和小鼠的索引有现成的,HISAT2官网可以直接下载进行序列比对。如下图所示:选择hg19和mm10的index,文章中RNA-S...

    Y大宽
  • samtools faidx创建fasta格式文件索引fai

    fasta是一种常用的序列存储格式,GATK、IGV等软件对序列进行快速查找的时候通常需要建立fasta的索引文件。fa文件的索引为fai结尾的文件,可以使用s...

    生信编程日常
  • 猪狗的参考基因组构建索引

    比如搜索dog的:Canis lupus familiaris - Ensembl genome browser 98 就拿到了家犬的参考基因组,实际上狗这个...

    生信技能树
  • elasticsearch实战三部曲之二:文档操作

    版权声明:欢迎转载,请注明出处,谢谢。 https://blog.csdn.net/boli...

    程序员欣宸
  • STAR:转录组数据比对工具简介

    STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。软件的源代码保存在...

    生信修炼手册
  • 生信软件 | STAR(测序序列与参考序列比对)

    STAR 先搜索与参考基因组上,一个或多个位置完全匹配的最长序列。这些最长的匹配序列称为最大可映射前缀 (*Maximal Mappable Prefix,*M...

    白墨石
  • 最新版针对RNA-seq数据的GATK找变异流程

    如果你简单谷歌搜索关键词:gatk best practices pipeline rna-seq 会搜索到大量过期的教程:

    生信技能树
  • 看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析

    我是武汉大学基础医学专业第一届的学生,2016年9月刚进大学的时候就选了导师进入实验室接受科研训练。虽然我们实验室不是专门做生物信息学的,但第一次和导师正式交流...

    生信技能树
  • GATK RNA-Seq Snps Indel 分析

    https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=SRP058243&o=acc_s%3Aa

    SliverWorkspace
  • 0700-6.2.0-使用Solr7对多种格式文件建立全文索引

    Solr是一个开源搜索平台,用于构建搜索应用程序。它建立在Lucene(全文搜索引擎)之上。Solr是企业级的,快速的和高度可扩展的。使用Solr构建的应用程序...

    Fayson
  • 0701-6.2.0-使用Solr7对结构化csv文件建立全文索引

    在上一篇《6.2.0-使用Solr7对多种格式文件建立全文索引》中介绍了如何在CDH6.2.0中使用Solr7对多种格式的文件进行全文索引,测试中使用的主要是非...

    Fayson
  • 原创10000+生信教程大神给你的RNA实战视频演练

    推荐使用偷懒方法,比如安装miniconda软件,下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/mini...

    生信技能树
  • 一个好像没有做任何改变的参数

    实际上就是一行命令在运行比对过程,但是呢,参数太多了,调起来很麻烦,通常如果不理解的话就不建议修改参数。

    生信技能树
  • SQL审核工具SQL Advisor简单体验

    现在的很多大公司,都喜欢招丰富经验的人,从公司的角度来说,能把当前的事务性工作解决了,在这个基础上能够把你的理解和知识沉淀下来,那是极好的,说通俗一些,算是吸...

    jeanron100
  • 自动驾驶的自行车——GitHub 热点速览 v.21.24

    用什么词来概述这周的 GitHub 热点呢?大概是人工智能是真的神!它能让 EssayKiller_V2 写出规范的高考作文,工整又对仗,也能用 XUAN-Bi...

    HelloGitHub
  • RNA-seq 检测变异之 GATK 最佳实践流程

    RNA-seq 序列比对 对 RNA-seq 产出的数据进行变异检测分析,与常规重测序的主要区别就在序列比对这一步,因为 RNA-seq 的数据是来自转录本的,...

    生信技能树
  • 转录组测序数据的高级分析,比如可变剪切,融合基因,lncRNA组装

    如果是6~16个转录组样品的测序的fastq数据,需要走转录组高级分析,比如可变剪切,融合基因,de novo的lncRNA组装,我们仅仅是收取一个计算机资源的...

    生信技能树
  • 推荐 11 个 GitHub 上比较热门的 Java 项目

    https://github.com/skylot/jadx Star 13804

    良月柒
  • GitHub上11月份最热门的Java项目

    又到了公布 GitHub 上热门项目的时候啦~在 11 月的排行中,猿妹加入非软件类的项目,这样可以帮助大家更直观的了解哪些项目才是GitHub 上最热门的。...

    Java技术栈

扫码关注云+社区

领取腾讯云代金券