Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >基于Salmon的转录组定量流程

基于Salmon的转录组定量流程

作者头像
生信宝典
发布于 2020-12-15 08:01:31
发布于 2020-12-15 08:01:31
3.6K00
代码可运行
举报
文章被收录于专栏:生信宝典生信宝典
运行总次数:0
代码可运行

为什么使用Salmon?

Salmon是不基于比对计数而直接对基因进行定量的工具,适用于转录组、宏基因组等的分析。

其优势是:

  • 定量时考虑到不同样品中基因长度的改变(比如不同isoform的使用)
  • 速度快、需要的计算资源和存储资源小
  • 敏感性高,不会丢弃匹配到多个基因同源区域的reads
  • 可以直接校正GC-bias
  • 自动判断文库类型

39个转录组分析工具,120种组合评估表明Salmon的定量准确性和稳定性都比较好。

其原理如下图所示,概括来讲是通过构建统计模型来推测已经注释的转录本呈现出什么表达模式时我们才会测序产生当前的FASTQ数据:

怎么使用Salmon?

Salmon定量依赖于cDNA序列和原始的FASTQ序列,新版本也可以提供基因组序列以处理某些能同时比对到已经注释的基因区和基因间区的reads,获得更准确地定量结果。

第一步,构建索引

从ENSEMBL下载基因组和基因注释文件,具体参考NGS基础 - 参考基因组和基因注释文件

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
mkdir -p genome
cd genome
# GRCh38.fa 人基因组序列,从Ensembl下载
# GRCh38.gtf 人基因注释序列,从Ensembl下载
wget ftp://ftp.ensembl.org/pub/release-100/gtf/homo_sapiens/Homo_sapiens.GRCh38.100.gtf.gz -O GRCh38.fa.gz
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz -O GRCh38.gtf.gz
gunzip -c GRCh38.fa.gz >GRCh38.fa
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gunzip -c GRCh38.gtf.gz >GRCh38.gtf
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 获取cDNA序列
gffread GRCh38.gtf -g GRCh38.fa -w GRCh38.transcript.fa.tmp

# gffread生成的fasta文件同时包含基因名字和转录本名字
grep '>' GRCh38.transcript.fa.tmp | head

# 去掉空格后面的字符串,保证cDNA文件中fasta序列的名字简洁,不然后续会出错
cut -f 1 -d ' ' GRCh38.transcript.fa.tmp >GRCh38.transcript.fa

构建索引

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 获取所有基因组序列的名字存储于decoy中
grep '^>' GRCh38.fa | cut -d ' ' -f 1 | sed 's/^>//g' >GRCh38.decoys.txt

# 合并cDNA和基因组序列一起
# 注意:cDNA在前,基因组在后

cat GRCh38.transcript.fa GRCh38.fa >GRCh38_trans_genome.fa

# 构建索引 (更慢,结果会更准)
salmon index -t GRCh38_trans_genome.fa -d GRCh38.decoys.txt -i GRCh38.salmon_sa_index

定量单样品FASTQ数据

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cd ../
fastq-dump -v --split-3 --gzip SRR1039521
rename "SRR1039521"  "trt_N061011"  SRR1039521*

# -p: 表示若待创建的文件夹已存在则跳过;若不存在,则创建;也可用于创建多层文件夹
# man mkdir 可查看详细帮助
mkdir -p trt_N061011

# -l: 自动判断文库类型,尤其适用于链特异性文库
# The library type -l should be specified on the command line 
# before the read files (i.e. the parameters to -1 and -2, or -r). 
# This is because the contents of the library type flag is used to determine how the reads should be interpreted.

# --gcBias: 校正测序片段GC含量,获得更准确的转录本定量结果
# One can simply run Salmon with --gcBias in any case, 
# as it does not impair quantification for samples without GC bias, 
# it just takes a few more minutes per sample. 
# For samples with moderate to high GC bias, correction for this bias at the 
# fragment level has been shown to reduce isoform quantification errors
salmon quant --gcBias -l A -1 trt_N061011_1.fq.gz -2 trt_N061011_2.fq.gz  -i genome/GRCh38.salmon_sa_index -g genome/GRCh38.gtf -o trt_N061011/trt_N061011.salmon.count -p 10

定量后输出结果存储于trt_N061011/trt_N061011.salmon.count目录中

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 输出结果存储在 trt_N061011/trt_N061011.salmon.count目录中
# quant.sf 为转录本表达定量结果,第4列为TPM结果,第5列为reads count
# quant.genes.sf 为基因表达定量结果
head -n 30 trt_N061011/trt_N061011.salmon.count/quant.sf | tail

定量结果为

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Name    Length    EffectiveLength    TPM    NumReads
ENST00000609179    1196    1052.656    0.000000    0.000
ENST00000492242    1277    1058.126    92.111195    19.918
ENST00000382291    2088    1963.212    1447.695765    580.820
ENST00000382285    1329    1183.099    211.657526    51.174

多样品定量

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于Salmon的转录组批量定量流程和差异分析
采用for循环进行批量定量 (参考这个为生信学习打造的开源Bash教程真香!!,理解更多):
生信宝典
2022/01/18
1.1K0
RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts 与 Salmon
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
5K0
RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts 与 Salmon
Salmon — 兼具高效、精准及偏差感知的RNA-seq定量工具
前面介绍了alevin 的单细胞定量功能,见 Alevin — 更快的单细胞定量,其也只是Salmon软件的一个组成部分,今天我们就再来学习一下 Salmon 其最初的功能 —— 转录组定量
生信菜鸟团
2024/04/25
2K0
Salmon — 兼具高效、精准及偏差感知的RNA-seq定量工具
转录组数据分析定量featureCounts-8
官网:http://bioinf.wehi.edu.au/featureCounts/
生信菜鸟团
2024/07/10
2800
转录组数据分析定量featureCounts-8
Salmon构建索引的时间效率和计算效率明显高于STAR
前面我们评估了不同大小基因组基于STAR构建索引所需的计算资源和时间资源、不同大小数据集基于STAR进行比对所需的计算资源和时间资源和STAR比对速度与分配线程的关系。
生信宝典
2022/01/18
5210
Salmon构建索引的时间效率和计算效率明显高于STAR
全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (3)-- SQANTI3 v5.2
Functional IsoTranscriptomics (FIT) 是美国弗罗里达大学(University of Florida)Ana Conesa 教授团队(Genomics of Gene Expression Lab, ConesaLab)开发的在转录本isoform水平上进行生物信息学分析的流程,旨在提供一个全长转录组end-to-end的解决方案 (图1)。SQANTI 3 构成了FIT流程的第一个模块,其设计目的是使长读序列定义的转录组的质量控制和过滤成为可能,这些转录本通常含有artifacts和假阳性。因此,对全长转录组进行校正是进行FIT分析的前提,且对产生可靠的、在生物学上合理的结论/假设至关重要。SQANTI 3 是SQANTI 工具(发布)的最新版本,该版本合并 SQANT 1 和 SQANTI 2 中的功能并加入了新的功能 ,更好的对全长转录本进行深度表征 。
三代测序说
2024/01/27
2.5K0
全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (3)-- SQANTI3 v5.2
转录组—上游分析_如何拿到count矩阵
本文档记录GSE149638数据集中下载SRR11652578和SRR11652615原始数据
sheldor没耳朵
2024/08/12
4051
转录组—上游分析_如何拿到count矩阵
基于Kallisto或Salmon的转录组定量流程
Kallisto和Salmon在RNA-seq数据分析中,相比于包含hisat2和STAR等软件的流程,展现出更高的处理速度。这主要归因于它们基于转录组序列reference(即cDNA序列)的特性和k mer比对原理。以下是关于Kallisto和Salmon在RNA-seq流程中速度优势的关键点归纳:
生信学习者
2024/06/13
1900
基于Kallisto或Salmon的转录组定量流程
全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (2) -- pigeon
Isoseq 数据分析第一部分我们最后使用了isoseq cluster 获得了聚类后高质量的转录本,但是我们仍然不知道这些经过聚类的转录本在基因组的位置以及属于哪些基因?这些转录本是已经注释的还是新的isoform?每个聚类是否能够进一步合并?每个isoform的表达量情况?下面我们通过使用isoseq collapse和 pigeon对转录本(isoforms)进行在参考基因组指导下的进一步合并(collapse),注释,分类和定量。
三代测序说
2024/01/25
2K0
全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (2) -- pigeon
转录组测序分析专题——比对/定量
NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/gu ide/human/index.shtml
yurric
2023/10/26
9400
转录组自动化分析流程搭建及使用
这次分析流程搭建使用基于Nextflow 的 nf-core,该工具可以实现自动化的转录组上游分析。
白墨石
2021/03/24
1K0
转录组自动化分析流程搭建及使用
RNA-Seq数据分析上下游打通
数据集为GSE149638, 2x101 bp paired-end RNA-seq,Illumina HiSeq 2500 with poly-A selection。源于健康人的M0和M1 macrophages。原始数据M0和M1各有48个重复。全部使用还是需要耗费一定时间和计算资源的,这里就各挑选3个重复进行练习。
生信技能树
2021/07/29
3K0
生信技能树-day18 转录组上游分析-比对、定量
今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
生信菜鸟团
2024/06/25
4610
生信技能树-day18 转录组上游分析-比对、定量
跟小新老师学转录组的第三天
NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml
贝诺酯
2023/04/03
3260
转录组参考基因-5
首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。
生信菜鸟团
2024/07/10
1120
转录组参考基因-5
全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- Bambu
今天我们继续介绍一款使用三代全长转录本数据进行转录本注释和定量的工具 - Bambu。来自新加坡科技研究局 (A-STAR) 的Jonathan Göke(图1)开发的长度长RNA-seq转录组分析工具Bambu,于2023年6月12日发表在《Nature Methods》杂志上,题目为Context-aware transcript quantification from long-read RNA-seq data with Bambu。该工具基于机器学习来识别和表征新转录本,从而能够对不同物种和样本进行适应性分析。
三代测序说
2024/03/12
1.5K1
全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- Bambu
转录组上游分析流程(四)
环境部署——数据下载——查看数据(非质控)——数据质控——数据过滤(过滤低质量数据)——数据比对及定量
凑齐六个字吧
2024/10/26
1610
转录组上游分析流程(四)
转录组测序数据的高级分析,比如可变剪切,融合基因,lncRNA组装
如果是6~16个转录组样品的测序的fastq数据,需要走转录组高级分析,比如可变剪切,融合基因,de novo的lncRNA组装,我们仅仅是收取一个计算机资源的费用,800到1600元人民币即可,并且提供全套代码。不管是公共数据集还是你自己的实验测序数据,一样的费用!我们会代替你跑如下所示的流程:
生信技能树
2021/10/21
2.6K0
转录组测序数据的高级分析,比如可变剪切,融合基因,lncRNA组装
什么配置的电脑可满足基因组索引构建的需求?
经常有朋友问起自己要做什么分析,推荐一个电脑的配置。通常限制程序运行的最主要因素是内存,内存不足程序会直接运行不起来,CPU性能弱顶多是运行的慢,硬盘比较便宜,不需要特别评估。
生信宝典
2022/01/18
6760
什么配置的电脑可满足基因组索引构建的需求?
看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析
我是武汉大学基础医学专业第一届的学生,2016年9月刚进大学的时候就选了导师进入实验室接受科研训练。虽然我们实验室不是专门做生物信息学的,但第一次和导师正式交流的时候,她就建议我要学点生信。(巧合的是2016年9月也是生信菜鸟团转型生信技能树的时间点,如果所有的导师都如此明智就好了)
生信技能树
2020/04/14
8.8K1
看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析
推荐阅读
相关推荐
基于Salmon的转录组批量定量流程和差异分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验