前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >转录组测序分析 Day1

转录组测序分析 Day1

原创
作者头像
可乐同学与生信死磕到底
发布2024-04-28 21:03:10
1250
发布2024-04-28 21:03:10
举报

1 转录组概述

  • 推荐阅读两篇综述: A survey of best practices for RNA-seq data analysis A survey of best practices for RNA-seq data analysis

1.1 转录组测序原理

Transcriptome is the set of all RNA transcripts, including coding and

non-coding, in an individual or a population of cells

主要以mRNA为分析对象

一个细胞中的绝大多数RNA为rRNA(核糖体RNA)

1.2 普通转录组测序实验流程图 RNA-Seq

1.2.1 RNA样品检测

Agilent 2100精确检测RNA的完整性,检测指标包括:RIN值、28S/18S、图谱基线有无上抬、5S峰

1.2.2 mRNA富集、反转录

1.2.3 末端修复、3'加A

1.2.4 连接接头

1.2.5 PCR富集

1.2.6 文库质控

1.2.7 上机测序

SBS(Sequencing-by-Synthesis):通过单分子阵列实现在小型芯片(Flowcell)上进行桥式PCR反应。通过可逆阻断技术实现每次只合成一个碱基,再利用四种带有不同荧光标记的碱基,通过荧光激发/捕获 ,读取碱基信息

基于可逆终止的、荧光标记dNTP,边合成边测序

经过桥式PCR扩增后,形成成千上百万与模板链相同的序列(簇),荧光强度增强

根据barcode分离混在一起的数据

上机测序完成之后得到的测序数据:FASTQ文件

一般以fastq/fq结尾保存在FASTQ格式的文件中

2 准备工作

2.1 Linux命令复习

2.1.1 对文件和文件夹进行的操作

ls list 列出都有什么

pwd 打印当前工作目录

cd 切换目录

cp 拷贝和粘贴

mv 移动和重命名

rm 删除(删了就没有,没有回收站)

touch 创建文件

mkdir 创立一个新的目录

rmdir 删除目录

ln 链接文件(创建快捷方式)

2.1.2 压缩、解压

tar 压缩或者解压文件

zip/unzip 压缩与解压缩zip结尾文件

gzip/gunzip 压缩与解压缩gz结尾文件

2.1.3 文本处理命令

查看:head/tail,cat/tac,less/more,zcat/zless

统计,排序,去重:wc,|,sort,uniq,tr,paste

剪切,黏贴,分割:cut,split

高级处理之三驾马车:grep,sed,awk

2.1.4 文件的查找

which命令:定位可执行文件的位置

查找ls这个命令的位置

whereis命令:定位文件所在目录。

输出信息:命令本身所在目录;其源文件所在目录;其帮助文档所在目录

find命令:查找以……结尾/某个特征的文件

指明要在哪个目录下查找(路径)

查找.gz结尾的文件

locate命令:查找文件(较常用),速度非常快,在updatedb里面,需要更新数据库

sudo updatedb

locate *fq

查找以fq结尾的文件

2.1.5 任务投递、查看、终止

cat -A可以查看特殊字符

2.2 目录管理

这一部分非常非常非常重要,拥有一个优秀的工作习惯比什么都重要!

具体项目的命名方式:物种+样本数+疾病+转录组分析

建立目录的代码:

代码语言:sh
复制
## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息
mkdir -p database/GRCh38.105

## 2.建立项目分析目录
mkdir project
cd project
mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程
cd Human-16-Asthma-Trans

# 建立数据存放目录
mkdir -p  data/rawdata  data/cleandata/trim_galore  data/cleandata/fastp
# 建立比对目录
mkdir -p Mapping/Hisat2  Mapping/Subjunc
# 建立定量目录
mkdir -p Expression/featureCounts  Expression/Salmon
# 查看整个分析目录准备结构
tree

3 Fastq数据介绍

高通量测序(如Illumina NovaSeq等测序平台)得到的原始图像数据文件,经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(fq)文件格式存储,其中包含测序序列(Reads)的序列信息以及其对应的测序质量信息。

  • 碱基质量值(Quality Score/Q-score):碱基识别出错概率的整数映射 Q=-10*log10P P为碱基识别出错的概率 碱基质量值越高表明碱基识别越可靠,准确度越高

碱基质量值十位数上的数字与碱基识别精度有几个9相对应

Q值与FASTQ数据通过ASCII码转换

  • ASC II码

根据测序仪器的不同,Q值一般在0-40之间,Q通常会加上一个数字(33/64),常用Q+33

  • 练习题

FASTQ格式文件中每个read由4行来描述

最近进度停滞不前了……因为原始数据下载的时候频频出现问题:用prefetch下载之后还要用fast-dump转换成fastq格式,非常之慢;用aspera下载又碰到密钥、路径等等问题,下载了一个星期都还没弄好……

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 转录组概述
    • 1.1 转录组测序原理
      • 1.2 普通转录组测序实验流程图 RNA-Seq
        • 1.2.1 RNA样品检测
        • 1.2.2 mRNA富集、反转录
        • 1.2.3 末端修复、3'加A
        • 1.2.4 连接接头
        • 1.2.5 PCR富集
        • 1.2.6 文库质控
        • 1.2.7 上机测序
    • 2 准备工作
      • 2.1 Linux命令复习
        • 2.1.1 对文件和文件夹进行的操作
        • 2.1.2 压缩、解压
        • 2.1.3 文本处理命令
        • 2.1.4 文件的查找
        • 2.1.5 任务投递、查看、终止
      • 2.2 目录管理
      • 3 Fastq数据介绍
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档