欢迎关注”生信修炼手册”!
将reads比对到参考基因组上,我们称之为mapping。mapping的工具很多,为了方便下游分析,对于mapping产生的文件,业界有一个统一的标准,这个标准就是SAM。
SAM全称Sequence Alignment/MAP format, 从命名上可以看到,这种文件就是用来存储序列比对信息的。SAM文件是一种纯文本文件,分为两个部分,头部head section和正文的比对部分alignment section。
本文首先介绍下头部信息,头部信息不是必须的,可以没有。
头部信息以@
开头,通常是一些注释信息。SAM文件标准事先定义了以下几种类型的信息,对于每种信息,又细分为不同的tag, 其中有部分tag是必须的,其他是可选的,每个tag会有对应的value, 采用tag:value
的写法。
HD
代表head line,是头部信息的第一行,这部分信息包含VN
, SO
, GO
3种tag,VN
代表版本号,SO
代表排序的标准,unsorted
表示没有排序,queryname
表示按照输入序列的名称进行排序,coordinate
表示按照比对位置进行排序,按照比对位置排序时,首先按照染色体排序,然后才是染色体上的比对位置。染色体的排序和SQ
标签指定的染色体顺序一致。
在HD
中,VN
信息是必须有的。
SQ
代表sequence, 表示参考基因组的序列信息,包含SN
, LN
, AH
, AN
, AS
, M5
, SP
, UR
这几种tag, 每条序列都会有对应的一行信息。
SN
代表序列名称,LN
代表序列的长度,AS
代表基因组的组装版本信息,M5
代表序列的MD5码,SP
代表物种,UR
代表序列对应的文件路径。
对于基因组而言,序列有primary_assembly和alt_scaffold之分。对于alt_scaffold的序列,有专属的AH
和AN
两种tag。 AH
表示这条序列为alternative locus, AN
代表alternative序列的名字。
在SQ
中,SN
和LD
信息是必须有的。
RG
代表read group, 当合并不同样本的sam文件时,就是根据RG信息区分不同的样本, 这部分信息包含非常多的tag, 重点介绍以下常用的几种。
ID
每个group拥有一个唯一的ID, LB
代表library,表示文库的名字,PG
代表program, 表示软件的名字,PL
代表platform, 表示测序平台的名字,可选值有ILLUMINA
, PACBIO
, SM
代表sample, 表示样本名称。
在RG
中,ID
信息是必须有的。
PG
代表程序,包含了产生这个SAM文件的软件和命令,常用的tag有以下几种。
ID
代表软件的唯一的id, PN
代表软件的名字,CL
代表对应的命令,VN
代表软件的版本。
在PG
中,ID
信息是必须有的。
CO
代表注释信息,这部分信息不常用。
在实际操作中,常见的是HD
, SQ
, RG
, PG
这四种头部信息。
·end·
—如果喜欢,快分享给你的朋友们吧—