前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SAM/BAM文件格式简介(一)

SAM/BAM文件格式简介(一)

作者头像
生信修炼手册
发布2020-05-08 16:41:55
1.7K0
发布2020-05-08 16:41:55
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

将reads比对到参考基因组上,我们称之为mapping。mapping的工具很多,为了方便下游分析,对于mapping产生的文件,业界有一个统一的标准,这个标准就是SAM。

SAM全称Sequence Alignment/MAP format, 从命名上可以看到,这种文件就是用来存储序列比对信息的。SAM文件是一种纯文本文件,分为两个部分,头部head section和正文的比对部分alignment section。

本文首先介绍下头部信息,头部信息不是必须的,可以没有。

头部信息以@开头,通常是一些注释信息。SAM文件标准事先定义了以下几种类型的信息,对于每种信息,又细分为不同的tag, 其中有部分tag是必须的,其他是可选的,每个tag会有对应的value, 采用tag:value的写法。

1.HD

HD代表head line,是头部信息的第一行,这部分信息包含VN, SO, GO3种tag,VN代表版本号,SO代表排序的标准,unsorted表示没有排序,queryname表示按照输入序列的名称进行排序,coordinate表示按照比对位置进行排序,按照比对位置排序时,首先按照染色体排序,然后才是染色体上的比对位置。染色体的排序和SQ标签指定的染色体顺序一致。

HD中,VN信息是必须有的。

2.SQ

SQ代表sequence, 表示参考基因组的序列信息,包含SN, LN, AH, AN, AS, M5, SP, UR这几种tag, 每条序列都会有对应的一行信息。

SN代表序列名称,LN代表序列的长度,AS代表基因组的组装版本信息,M5代表序列的MD5码,SP代表物种,UR代表序列对应的文件路径。

对于基因组而言,序列有primary_assembly和alt_scaffold之分。对于alt_scaffold的序列,有专属的AHAN两种tag。 AH表示这条序列为alternative locus, AN代表alternative序列的名字。

SQ中,SNLD信息是必须有的。

3.RG

RG代表read group, 当合并不同样本的sam文件时,就是根据RG信息区分不同的样本, 这部分信息包含非常多的tag, 重点介绍以下常用的几种。

ID每个group拥有一个唯一的ID, LB代表library,表示文库的名字,PG代表program, 表示软件的名字,PL代表platform, 表示测序平台的名字,可选值有ILLUMINA, PACBIOSM代表sample, 表示样本名称。

RG中,ID信息是必须有的。

4.PG

PG代表程序,包含了产生这个SAM文件的软件和命令,常用的tag有以下几种。

ID代表软件的唯一的id, PN代表软件的名字,CL代表对应的命令,VN代表软件的版本。

PG中,ID信息是必须有的。

5.CO

CO代表注释信息,这部分信息不常用。

在实际操作中,常见的是HD, SQ, RG, PG这四种头部信息。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.HD
  • 2.SQ
  • 3.RG
  • 4.PG
  • 5.CO
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档