前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >sam文件格式说明

sam文件格式说明

作者头像
戈贝尔光和热
发布2018-12-27 14:57:02
1.7K0
发布2018-12-27 14:57:02
举报
文章被收录于专栏:HUBU生信HUBU生信

bowtie2是当前最流行的短序列比对软,SAM(SequenceAlignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对信息SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。

主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多

重比对结果

SAM分为两部分:注释信息和对比结果

注释信息以@开头

@HD:说明符合标准的版本。对比序列的排列顺序

@SQ:参考序列说明

@RG:比对上的序列(read)说明

@PG:使用的程序说明

@CO:任意的说明信息

比对结果部分

每一行代表一个片段的比对信息,包括11个必须的字段和一个可选字段,字段之间用tag分割

11个必须字段:

1:比对片段(read)的编号

2.位标识(flag)每一种数字代表一种情况,这里的值是符合情况的数字和

3.参考序列的编号,没有比对上的序列,这里为 *

4.比对上的位置 从1开始计数,没有比对上此处为0

5.MAPQ:mapping的质量

6.CIGAR:简要比对信息表达式 以参考序列为基础,使用数字加字幕表示比对结果

比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,

然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的

“M”表示 match或 mismatch;

“I”表示 insert;

“D”表示 deletion;

“N”表示 skipped(跳过这段区域);

“S”表示 soft clipping(被剪切的序列存在于序列中);

“H”表示 hard clipping(被剪切的序列不存在于序列中);

“P”表示 padding;打开缺口

“=”表示 match;

“X”表示 mismatch(错配,位置是一一对应的)

7.下一个片段比对上的参考序列的标号,没有另外的片段这里为 * ,同一个片段 =

8.下一个片段比对上的位置,如果不可用,此处为0

9.Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,

不分区段(single-segment)的比对上,或者不可用时,此处为0;

10.比对上的序列片段的序列信息,如果不存储此类信息,此处为’*‘,

长度=简要比对信息表达式算出来的结果

11.序列的质量信息,格式同FASTQ一样

全文结束,欢迎在评论区讨论~

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-10-21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档