前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >sam/bam 文件格式处理

sam/bam 文件格式处理

作者头像
生信喵实验柴
发布2022-10-25 19:23:52
1.5K0
发布2022-10-25 19:23:52
举报
文章被收录于专栏:生信喵实验柴生信喵实验柴

一、sam/bam 文件介绍

SAM 文件格式(Sequence Alignment Map Format)是高通量测序分析当中最重要的文件格式之一。将测序数据(fastq 格式)与参考序列(fasta 格式)进行比对,就会生成 sam 格式。sam 格式文件中包含了全部的测序数据信息,参考序列信息,以及二者比对的全部细节信息。在基因组拼接,变异检测,RNAseq 等等分析当中都需要使用到 sam 格式。

bam 格式是 sam 格式的二进制模式,并进行压缩。二者的内容相同。sam 是文本格式,可以直接使用文本查看命令 less,cat 直接查看。而 bam 是二进制模式,不能使用 less,cat查看。使用 bam 的原因主要是减小存储,另外,二进制格式不容易被修改。在实际使用过程中主要是使用排序后的 bam 格式。

SAM 文件是一种列表格式的结构,包括头部注释部分和比对结果部分。序列比对需要记录reads 比对到基因组上的信息,包括哪一条 reads,比对到哪条基因组上的哪个位置,是一对一比对还是一对多比对,有无错配,错配是怎样的。因此就需要包含很多列的信息,

samtools 说明文档:http://www.htslib.org/doc/samtools.html

Sam 格式详解手册:http://samtools.github.io/hts-specs/SAMv1.pdf

Sam 格式相关文献:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2723002/

Sam 格式的 wiki 介绍:https://davetang.org/wiki/tiki-index.php?page=SAM

二、利用 stools 处理 Sam 文件

比对得到 sam 之后,一般无法直接使用,绝大部分的软件都需要使用 bam 格式。bam 是 sam的二进制格式,二进制的好处是使用效率更高,占用存储更少。sam 一般都需要通过转换bam,排序,建立索引三个基础步骤。能够处理 sam 格式的软件有很多,例如 samtools,bamtools,picardtools 等。

sam/bam 文件处理

samtools 顾名思义,是处理 sam 格式的工具合集。samtools 主要包含以下几大功能:

代码语言:javascript
复制
Indexing 建立索引,
Editing 编辑文件,
File operations,
Statistics,统计相关功能;
Viewing,查看;
代码语言:javascript
复制
#安装
mamba install -y samtools=1.14
mamba install -y bamtools
#查看文件路径
which samtools
#查看选项
samtools

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。

代码语言:javascript
复制
sx.voiceclouds.cn

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档