【直播】我的基因组 35:bam格式转化为bw格式看测序深度分布

我们在之前说到过bam文件还有55G大小,这样的文件,在很多时候都不方便查看和转移。而有些时候,我们只需要我们的测序数据在全基因组的测序深度这一个值,并不需要具体某条reads的碱基序列,碱基质量值。这样就可以把bam文件压缩为bw格式啦!需要了解一些文件格式:wig、bigWig和bedgraph文件详解

bam文件格式我就不多说了,就是sam的二进制压缩版本,前面我们也花费了大量的笔墨来描述它,而bw格式全称是bigwig格式,就是规定了全基因组数据的每个坐标区间的测序深度,标准释义如下:

Wiggle Track Format (WIG):http://genome.ucsc.edu/goldenPath/help/wiggle.html

bigWig Track Format :http://genome.ucsc.edu/goldenPath/help/bigWig.html

BedGraph Track Format :http://genome.ucsc.edu/goldenPath/help/bedgraph.html

这3种文件格式都是UCSC规定的,所以它提供了系列工具进行互相转换,

我这里用deeptools这个软件的bamCoverage工具来完成这个任务,命令如下:

bamCoverage -b P_jmzeng.final.bam -o P_jmzeng.final.bw

bamCoverage -b P_jmzeng.filter.rmdup.realgn.bam -o P_jmzeng.filter.rmdup.realgn.bw

关于这个软件的用法及安装方法,见我博客:deeptools辅助CHIP-seq数据分析-可视化(http://www.bio-info-trainee.com/2136.html 复制该地址到浏览器打开)

在IGV里面打开bam和bw文件,就知道这个软件到底做了什么。

首先对bw文件来说,可以在全基因组尺度下看看测序深度的整体情况,这样可以很明显的看到某些染色体的某些区域是不是严重的测序深度过低或者过高(我箭头所指的区域是有问题的,测序深度尤其高)。而对bam文件,需要zoom in到一定程度才能看到比对的reads情况。

通过bw的文件来定位异常区域,再zoom in去看具体是怎么回事,非常好用!可以看到这些区域测序深度高达8万!!!

文:Jimmy、吃瓜群众

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2016-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏章鱼的慢慢技术路

使用Photoshop画一个圆锥体

1885
来自专栏大数据文摘

机器学习:如何在安卓上集成TensorFlow

2105
来自专栏生信技能树

谁能告诉我,这数据测毁了么?

作者往期投稿: 高通量数据下载还能这样操作? 本次目的与任务:了解fastq测序数据 需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文...

2485
来自专栏Y大宽

Enrichment Map User guide用户指南

http://www.baderlab.org/Software/EnrichmentMap/UserManual#rnk

763
来自专栏AI研习社

深度学习界的 “吃鸡挂”——目标检测 SSD 实验

“卧槽,又被 LYB 干了!” 背后传来一声哀嚎。 哈哈,看来,沉迷吃鸡的室友又被戒网瘾了。作为一个充满着正义的 LYB 的游戏,这人不长点眼力还真的不行啊。不...

3825
来自专栏AI研习社

将 TensorFlow 训练好的模型迁移到 Android APP上(TensorFlowLite)

最近在做一个数字手势识别的APP(关于这个项目,我会再写一篇博客仔细介绍,博客地址:一步步做一个数字手势识别APP,源代码已经开源在github上,地址:Chi...

1133
来自专栏每日一篇技术文章

OpenGLES_入门07_加载3D模型

OpenGL 自身不能直接加载模型文件,我们的思路很简单,就是把模型文件转成顶点数据,颜色数据,法线向量数据,纹理坐标,然后通过OpenGL 提供的API 把数...

563
来自专栏人人都是极客

第三课:把tensorflow,模型和测试数据导入Android工程

关于Android项目的创建这里就不做赘述了,我们直接进入主题,看下如何把机器学习库和训练的模型导入一个安卓应用中。 导入 Inference Interfac...

35412
来自专栏生信宝典

2018 升级版Jaspar数据库

R包ggseqlogo 绘制seq logo图和Seq logo 在线绘制工具—Weblogo介绍了如何用R脚本和在线工具绘制seq logo图,用于展现转录因...

692
来自专栏生信宝典

分子对接简明教程 (一)

分子对接(Molecular Docking)理论 所谓分子对接就是两个或多个分子之间通过几何匹配和能量匹配相互识别找到最佳匹配模式的过程。分子对接对酶学研究和...

2379

扫描关注云+社区