【直播】我的基因组 35:bam格式转化为bw格式看测序深度分布

我们在之前说到过bam文件还有55G大小,这样的文件,在很多时候都不方便查看和转移。而有些时候,我们只需要我们的测序数据在全基因组的测序深度这一个值,并不需要具体某条reads的碱基序列,碱基质量值。这样就可以把bam文件压缩为bw格式啦!需要了解一些文件格式:wig、bigWig和bedgraph文件详解

bam文件格式我就不多说了,就是sam的二进制压缩版本,前面我们也花费了大量的笔墨来描述它,而bw格式全称是bigwig格式,就是规定了全基因组数据的每个坐标区间的测序深度,标准释义如下:

Wiggle Track Format (WIG):http://genome.ucsc.edu/goldenPath/help/wiggle.html

bigWig Track Format :http://genome.ucsc.edu/goldenPath/help/bigWig.html

BedGraph Track Format :http://genome.ucsc.edu/goldenPath/help/bedgraph.html

这3种文件格式都是UCSC规定的,所以它提供了系列工具进行互相转换,

我这里用deeptools这个软件的bamCoverage工具来完成这个任务,命令如下:

bamCoverage -b P_jmzeng.final.bam -o P_jmzeng.final.bw

bamCoverage -b P_jmzeng.filter.rmdup.realgn.bam -o P_jmzeng.filter.rmdup.realgn.bw

关于这个软件的用法及安装方法,见我博客:deeptools辅助CHIP-seq数据分析-可视化(http://www.bio-info-trainee.com/2136.html 复制该地址到浏览器打开)

在IGV里面打开bam和bw文件,就知道这个软件到底做了什么。

首先对bw文件来说,可以在全基因组尺度下看看测序深度的整体情况,这样可以很明显的看到某些染色体的某些区域是不是严重的测序深度过低或者过高(我箭头所指的区域是有问题的,测序深度尤其高)。而对bam文件,需要zoom in到一定程度才能看到比对的reads情况。

通过bw的文件来定位异常区域,再zoom in去看具体是怎么回事,非常好用!可以看到这些区域测序深度高达8万!!!

文:Jimmy、吃瓜群众

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2016-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Kubernetes

TensorFlow Serving在Kubernetes中的实践

xidianwangtao@gmail.com 关于TensorFlow Serving 下面是TensorFlow Serving的架构图: ? 关于T...

52912
来自专栏AI研习社

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

在本文中,我将介绍如何在 Docker 容器中使用 Tensorflow Object-detection API 来执行实时(网络摄像头)和视频的目标检测。我...

1482
来自专栏Kubernetes

原 荐 TensorFlow on Kube

Author: xidianwangtao@gmail.com 玩容器的老司机都知道Kubernetes这两年非常火,截止目前在github上31K+ s...

3538
来自专栏阿凯的Excel

Excel信息安全保卫战

信息安全人民大众普遍关心的问题~ 人民为了保卫信息安全而战斗! 图片8月16日早上九点发,钱打到你的账户(记得删掉这句话!) 今天分享信息加密的御敌战法...

2394
来自专栏AI科技大本营的专栏

TensorFlow 1.8.0正式发布,Bug修复和改进内容都在这里了

【导语】TensorFlow 1.8.0 近日正式发布,新版本主要有以下改进内容,AI科技大本营对其编译如下。 ▌主要特点及改进 可以将 tf.contrib...

3249
来自专栏生信技能树

【直播】我的基因组 30:使用软件把变异分类—添加tag

前面我们讲解了VCF文件的基础信息,其中第8列的信息可以无限丰富,但是通常我们的call variation的软件默认只给出有限的信息,有的甚至都不会告诉你该变...

34011
来自专栏生信宝典

psRobot:植物小RNA分析系统

psRobot:植物小RNA分析系统 ? 简介 官网:http://omicslab.genetics.ac.cn/psRobot/ PsRobot是中科院遗传...

1936
来自专栏简书专栏

基于Excel2013的合并计算

工作组、求和、利用函数randbetween、合并计算 比如在excel表格中填入=randbetween(1,10),输入时如果需要补全要用鼠标点击,不能按...

321
来自专栏生信技能树

【直播】我的基因组 31:vcf文件标记dbSNP的rsID号

vcf文件标记dbSNP的rsID号的这个问题非常多的人问过,大部分的variation calling软件给出的vcf文件里面第3列都是一个纯粹的do...

2727
来自专栏生信技能树

从WGS测序得到的VCF文件里面提取位于外显子区域的【直播】我的基因组84

首先要下载并且得到人类基因组的外显子坐标记录文件 这里我用的参考基因组版本仍然是hg19,所以去CCDS数据库里面下载对应版本,并且格式化成BED文件。 wge...

3719

扫码关注云+社区