首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学徒考核-计算wes数据的全部外显子的平均测序深度

学徒考核-计算wes数据的全部外显子的平均测序深度

作者头像
生信技能树
发布2019-10-09 15:41:48
1.1K0
发布2019-10-09 15:41:48
举报
文章被收录于专栏:生信技能树生信技能树

如果学徒之后跑流程,那其实前途很有限,所以我安排了一个随机任务,考核他们查资料解决问题的能力。我在Published: 04 April 2012 文章, The clonal and mutational evolution spectrum of primary triple-negative breast cancers 看到了一个有趣的图。

首先走wes流程拿到bam文件

这个我们多次讲解了,略,大家自行前往B站看WES视频:

然后根据CCDS数据库拿到人类全部exon的坐标在生信技能树早期教程我也多次讲解过,如何根据CCDS数据库文件,来制作如下BED格式的人类外显子坐标记录文件:

$ head hg38.exon.bed
chr1    69090   70007   OR4F5   0   +
chr1    450739  451677  OR4F29  0   +
chr1    685715  686653  OR4F16  0   +
chr1    801942  802433  LINC00115   0   +
chr1    925941  926012  SAMD11  0   +
chr1    930154  930335  SAMD11  0   +
chr1    931038  931088  SAMD11  0   +
chr1    935771  935895  SAMD11  0   +
chr1    939039  939128  SAMD11  0   +
chr1    939274  939459  SAMD11  0   +

使用samtools工具对exon坐标全部碱基计算覆盖深度

很简单的命令:

~/miniconda2/envs/WES/bin/samtools depth -b hg38.exon.bed a5.sort.bam > /tmp/tmp.depth
$ head tmp.depth
chr1    69091   5
chr1    69092   5
chr1    69093   5
chr1    69094   5
chr1    69095   4
chr1    69096   4
chr1    69097   4
chr1    69098   4
chr1    69099   4
chr1    69100   4

使用bedtools把碱基覆盖深度归属于exon

可以看到每个exon的所以坐标都是有测序深度的,这个文件目前是几千万行!

chr1    69090   70007   OR4F5   0   +   chr1    69091   69091   5
chr1    69090   70007   OR4F5   0   +   chr1    69092   69092   5
chr1    69090   70007   OR4F5   0   +   chr1    69093   69093   5
chr1    69090   70007   OR4F5   0   +   chr1    69094   69094   5
chr1    69090   70007   OR4F5   0   +   chr1    69095   69095   4
chr1    69090   70007   OR4F5   0   +   chr1    69096   69096   4
chr1    69090   70007   OR4F5   0   +   chr1    69097   69097   4
chr1    69090   70007   OR4F5   0   +   chr1    69098   69098   4
chr1    69090   70007   OR4F5   0   +   chr1    69099   69099   4
chr1    69090   70007   OR4F5   0   +   chr1    69100   69100   4

对exon进行汇总

每个坐标的测序深度取平均值即可,可以写一个简短的perl脚本,或者直接读入该文件到R语言,总之对20多万个外显子都计算一个平均测序深度即可。

绘制boxplot

这个是最简单了,参考文献里面的一百多个wes样本合并的boxplot。

课程内容

生信-R语言入门

GEO数据库挖掘

生信-LINUX基础

转录组课题设计和流程分析

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 首先走wes流程拿到bam文件
  • 然后根据CCDS数据库拿到人类全部exon的坐标在生信技能树早期教程我也多次讲解过,如何根据CCDS数据库文件,来制作如下BED格式的人类外显子坐标记录文件:
  • 使用samtools工具对exon坐标全部碱基计算覆盖深度
  • 使用bedtools把碱基覆盖深度归属于exon
  • 对exon进行汇总
  • 绘制boxplot
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档