【直播】我的基因组51:画全基因范围内的染色体reads覆盖度图

生信技能树

发布于 2018-03-08 10:59:01

3.6K0

发布于 2018-03-08 10:59:01

前面我们已经详细讲解过如何根据窗口来统计每条染色体的每个片段的GC含量，还有平均测序深度，请大家自行前往前面查看脚本及实现方式！【直播】我的基因组47:测序深度和GC含量的关系

那么如果得到了如下的数据：

很明显，上面是以100Kb区域为窗口，我们就需要进行可视化，如下：

（抱歉，画的还是有点丑，可视化的确不是我擅长的！）

这个图有很多需要改进的地方，比如X坐标轴应该对每一个染色体来说都不一样，染色体的长度很明显可以看出来的，但是我简单粗暴的取了最长染色体的长度！配色也不好看，大家可以参照Y叔的<食色性也>去寻找最佳配色，我实在是太忙了，没空做这些美化了。

从上面的图，我们可以得到很多信息：

1号染色体中间的测序深度有点不稳定；

9号染色体中间有一大块测序深度明显偏低，需要后面详细探究；

13,14,15,21,22号染色体开头处有大片段覆盖度为0的情况，也行是端粒处没有测到，或者这些地方就是N碱基。也需要仔细探究。

R代码如下：

上面得到的是以100Kb为窗口的统计结果，如果我们以10Kb来统计绘图，结果如下：

肉眼上，几乎看不出什么区别，同样的代码，我就不重复show啦。

（虽然我还统计了以1Kb为窗口结果，但是不想画图了，感觉都差不多了，而且1Kb的窗口统计结果文件有77Mb，画图挺耗费时间的。）

文：Jimmy

图文编辑：吃瓜群众

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2017-01-24，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自生信技能树微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度