【直播】我的基因组 45:SNV突变(6种)频谱的制作

突变频谱呢,就是对含有SNV的VCF格式的文件进行一个统计。

全基因组SNP突变可以分成6类(C>A, C>G, C>T, A>C, A>G, A>T)。肯定会有人问为什么是六类?

以A:T>C:G为例,此种类型SNP突变包括A>C和T>G。由于测序数据既可比对到参考基因组的正链,也可比对到参考基因组的负链,当T>C类型突变出现在参考基因组正链上,A>G类型突变即在参考基因组负链的相同位置,所以将T>C和A>G划分成一类,换句话说我们只考虑正链的突变形式,参考碱基只允许有C或者T,因为它们等价于G或者A。所以全基因组SNP突变可以分成这6类。

很明显,我们只需要考虑VCF文件的第4,5行即可!

cat realign.vcf |grep -v INDEL |grep -v "^#" |cut -f 1-5 |head

cat realign.vcf |grep -v INDEL |grep -v "^#" |cut -f 4,5|sort |uniq -c |grep -v ","

我们过滤掉了多种变异形式的SNV,比如T,突变成G或者C!最后的结果如下:

一般来说,是要可视化一下的,我用R语言的ggplot来画一个呗~

  1. dat <- data.frame(type=c('C>A(G>T)','C>T(G>A)','C>G(G>C)','T>A(A>T)','T>G(A>C)','T>C(A>G)'),
  2. counts=c(180515+181567,698322+697568,184176+185144,148387+148580,177215+177415,676816+675821)
  3. )
  4. library(ggplot2)
  5. p=ggplot(dat,aes( x=type,y=counts))+geom_bar(stat="identity")
  6. print(p)

当然,mutation spectrum这个画图代码只能出一个最简单的条形图,如果你想达到下面的效果,需要学习ggplot啦!

画条形图请参考:http://docs.ggplot2.org/0.9.3.1/geom_bar.html

如果要区分染色体,可以重新考虑第1行,拿去可视化!

http://www.bio-info-trainee.com/1619.html

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java与Android技术栈

图像中二维码的检测和定位

所谓开操作是指先腐蚀后膨胀的操作。在之前的文章二值图像分析:案例实战(文本分离+硬币计数)曾经介绍过开操作的用途。

1003
来自专栏AI科技评论

开发 | 使用 Rodeo 分析总统候选人的推特内容

AI 科技评论按 :本文作者Datartisan,载于其知乎专栏——Datartisan数据工匠。AI 科技评论转载已获得原作者授权。 介绍 选举季已经到来,对...

36410
来自专栏AI科技评论

总结 | Laura:AI 字幕翻译经验分享

越来越多的小伙伴们加入到 AI 课程的字幕翻译队伍。在这些翻译同学中,有些是 AI 相关领域的学生或从业者,有些是纯粹的知识爱好者,很多同学并未上过英语翻译课程...

612
来自专栏生信技能树

【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

好久不见,我们的直播又开始啦!今天,我们主要讲的是人群分布,先用简单的PCA来分析一下千人基因组的人群分布吧! PCA分析,就是主成分分析,我博客有讲过(点击最...

30111
来自专栏有趣的Python

TensorFlow应用实战-6-AI作曲环境搭建读作sharp,是音乐里的升音符号,在sharp前面的这个音去升高一个半音。

用TensorFlow开发会作曲的AI 背景和知识点介绍 人工智能的不断火热。 Google的Magenta(洋红色)项目 ? mark https://mag...

3899
来自专栏算法+

MP3 编码解码 附完整c代码

图像方面,已经有stb_image,spot,freeimage等编解码库系列,做得特别赞。

944
来自专栏大数据挖掘DT机器学习

使用fasttext实现文本处理及文本预测

因为参加datafountain和CCF联合举办的大数据竞赛,第一次接触到文本预测。对比了一些模型,最终还是决定试一下fasttext。上手fasttext的...

1.8K6
来自专栏iOSDevLog

ARKit和CoreLocation:第一部分

演示代码 ARKit和CoreLocation:第一部分 ARKit和CoreLocation:第二部分 ARKit和CoreLocation:第三部分

1872
来自专栏生信技能树

【文献】 新一代测序技术(NGS) 的十年之旅

标题:Coming of age: ten years of next-generation sequencing technologies

813
来自专栏PPV课数据科学社区

用python对汽车油耗进行数据分析

- 从http://fueleconomy.gov/geg/epadata/vehicles.csv.zip 下载汽车油耗数据集并解压 - 进入jupyte...

4358

扫码关注云+社区