【直播】我的基因组48:我可能测了一个假的全基因组

背景知识

男性只有一条X染色体和一条Y染色体,所以,理论上它们上面的SNV都应该是纯合的! X,Y除了同源区域外,其它地方差异很大。所以在女性样本里面即使是混入了极低量的男性样本,也很容易检测出来。同理,男性样本里面混入了女性样本,会给男性带来大量的X染色体的杂合SNV,也很容易检测出来。

我的测序结果

我对前面步骤call到的vcf格式的变异位点文件进行了X,Y染色体的简单统计,代码如下:

cat  jmzeng.freebayes.vcf |grep -w 'chrY'|grep -v "^#" |cut -f 10|cut -d":" -f 1 |sort |uniq -c
cat  jmzeng.freebayes.vcf |grep -w 'chrX'|grep -v "^#" |cut -f 10|cut -d":" -f 1 |sort |uniq -c

结果不是很妙!

  • 按照道理,不管是X,Y染色体,我都只有一条呀!
  • 但是为什么我call出来的snp位点, 居然~~~这么多杂合的????
  • 尽管测序会有错误,不那么精准,但是误差不应该那么大吧!

我测试了另外一个软件call出来的snp位点,也用同样的脚本进行统计!

zcat jmzeng.bcftools.vcf.gz |grep -w 'chrX'|grep -v "^#" |cut -f 10|cut -d":" -f 1 |sort |uniq -c
zcat jmzeng.bcftools.vcf.gz |grep -w 'chrY'|grep -v "^#" |cut -f 10|cut -d":" -f 1 |sort |uniq -c

结果也不容乐观!

起初我怀疑是我的snv结果没有进行过滤,所以造成了这么大的误差,那么就用测序深度来进行过滤吧!

很明显,纯合杂合的问题,并没有测序深度的偏差,我暂时还不能确定问题出在哪里,接下来4篇帖子都会围绕着这个问题展开!

关于NGS数据探索性别相关问题,更多阅读,请自行前往我的博客搜索!

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。...

3606
来自专栏生信技能树

【资源分享】生物信息学编程实战

6415
来自专栏生信技能树

【文献】 新一代测序技术(NGS) 的十年之旅

标题:Coming of age: ten years of next-generation sequencing technologies

1133
来自专栏Y大宽

ToppGene Suite中文使用指南

2007.12:Improved human disease candidate gene prioritization using mouse phenoty...

1543
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

VB.NET中图像处理的一些技巧以及其和C#图像处理的差距。

 早期的时候我使用的开发工具是VB6,VB6做图像处理的速度在我的软件Imageshop中有所体现,还是算可以的。目前,我已经改用C#来研究图像算法,C#中有...

1895
来自专栏前端儿

韩信点兵

相传韩信才智过人,从不直接清点自己军队的人数,只要让士兵先后以三人一排、五人一排、七人一排地变换队形,而他每次只掠一眼队伍的排尾就知道总人数了。输入3个非负整数...

851
来自专栏生信技能树

Variant 分析阶段小结1-基础碎碎念

所谓遗传变异是生物体内遗传物质发生变化而造成的可以遗传给后代的变异,这些变异导致了生物在不同水品上体现出遗传的多样性。生物信息学中各种基因组研究的基础就是遗传变...

1453
来自专栏生信技能树

比对到hg19和hg38对somatic变异的寻找影响很大

其中B是正常组织的WES数据,使用varscan找somatic mutation的时候作为normal,然后对另外两个样本(D和T)计算。 从这个bam文件可...

1733
来自专栏PPV课数据科学社区

【工具】用R软件绘制中国分省市地图

【注】新版本的maptools包对很多函数进行了修改,对于修改的内容,文章中用红色的文字进行了说明。 鉴于最近有不少人在讨论用R软件绘制地图的问题,我也就跟着凑...

4329
来自专栏生信技能树

单细胞转录组3大R包之monocle2

主要是针对单细胞转录组测序数据开发的,用来找不同细胞类型或者不同细胞状态的差异表达基因。分析起始是表达矩阵,作者推荐用比较老旧的Tophat+Cufflinks...

4.2K11

扫码关注云+社区