【直播】我的基因组 43:简单粗糙的WGS数据分析流程

前面我们扯到bam文件的各种操作,vcf文件的各种操作,基础知识不牢固的同学可能已经云里雾里了。这次我们来讲一个简单的。就是拿到了fastq的测序数据,如何把全基因组分析给跑一遍。(不谈细节!)

首先就是fastq文件比对到参考基因组变成sam文件:

head -40 read1.fq >tmp/read1.fq 
head -40 read2.fq >tmp/read2.fq
~/biosoft/bwa/bwa-0.7.15/bwa  mem -t 20 -M ~/reference/index/bwa/hg19 read1.fq read2.fq| samtools sort -O bam -o jmzeng.sorted.bam

一个简单的管道即可,如果管道不能确认是对的,就像我上面那样先拿一个小本文文件测试一下。由下图可以看到我们sort的bam文件不是按照染色体的1,2,3排序,而是按照chr10,chr11,,,,chr1,,chr2这样的顺序,这个对很多其它软件会不友好。

不过没关系,我们不跑GATK,这个bam文件足够了!

事实上,对我们真实的WGS数据来说,这一步耗时很严重的!(时间开销在后面)

第二个步骤,就是call variation咯,下面两个软件都可以,用起来也很简单。

samtools mpileup -ugf ~/reference/genome/hg19/hg19.fa  jmzeng.sorted.bam |bcftools call -vmO z -o jmzeng.bcftools.vcf.gzhead -40 read1.fq >tmp/read1.fq 
~/biosoft/freebayes/freebayes/bin/freebayes  -f  ~/reference/genome/hg19/hg19.fa  jmzeng.sorted.bam >jmzeng.freebayes.vcfhead -40 read2.fq >tmp/read2.fq

大家非常后台留言最多的就是这3个步骤的耗时问题

分别是84290、134143,76406 秒!也就是23.4hours、37.3hours、21.2hours,正好一个双休日,哈哈,完美!

两个call variation的步骤是并行的。也就是说完成一个全基因组数据(300G的原始数据)的分析,是需要整整两天两夜的!

但是大家可能在朋友圈多次看到各种宣传贴21小时完成千人的全基因组分析,为什么呢?是因为硬件条件的不同,他们有着相当大的计算资源。他们的内存和存储空间都要比我们自己所用的计算资源大不知道多少倍。同时,还有各样本并行处理及GPU的加速,所以运行速度那么快也就不足为奇了。

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏诸葛青云的专栏

在微信好友信息抓取这一块,这才是最好的python分析技巧!

早些日子有人问我我的微信里面有一共多少朋友,我就随后拉倒了通讯录最下面就找到了微信一共有多少位好友。然后他又问我,这里面你认识多少人?

1114
来自专栏macOS 开发学习

iOS图文混编先说一下我遇到这个问题的思路:

CoreText 之后,苹果新增加了UITextkit,更容易实现图文混排,甚至混编!

913
来自专栏HansBug's Lab

【备忘】Idea的那些事

说到Java的IDE,似乎eclipse和Idea是目前的主流。然而,OO的课程组却一直在推荐使用eclipse,于是很多人就这样错过了Idea这样强大的IDE...

3959
来自专栏Crossin的编程教室

【每周一坑】3道练习题

如题图所示,今天把论坛(crossin.me)的服务器迁移到一个很萌的云服务上,速度还可以。欢迎大家常来。 这里再次感谢 aresli 同学提供的服务器,让论坛...

33517
来自专栏.NET技术

整理自己的.net工具库

  今天我会把自己平日整理的工具库给开放出来,提供给有需要的朋友,如果有朋友平常也在积累欢迎提意见,我会乐意采纳并补充完整。按照惯例在文章结尾给出地址^_^。

512
来自专栏腾讯社交用户体验设计

玩转HTML5移动页面(优化篇)- 腾讯ISUX

1023
来自专栏Java学习网

重新敲一遍代码,胜过拷贝粘贴

重新敲一遍代码,胜过拷贝粘贴  如今这个时代,Google 和 Stack Overflow 已经成为了很多开发者不可或缺的工具。但是最近,后者貌似名声坏了。一...

2349
来自专栏王二麻子IT技术交流园地

HTML标准

在世界的任何一个角落,每个网络浏览器都以同一种方式显示HTML文件。理想情况下,任何一台电脑上的任何一个浏览器软件对每个HTML标识符应当以相同的方式解释,并有...

1730
来自专栏何俊林

优化工作的冰山一角,app瘦身

前言:爱奇艺的产品有很多,业务线都有不同,我们业务部的主要产品是银河~奇异果,属于在智能电视上的app。对于我们播放组主要是做各产品的播放支撑及对接,还包括一些...

1738
来自专栏前端说吧

小程序 - swiper除了左右切换还有上下滚动超出屏幕的内容

3097

扫描关注云+社区