基因组mapping会有以下几个方面需要考量:
1.准确度。
基因组很大,并且有重复,如何准确的mapping到基因组。如果比对错误,则会造成假阳性的variant。
2.敏感性。
有variation的序列和参考基因组是不一样的,如何高效的把这些序列mapping到参考基因组上。并且每个个体是和参考基因组有差异的。
3.速度。
二代测序会产生非常多的数据,如何把这些序列快速的比对到参考基因组上。
针对以上mapping的几个考量,有如下的mapping的算法
From:Nat Biotechnol. 2009,27(5):455
但综合下来用的比较多的是bowtie和bwa,其他的软件因为各种原因都没有被小编用到过。
Bowtie运算速度较快,具体算法如下图所示:
BWA,准确度较高,BWA中包含了三种不同的mapping算法:
BWA mem:较常用,适合长片段(>75bp)
BWA aln:适合短片段
BWA SW:适合gap比较多的mapping
Mapping quality代表了什么?
Mapping可以把原始的fastq格式的数据mapping到参考基因组上,从而获得此reads的位置信息。其中mapping quality代表了reads所mapping的位置是否可信。如果一条reads可以mapping到多个位置,那么就会有比较低的mapping quality。在BWA算法中,如果可以mapping到多个位置,则选择最好的一个,但是mapping quality依然会很低。
具体mapping的命令
生成的sam文件即为注释到基因组上的文件,结果如下图所示:
感谢您的阅读,欢迎点赞和转发!!
领取专属 10元无门槛券
私享最新 技术干货