学习
实践
活动
工具
TVP
写文章

生信入门:序列比对之bowtie和bwa介绍

基因组mapping会有以下几个方面需要考量:

1.准确度。

基因组很大,并且有重复,如何准确的mapping到基因组。如果比对错误,则会造成假阳性的variant。

2.敏感性。

有variation的序列和参考基因组是不一样的,如何高效的把这些序列mapping到参考基因组上。并且每个个体是和参考基因组有差异的。

3.速度。

二代测序会产生非常多的数据,如何把这些序列快速的比对到参考基因组上。

针对以上mapping的几个考量,有如下的mapping的算法

From:Nat Biotechnol. 2009,27(5):455

但综合下来用的比较多的是bowtie和bwa,其他的软件因为各种原因都没有被小编用到过。

Bowtie运算速度较快,具体算法如下图所示:

BWA,准确度较高,BWA中包含了三种不同的mapping算法:

BWA mem:较常用,适合长片段(>75bp)

BWA aln:适合短片段

BWA SW:适合gap比较多的mapping

Mapping quality代表了什么?

Mapping可以把原始的fastq格式的数据mapping到参考基因组上,从而获得此reads的位置信息。其中mapping quality代表了reads所mapping的位置是否可信。如果一条reads可以mapping到多个位置,那么就会有比较低的mapping quality。在BWA算法中,如果可以mapping到多个位置,则选择最好的一个,但是mapping quality依然会很低。

具体mapping的命令

生成的sam文件即为注释到基因组上的文件,结果如下图所示:

感谢您的阅读,欢迎点赞和转发!!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190829A03PRB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券