前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >跟着Nature学数据分析:minimap2+bcftools基于全基因组比对鉴定SNP

跟着Nature学数据分析:minimap2+bcftools基于全基因组比对鉴定SNP

作者头像
用户7010445
发布2023-08-23 10:45:20
7570
发布2023-08-23 10:45:20
举报
文章被收录于专栏:小明的数据分析笔记本

论文

Cycles of satellite and transposon evolution in Arabidopsis centromeres

https://www.nature.com/articles/s41586-023-06062-z

代码链接

https://github.com/vlothec/pancentromere/tree/main

论文中有一部分内容是基于基因组比对检测SNP和InDel,论文中的方法部分写到

Genome assemblies of each *A.* *thaliana* accession were aligned to the HiFi assembly of Col-0 using minimap2 (v.2.24) with the parameters ‘minimap2 -a -x asm5 --cs -r2k -t 16’. SNPs and short indels were called from the alignment using bcftools

论文中提供了这部分的代码,今天的推文我们来学习一下这部分的代码

拟南芥基因组的数据还是用之前提到的NC论文里的数据

这里有一个问题暂时没搞明白:是否需要将contig水平的数据去掉,只保留染色体水平的序列?

首先是比对

代码语言:javascript
复制
minimap2 -a -x asm5 --cs -r2k -t 16 C24.fa Cvi.fa > Cvi_C24.sam
minimap2 -a -x asm5 --cs -r2k -t 16 C24.fa Kyo.fa > Kyo_C24.sam

这里 --cs参数和-r2k参数是什么意思暂时还没搞清楚

这个比对很快 84秒

sam文件转bam

代码语言:javascript
复制
samtools sort -@ 16 -O bam -o Kyo_C24.bam Kyo_C24.sam
samtools sort -@ 16 -O bam -o Cvi_C24.bam Cvi_C24.sam

samtools index Kyo_C24.bam
samtools index Cvi_C24.bam

bcftools变异检测

这里是分染色体的,我就只尝试一号染色体了

代码语言:javascript
复制
~/biotools/software.package/bcftools-1.17/bcftools mpileup -f C24.fa --threads 16 -r chr1 -o Cvi.chr1.vcf -A -O v Cvi_C24.bam
~/biotools/software.package/bcftools-1.17/bcftools mpileup -f C24.fa --threads 16 -r chr1 -o Kyo.chr1.vcf -A -O v Kyo_C24.bam

A参数和O参数v参数是什么意思

代码语言:javascript
复制
~/biotools/software.package/bcftools-1.17/bcftools call -c Kyo.chr1.vcf -o Kyo.chr1.called.vcf

~/biotools/software.package/bcftools-1.17/bcftools call -c Cvi.chr1.vcf -o Cvi.chr1.called.vcf

这里还有一个问题是如果是用基因组来做比对然后检测变异,时候需要包染色体倍性的参数设置为1

多样本vcf文件合并

代码语言:javascript
复制
bgzip -f -@ 16 Cvi.chr1.called.vcf
bgzip -f -@ 16 Kyo.chr1.called.vcf

tabix Kyo.chr1.called.vcf.gz
tabix Cvi.chr1.called.vcf.gz

~/biotools/software.package/bcftools-1.17/bcftools merge -m all --threads 16 -o chr1.vcf *.chr1.called.vcf.gz

bgzip -f -@ 16 chr1.vcf 
tabix chr1.vcf.gz

对数据进行过滤

代码语言:javascript
复制
~/biotools/software.package/bcftools-1.17/bcftools view -e 'GT[*]="mis"' chr1.vcf.gz > chr1.nomissing.vcf

~/biotools/software.package/bcftools-1.17/bcftools view -e 'GT[*]="het"' chr1.nomissing.vcf > chr1.nomissing.nohet.vcf

~/biotools/software.package/bcftools-1.17/bcftools view -M2 -m2 -v snps chr1.nomissing.nohet.vcf > chr1.nomissing.nohet.justSNPs.vcf

 ~/biotools/software.package/bcftools-1.17/bcftools view -C0 chr1.nomissing.nohet.vcf > chr1.nomissing.nohet.justNV.vcf

bgzip -f -@ 16 chr1.nomissing.nohet.justSNPs.vcf
tabix  chr1.nomissing.nohet.justSNPs.vcf.gz

去除重复序列区间内的snp位点

代码语言:javascript
复制
~/biotools/software.package/bcftools-1.17/bcftools view -R repeat.bed -o chr1.nomissing.nohet.justSNPs.norepeats.vcf chr1.nomissing.nohet.justSNPs.vcf.gz

提供一个bed文件

我这里随便构造一个

image.png

以上的命令是只保留这个bed文件区间内的位点

bcftools好多参数都不知道是什么意思,还需要仔细看看帮助文档

image.png

推文记录的是自己的学习笔记,内容可能会存在错误,请大家批判着看,欢迎大家指出其中的错误

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文
  • 首先是比对
  • sam文件转bam
  • bcftools变异检测
  • 多样本vcf文件合并
  • 对数据进行过滤
  • 去除重复序列区间内的snp位点
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档