前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >bcftools csq分析基因突变对蛋白水平的影响

bcftools csq分析基因突变对蛋白水平的影响

作者头像
生信修炼手册
发布2020-05-11 11:52:40
7770
发布2020-05-11 11:52:40
举报

csq命令可以分析SNP位点在基因组上的位置,同时还会预测基因突变对编码蛋白的影响。

和其他预测基因突变对蛋白质影响的软件不同,bcftools 将基因组划分为不同的独立区域(和单倍型区域概念类似),在分析蛋白质变化时,会综合考虑该区域内的所有突变位点,示意图如下

A图中,该区域包含两个SNP位点,如果单独考虑每个位点,只能预测到氨基酸替换,由精氨酸替换为色氨酸或者谷氨酰胺, 综合考虑两个SNP位点时,对应的DNA序列变成了一个终止密码子,蛋白质长度都发生了变化。

B图中,该区域包含了2个indel 位点,单独考虑每个indel位点时,都是发生了移码突变,氨基酸长度发生了变化,综合考虑两个SNP位点时,氨基酸变化和单独分析一个位点时,又大不一样。

C图中,两个SNP位点发生在剪切位点两侧,单独考虑每个SNP位点,氨基酸由天冬氨酸替换为天冬酰胺或者谷氨酸,综合考虑两个突变位点时,氨基酸由天冬酰胺替换成赖氨酸。

从示意图可以发现,单独考虑每个SNP位点对于蛋白质的影响,其结果是有偏差的,只有综合考虑邻近范围内所有的突变位点,预测到的蛋白质变化结果才更加可靠。

csq 运行命令如下

bcftools csq -f csq.fa -g csq.gff3 csq.vcf > csq.out

-f参数指定参考基因组的fasta文件,-g参数指定参考基因组的gff3文件,csq.vcf为输入的VCF文件,csq.out为输出文件。

输出文件的格式也是VCF格式,会在INFO列中新增一个BCSQ字段,用来描述突变位点在基因组上的位置和蛋白质序列的变化,示例如下

BCSQ=synonymous|XYZ|ENST00000000001|protein_coding|+|1Y|102C>T

BCSQ的信息由多个字段构成,中间用|连接,包含以下字段

  1. consequence type 基因突变对蛋白影响的类型,包括synonymous, missense, inframe_deletion等类型
  2. gene 基因名称
  3. transcript 转录本名称
  4. biotype 基因类型
  5. strand 正负链信息
  6. amino acid positon 氨基酸的位置
  7. variants list 预测氨基酸变化时,考虑的突变位点的集合

由于bcftools是综合考虑多个突变位点对蛋白质的共同作用,在实际分析时,应该尽可能的过滤掉假阳性的突变位点,然后再分析蛋白水平的影响,这样的分析结果,可信度会更高。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档