前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用SnpSift把vcf文件的变异位点注释到clinvar数据库

使用SnpSift把vcf文件的变异位点注释到clinvar数据库

作者头像
生信技能树
发布2020-07-16 16:13:01
1.6K0
发布2020-07-16 16:13:01
举报
文章被收录于专栏:生信技能树

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。我在多年前的直播我的基因组讲过很多了:

首先熟悉 clinvar 数据库

ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。

clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。

首先,我们去clinvar数据库的ftp里面找到数据库文件,然后下载最新版文件,我这里用的是shell命令:

代码语言:javascript
复制
## ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
mkdir -p ~/annotation/variation/human/clinvar
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names
# mkdir vcf_GRCh37 && cd vcf_GRCh37
mkdir vcf_GRCh38 && cd vcf_GRCh38
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20200706.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20200706.vcf.gz.tbi

这个 ClinVar数据库里面的变异位点记录更新还是蛮快的。

然后熟悉SnpSift 软件

SnpSift 软件非常强大,推荐大家仔细阅读它的说明书,http://snpeff.sourceforge.net/protocol.html

  • Example 1: Coding variants
  • Example 2:Software Integration
  • Example 3: Non-Coding variants
  • Example 4: Sequencing data analysis
  • Example 5: Filter variants (dbSnp)
  • Example 6: Custom annotations

如果要使用SnpSift把vcf文件的变异位点注释到clinvar数据库,我们需要使用的命令示例是:

代码语言:javascript
复制
java -Xmx1g -jar ~/biosoft/snpEff/snpEff/SnpSift.jar  \
    annotate \
    -v  ~/annotation/variation/human/clinvar/clinvar_20200706.vcf.gz  \
    new.filter.sort.vcf  \
    > new.clinvar.vcf

一般来说,注释比例并不会太高,因为clinvar数据库记录的位点很有限,如下:

代码语言:javascript
复制
Total annotated entries : 6231
 Total entries           : 54972
 Percent                 : 11.33%

如果选择其它数据库,比如dbSNP、exac、gnomad注释比例会高很多。

解读clinvar数据库注释结果

实际上,没办法解读,一般来说, WES数据分析结果有10万个变异位点,其中2万左右在外显子区域,那么就会有2千个左右的位点被clinvar注释到,这个数量级仍然是很可观的。

我们必须要有先验知识,比如知道这个WES数据来源的个体是患有某种疾病的,比如,视网膜变性相关疾病就可以搜索:

代码语言:javascript
复制
"Pigmentary retinal degeneration"
"Rod-cone dystrophy"
"Retinitis pigmentosa"

如果你发现搜索到的突变,都是Benign,没有Pathogenic,就比较麻烦,就需要根据ACMG指南分类分析,重点看:

  • 1、PM1: 位于热点突变区域, 和/或位于已知无良性变异的关键功能域(如酶的活性位点).
  • 2、PM2: ESP 数据库、千人数据库、 EXAC 数据库中正常对照人群中未发现的变异(或隐性遗传病中极低频位点)
  • 3、PP1: 突变与疾病在家系中共分离(在家系多个患者中检测到此变异). 注: 如有更多的证据, 可作为更强的证据.
  • 4、PP3: 多种统计方法预测出该变异会对基因或基因产物造成有害的影响, 包括保守性预测、进化预测、剪接位点 影响等. 注: 由于做预测时许多生物信息学算法使用相同或非常相似的输入, 每个算法不应该算作一个独立的标准.

如果这样缩小范围仍然是位点很多,可以直接缩小到基因,比如查询 "Retinitis pigmentosa" 这个疾病相关基因就37个,这样位于这些基因的突变就很少了,从这里面挑选那些有害突变,而且人群频率低的。但是其实有一个问题,既然已经局限于具体的疾病相关基因了,那么为什么还有做WES呢,直接上一个panel不就好了吗?见:家系外显子研究最后反正要定位到已知疾病相关基因

关于ACMG指南分类分析,建议看Germline pathogenic variants of 11 breast cancer genes in 7,051 Japanese patients and 11,241 controls文章的材料与方法部分,主要是很多细致的探索,很有意思。

另外推荐clineff软件

主页是:http://www.dnaminer.com/clineff.html

虽然我没有使用过它,但是从软件名字来看,很明显它更专业,适合做临床级别基因检测数据的变异位点注释。而且居然还收费?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 首先熟悉 clinvar 数据库
  • 然后熟悉SnpSift 软件
  • 解读clinvar数据库注释结果
  • 另外推荐clineff软件
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档