【直播】我的基因组64:clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。而clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。

ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。

首先,我们去clinvar数据库的ftp里面找到数据库文件,然后下载,最新版记录了238310 个位点,如下:

数据库下载方式见论坛,我用的是shell命令:

数据库的详细说明,也自己去论坛里面看吧,我就不赘述啦。http://www.biotrainee.com/thread-991-1-1.html (阅读原文即可)

打开那个文件,可以看到里面其实就是有dbSNP数据库的ID了,因为能被clinvar数据库收录的,必然已经在dbSNP数据库,稍微懂点脚本的都知道,完全没必要用软件来注释了,就把在clinvar数据库里面的rsID挑出来了即可。

如果你不懂如何写程序,那么就用annovar或者snpeff这样的傻瓜式软件吧,稍微看点说明书也很容易学会。必然annovar注释会挑出CLINSIG CLNDBN CLNACC CLNDSDB CLNDSDBID这些重要的记录,放在*dropped文件里面,打开看就可以啦。

比较重要的信息如下:

CLNSIG=1;

CLNACC=RCV000319204.1|RCV000371607.1;

CLNALLE=1;

CLNDBN=Benign_familial_neonatal_seizures|Benign_Neonatal_Epilepsy;

CLNDSDB=MedGen:Orphanet|MedGen;

CLNDSDBID=C2930911:ORPHA1949|CN239199;

其中CLNDSDB指示着该记录来源的数据库,因为clinvar也只是一个二次整合的数据库。CLNDSDBID记录着来源数据库的来源ID,CLNDBN比较重要,是描述疾病的。

最重要的就是CLNSIG,在数据库的头文件可以看到信息描述如下:

##INFO=<ID=CLNSIG,Number=.,Type=String,Description="Variant Clinical Significance, 0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other">

先随便看一个benign的变异吧,就是无害的,发现了rs1801249指到了Wilson_disease这货,我压根就不认识~

老规矩,谷歌一下,勉强了解了它,但是,我真的没有这个病呀~~~

https://www.niddk.nih.gov/health-information/liver-disease/wilson-disease

https://en.wikipedia.org/wiki/Wilson%27s_disease

http://www.baike.com/wiki/WILSON+%E6%B0%8F%E7%97%85

威尔逊氏病(Wilsonsdisease,WD),是一种常染色体隐形遗传的铜代谢缺陷病,其基因定位于13q14.3,编码1个P型ATP酶,此酶参与铜跨膜转运的代谢过程。目前研究多认为由于WD基因突变使其功能降低或丧失而导致铜代谢异常,肝合成铜蓝蛋白速度减慢,胆汁排铜明显减少,铜沉积于肝、脑、肾、角膜、血细胞和关节等组织中,引起了相应脏器损害的临床症状。

而且最近的文献发现这个位点阿兹海默跟有关:

https://www.ncbi.nlm.nih.gov/pubmed/23830383

The data also showed that the genotype frequency distribution of the ATP7B c.1366 G greater than C polymorphism (rs1801244, Val456Leu) differed significantly between the AD patients and the normal subjects (p = 0.012).

好吧,你们说什么就是什么吧,反正我才26岁,神马阿兹海默的老年疾病我现在没办法反驳你。

然后有查了一下snp相关的数据,比如healthcoach7,还有pharmgkb,snpedia。

https://www.healthcoach7.com/snp/rs1801249/

https://www.pharmgkb.org/variant/PA166154703

当然,最重要的是去clinvar数据库的网站上面查看:

其实benign本身不用太认真看的。

一般来说,被注释到Pathogenic的变异是值得重点关注的,我的里面有32个,就这么几个,我想已经用不着生物信息学工程师了,可以直接去excel表格里面自己一个个慢慢看了,然后对着文献自己尝试解读一下。当然,即使是clinvar里面记录的有害突变,你不幸运获得了,也不用害怕。

比如我随意扫了一眼我的32个有害突变,比如这个中间枫糖浆尿病2型

https://www.snpedia.com/index.php/Rs12021720

https://www.ncbi.nlm.nih.gov/clinvar/RCV000012727/

还有rs4774518预示着的Thyroglobulin synthesis defect,虽然也是有害突变,但是星级评分系统也是0级。

我已经没有心情看下去了,里面还有好几个癌症呀,还有各种奇奇怪怪的疾病相关突变。

https://omim.org/entry/274900

https://ghr.nlm.nih.gov/condition/niemann-pick-disease

https://en.wikipedia.org/wiki/Spinocerebellar_ataxia

说老实话,我现在还不是很理解这些数据库证据与患病直接的联系到底是什么关系!

最后,对于每个位点,还可以去看一看gnomAD的人群携带率,如果有纯和携带,这个致病性要打个问号的~

http://www.biotrainee.com/thread-991-1-1.html

http://annovar.openbioinformatics.org/en/latest/user-guide/filter/

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-03-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏星汉技术

计算机基础(二)

26080
来自专栏生信技能树

【直播】我的基因组67:clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf...

454100
来自专栏石瞳禅的互联网实验室

你们使用的Go IDE要改名了?!

大名鼎鼎的Jetbrains官方博客2017年10月13日的发布文章,邀请各位Gopher和Jetbrains的用户,给大家使用了大半年的IDE改个名字!

9810
来自专栏SDNLAB

SDNLAB技术分享(十一):VXLAN基础知识

之前Arista在欧洲阶段性的有ATF的类似技术论坛的会议, ARISTA TECHNICAL FORUM, 后来到了美国和APAC, 名字改了, 改为CLOU...

43280
来自专栏沃趣科技

隔壁老王的数据备份“变形”记

隔壁老王作为一名合格的DBA 守护数据安全是他不可推卸的责任 比如每一次的数据库备份 可是你懂的 那备份的速度 ? 于是乎 兢兢业业的老王一边盯着屏幕 一边若有...

43470
来自专栏知识分享

WIFI底座

16540
来自专栏有趣的Python和你

抖音小姐姐视频爬虫

前段时间,创造101着实火了一把,问我pick哪位小姐姐,当然是唱歌老跑调,跳舞数拍子的杨超越了。其实在看创造101之前,就已经在抖音上关注了她,今天就来爬爬她...

23220
来自专栏闰土大叔

代码里注释写太多,会挨打吗?

前几天,有个同行朋友在我的微信上留言,问我项目代码里注释写太多会挨打吗?顺手还给我甩了一张截图,上面密密麻麻的全是手工注释。

59440
来自专栏知晓程序

还在「@微信官方」?想给头像加圣诞帽,用这个小程序就可以!

微信什么时候有了这么高端的操作?作为一名老司机,知晓君眉头一皱,发现事情并不简单。

12140
来自专栏SDNLAB

SDNLAB技术分享(十一):VXLAN基础知识

? 之前Arista在欧洲阶段性的有ATF的类似技术论坛的会议, ARISTA TECHNICAL FORUM, 后来到了美国和APAC, 名字改了, 改为C...

420120

扫码关注云+社区

领取腾讯云代金券