【直播】我的基因组64:clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。而clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。

ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。

首先,我们去clinvar数据库的ftp里面找到数据库文件,然后下载,最新版记录了238310 个位点,如下:

数据库下载方式见论坛,我用的是shell命令:

数据库的详细说明,也自己去论坛里面看吧,我就不赘述啦。http://www.biotrainee.com/thread-991-1-1.html (阅读原文即可)

打开那个文件,可以看到里面其实就是有dbSNP数据库的ID了,因为能被clinvar数据库收录的,必然已经在dbSNP数据库,稍微懂点脚本的都知道,完全没必要用软件来注释了,就把在clinvar数据库里面的rsID挑出来了即可。

如果你不懂如何写程序,那么就用annovar或者snpeff这样的傻瓜式软件吧,稍微看点说明书也很容易学会。必然annovar注释会挑出CLINSIG CLNDBN CLNACC CLNDSDB CLNDSDBID这些重要的记录,放在*dropped文件里面,打开看就可以啦。

比较重要的信息如下:

CLNSIG=1;

CLNACC=RCV000319204.1|RCV000371607.1;

CLNALLE=1;

CLNDBN=Benign_familial_neonatal_seizures|Benign_Neonatal_Epilepsy;

CLNDSDB=MedGen:Orphanet|MedGen;

CLNDSDBID=C2930911:ORPHA1949|CN239199;

其中CLNDSDB指示着该记录来源的数据库,因为clinvar也只是一个二次整合的数据库。CLNDSDBID记录着来源数据库的来源ID,CLNDBN比较重要,是描述疾病的。

最重要的就是CLNSIG,在数据库的头文件可以看到信息描述如下:

##INFO=<ID=CLNSIG,Number=.,Type=String,Description="Variant Clinical Significance, 0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other">

先随便看一个benign的变异吧,就是无害的,发现了rs1801249指到了Wilson_disease这货,我压根就不认识~

老规矩,谷歌一下,勉强了解了它,但是,我真的没有这个病呀~~~

https://www.niddk.nih.gov/health-information/liver-disease/wilson-disease

https://en.wikipedia.org/wiki/Wilson%27s_disease

http://www.baike.com/wiki/WILSON+%E6%B0%8F%E7%97%85

威尔逊氏病(Wilsonsdisease,WD),是一种常染色体隐形遗传的铜代谢缺陷病,其基因定位于13q14.3,编码1个P型ATP酶,此酶参与铜跨膜转运的代谢过程。目前研究多认为由于WD基因突变使其功能降低或丧失而导致铜代谢异常,肝合成铜蓝蛋白速度减慢,胆汁排铜明显减少,铜沉积于肝、脑、肾、角膜、血细胞和关节等组织中,引起了相应脏器损害的临床症状。

而且最近的文献发现这个位点阿兹海默跟有关:

https://www.ncbi.nlm.nih.gov/pubmed/23830383

The data also showed that the genotype frequency distribution of the ATP7B c.1366 G greater than C polymorphism (rs1801244, Val456Leu) differed significantly between the AD patients and the normal subjects (p = 0.012).

好吧,你们说什么就是什么吧,反正我才26岁,神马阿兹海默的老年疾病我现在没办法反驳你。

然后有查了一下snp相关的数据,比如healthcoach7,还有pharmgkb,snpedia。

https://www.healthcoach7.com/snp/rs1801249/

https://www.pharmgkb.org/variant/PA166154703

当然,最重要的是去clinvar数据库的网站上面查看:

其实benign本身不用太认真看的。

一般来说,被注释到Pathogenic的变异是值得重点关注的,我的里面有32个,就这么几个,我想已经用不着生物信息学工程师了,可以直接去excel表格里面自己一个个慢慢看了,然后对着文献自己尝试解读一下。当然,即使是clinvar里面记录的有害突变,你不幸运获得了,也不用害怕。

比如我随意扫了一眼我的32个有害突变,比如这个中间枫糖浆尿病2型

https://www.snpedia.com/index.php/Rs12021720

https://www.ncbi.nlm.nih.gov/clinvar/RCV000012727/

还有rs4774518预示着的Thyroglobulin synthesis defect,虽然也是有害突变,但是星级评分系统也是0级。

我已经没有心情看下去了,里面还有好几个癌症呀,还有各种奇奇怪怪的疾病相关突变。

https://omim.org/entry/274900

https://ghr.nlm.nih.gov/condition/niemann-pick-disease

https://en.wikipedia.org/wiki/Spinocerebellar_ataxia

说老实话,我现在还不是很理解这些数据库证据与患病直接的联系到底是什么关系!

最后,对于每个位点,还可以去看一看gnomAD的人群携带率,如果有纯和携带,这个致病性要打个问号的~

http://www.biotrainee.com/thread-991-1-1.html

http://annovar.openbioinformatics.org/en/latest/user-guide/filter/

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-03-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏TSW

程序员大型甩锅现场,太搞笑了!

1032
来自专栏BestSDK

勾引程序员的11个方法,第4招百试不爽

一、写纯文本格式的邮件 ? 程序员通常不喜欢你那些花里胡哨的邮件——比如粉红的标题、粗体的HTML格式的邮件内容、并且还内嵌图片。他们喜欢的是简洁命令的纯文字表...

37010
来自专栏blackpiglet

代码角度分析《旅行青蛙》:一

  17 年春节前,《旅行青蛙》火的不行,反应慢一拍的我最近才开始迷上这个游戏。最近我的青蛙出去旅行不知所踪好几天了,作为一个不甘心当“佛系青年”的程序员,我想...

673
来自专栏程序员宝库

前端新手程序员不知道的 20个小技巧

16.你遇到的问题,大多数人都遇到过,并且网上都有完整的解决方案。你找不到,只是你懒得去找。

1157
来自专栏顶级程序员

Python 2要凉了,RedHat也正式宣布弃坑

源 / 顶级程序员 文 / An先生 (RedHat 官网截图) 近日,Red Hat 宣布,它的企业级发行版 RHEL 下个大版本将用 Python...

3518
来自专栏知晓程序

微信可发送定时消息,朋友圈打通明星点赞功能? | 晓技巧

1332
来自专栏程序人生

如何阅读一份代码?

上文谈到了像读书一样阅读源码的重要性,今天谈谈如何阅读一份代码。我所谓的一份代码,其范围可能从几千行到数万行,有时甚至可多达数十万行。这些代码作为一个有机体,共...

3347
来自专栏企鹅号快讯

《Mac OS系统架构》程序员内功心法索引

对这幅图的探索已经是3天了~ 它像极了一份神功秘籍 在这份秘籍的指引下 似乎冥冥之中为你的体内注入绵绵深厚的内力 在程序员大神之路的漫长探索过程中 这张图的出现...

1999
来自专栏知晓程序

90% 的直男约会败于尬撩,另外的 10% 都在用这个小程序

打开「开撩神器」小程序,进入主界面,系统会自动展示各种形式的模板,你可以根据自己的喜好,随心所「撩」,自由发挥。

751
来自专栏生信技能树

【直播】我的基因组67:clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf...

37410

扫码关注云+社区