【直播】我的基因组67:clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。而clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。

ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。

首先,我们去clinvar数据库的ftp里面找到数据库文件,然后下载,最新版记录了238310 个位点,如下:

数据库下载方式见论坛,我用的是shell命令:

数据库的详细说明,也自己去论坛里面看吧,我就不赘述啦。http://www.biotrainee.com/thread-991-1-1.html (阅读原文即可)

打开那个文件,可以看到里面其实就是有dbSNP数据库的ID了,因为能被clinvar数据库收录的,必然已经在dbSNP数据库,稍微懂点脚本的都知道,完全没必要用软件来注释了,就把在clinvar数据库里面的rsID挑出来了即可。

如果你不懂如何写程序,那么就用annovar或者snpeff这样的傻瓜式软件吧,稍微看点说明书也很容易学会。必然annovar注释会挑出CLINSIG CLNDBN CLNACC CLNDSDB CLNDSDBID这些重要的记录,放在*dropped文件里面,打开看就可以啦。

比较重要的信息如下:

CLNSIG=1;

CLNACC=RCV000319204.1|RCV000371607.1;

CLNALLE=1;

CLNDBN=Benign_familial_neonatal_seizures|Benign_Neonatal_Epilepsy;

CLNDSDB=MedGen:Orphanet|MedGen;

CLNDSDBID=C2930911:ORPHA1949|CN239199;

其中CLNDSDB指示着该记录来源的数据库,因为clinvar也只是一个二次整合的数据库。CLNDSDBID记录着来源数据库的来源ID,CLNDBN比较重要,是描述疾病的。

最重要的就是CLNSIG,在数据库的头文件可以看到信息描述如下:

##INFO=<ID=CLNSIG,Number=.,Type=String,Description="Variant Clinical Significance, 0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other">

先随便看一个benign的变异吧,就是无害的,发现了rs1801249指到了Wilson_disease这货,我压根就不认识~

老规矩,谷歌一下,勉强了解了它,但是,我真的没有这个病呀~~~

https://www.niddk.nih.gov/health-information/liver-disease/wilson-disease

https://en.wikipedia.org/wiki/Wilson%27s_disease

http://www.baike.com/wiki/WILSON+%E6%B0%8F%E7%97%85

威尔逊氏病(Wilsonsdisease,WD),是一种常染色体隐形遗传的铜代谢缺陷病,其基因定位于13q14.3,编码1个P型ATP酶,此酶参与铜跨膜转运的代谢过程。目前研究多认为由于WD基因突变使其功能降低或丧失而导致铜代谢异常,肝合成铜蓝蛋白速度减慢,胆汁排铜明显减少,铜沉积于肝、脑、肾、角膜、血细胞和关节等组织中,引起了相应脏器损害的临床症状。

而且最近的文献发现这个位点阿兹海默跟有关:

https://www.ncbi.nlm.nih.gov/pubmed/23830383

The data also showed that the genotype frequency distribution of the ATP7B c.1366 G greater than C polymorphism (rs1801244, Val456Leu) differed significantly between the AD patients and the normal subjects (p = 0.012).

好吧,你们说什么就是什么吧,反正我才26岁,神马阿兹海默的老年疾病我现在没办法反驳你。

然后有查了一下snp相关的数据,比如healthcoach7,还有pharmgkb,snpedia。

https://www.healthcoach7.com/snp/rs1801249/

https://www.pharmgkb.org/variant/PA166154703

当然,最重要的是去clinvar数据库的网站上面查看:

其实benign本身不用太认真看的。

一般来说,被注释到Pathogenic的变异是值得重点关注的,我的里面有32个,就这么几个,我想已经用不着生物信息学工程师了,可以直接去excel表格里面自己一个个慢慢看了,然后对着文献自己尝试解读一下。当然,即使是clinvar里面记录的有害突变,你不幸运获得了,也不用害怕。

比如我随意扫了一眼我的32个有害突变,比如这个中间枫糖浆尿病2型

https://www.snpedia.com/index.php/Rs12021720

https://www.ncbi.nlm.nih.gov/clinvar/RCV000012727/

还有rs4774518预示着的Thyroglobulin synthesis defect,虽然也是有害突变,但是星级评分系统也是0级。

我已经没有心情看下去了,里面还有好几个癌症呀,还有各种奇奇怪怪的疾病相关突变。

https://omim.org/entry/274900

https://ghr.nlm.nih.gov/condition/niemann-pick-disease

https://en.wikipedia.org/wiki/Spinocerebellar_ataxia

说老实话,我现在还不是很理解这些数据库证据与患病直接的联系到底是什么关系!

最后,对于每个位点,还可以去看一看gnomAD的人群携带率,如果有纯和携带,这个致病性要打个问号的~

http://www.biotrainee.com/thread-991-1-1.html

http://annovar.openbioinformatics.org/en/latest/user-guide/filter/

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-04-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

“优雅”的Linux漏洞:用罕见方式绕过ASLR和DEP保护机制

最近国外研究人员公布的一段exp代码能够在打完补丁的Fedora等Linux系统上进行drive-by攻击,从而安装键盘记录器、后门和其他恶意软件。 这次的ex...

1977
来自专栏阮一峰的网络日志

BT下载的未来

1. 前天,世界最大BT下载网站"海盗湾"(thepiratebay.org),在官方网志上宣布,永久关闭Tracker服务器: TPB has decide...

3336
来自专栏FreeBuf

50元制作PS2键盘无线监控装置

0x00 什么是Arduino Arduino实际上就是一种开发板,将微控制器和必需的元件集成在一块电路板上,扩展出完善的接口和针脚,就可以接上各种各样...

1795
来自专栏Android 开发者

像奥利奥一样的双重安全措施,尽在 Android Oreo

1823
来自专栏生信技能树

【直播】我的基因组64:clinvar数据库

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf...

4005
来自专栏北京马哥教育

上班第一天,一个合格的运维应该做什么?

运维行业正在变革,推荐阅读:30万年薪Linux运维工程师成长魔法 作为一名运维工程师,如果你在春节放假期间没有被报警电话和邮件吵醒过,那说明你在放假前的准备...

3528
来自专栏FreeBuf

从一次攻防平台搭建浅谈企业网络安全建设

本篇文章涉及到的知识点包括:IDS/IPS/防火墙的区别与部署位置;镜像端口、堡垒机的位置和注意细节;ACL访问控制列表和端口安全、VLAN安全,以及靶场以及日...

3763
来自专栏FreeBuf

CIA Vault7最新泄露文档:樱花盛开

多份维基解密于2017年6月15日披露的文件显示,CIA早在2006年便开始了一项名为“樱花盛开”(Cherry Blossom)的项目。曝光的文档资料详实,图...

2736
来自专栏小车博客

VPS常用的缩写、术语、谐音、黑话等

鸡、小鸡、大盘鸡都是什么鸡?石头盘、小水管、吃灰、探针、超兽又是什么鬼?邻居连累我被墙了?梯子爬墙?这都是什么关系?现在一起来看看这些术语是啥意思吧

1273
来自专栏*坤的Blog

DNS线路

1.2K5

扫码关注云+社区