【直播】我的基因组 38:我得了艾滋病?我是暴躁狂?

请原谅我这次当了标题党,本题应该是,把vcf格式的变异文件注释上gwas的研究结果

这个同样是为了丰富我们的variation文件,加强我们队每个变异位点的变异情况的理解。前面我们也刚刚提到一个GWAS研究rs2932989位点在我身上得到了验证,跟OME显著相关的。

GWAS数据里面收集这这些年来, 所有已经发表的GWAS研究的结果,最重要的结果,就是哪些位点与哪些性状是有联系的,而且联系的概率是多少。当然,这个主要是基于人群的,如果发表的研究主要是基于西方人种,对我这个黄皮肤可能参考价值不大。但是可以先做着试试看。

比如前面我们就提到了大批量的中国人群的GWAS研究表明,STAT4上的rs7574865和HLA-DQ的 rs9275319 --》中国人群中乙型肝炎病毒(HBV)相关肝细胞癌(HCC)遗传易感基因,我就自己分析了一下我的测序数据里面有没有这个变异,但是那样的分析只能一个个来,效率毕竟太低了,我得把GWAS研究全部肉眼看一遍,然后一个个去我的数据里面寻找,是否出现了该变异。

这时候,我们作为一个高效的数据分析人员,就得拿出不一样的能力,

http://snpeff.sourceforge.net/SnpSift.html#gwasCatalog

GWAS研究现状及资源下载 (http://www.bio-info-trainee.com/719.html)

但是,这个软件总是在这个分析要点上面报错,我很郁闷呀!其实这个我自己写一个脚本也可以做,但是重复造轮子不是很划算,而且保证正确性更耗时。但是作为一个一流的生信工程师,我当然不会在这样的阴沟里翻船呀,大不了换一个工具呗。反正snpEFF和ANNOVAR几乎在功能上面没有本质的区别。

生信必备技能之首,就是Google搜索啦,结果如下:

http://annovar.openbioinformatics.org/en/latest/user-guide/region/#identify-variants-reported-in-previously-published-gwas

自己看前面的帖子下载并且按照ANNOVAR咯,然后

~/biosoft/ANNOVAR/annovar/annotate_variation.pl -build hg19 -downdb gwasCatalog humandb/ ## 下载gwas数据库

~/biosoft/ANNOVAR/annovar/convert2annovar.pl -format vcf4old realign.vcf >realign.annovar

~/biosoft/ANNOVAR/annovar/annotate_variation.pl -regionanno -build hg19 -out ex1 -dbtype gwasCatalog realign.annovar humandb/

不知道为什么,annovar下载的是UCSC的gwas总结信息,比snpEFF下载的NCBI要多很多。

## 然后执行annovar的两个标准步骤就好了;注释好的文件就是 ex1.hg19_gwasCatalog,共11041行记录,这次真的吓到我了!

随便打开浏览了一下,我勒个去,扑面而来的都是各种疾病呀,居然还让我看到了这货:

gwasCatalog Name=AIDS progression 1 146560564 146560564 G A hom

纳尼!!!艾滋病????还是纯合突变!!!

这我果断不信呀!!!

这破工具注释结果页太简陋了,我打开gwas文件看了看:

1703 chr1 146560563 146560564 rs11239930 21502085 Troyer JL 2011-05-01 J Infect Dis Genome-wide association study implicates PARD3B-based AIDS restriction. AIDS progression 755 European ancestry seroconverter cases NA 1q21.1 NBPF14 rs11239930-? 0.58 2E-6 1.47 [NR] Affymetrix [700022] N

还好我英文不错,上面写的是这个突变有利于限制艾滋病的发展!某种意义上的超人!

感兴趣的可以查看原文:http://www.nature.com/ng/journal/v36/n6/full/ng1369.html

或去看看这个变异位点的详细信息:http://www.snpedia.com/index.php/Rs11239930

我总结了一下我的gwas注释结果:

cut -f 2 ex1.hg19_gwasCatalog |sort |uniq -c |sort -k1 -n -r |less

排在第一的赫然是,思覺失調症(Schizophrenia),精神疾病的一種。其特徵為患者出現異常的社會行為!(我表示一脸懵逼!)

我已经尽可能的不暴露自己的真实信息了,大家对这个注释结果有没有什么想法呢?

其实GWAS并不是以疾病风险因子为主,很多研究就是纯粹的探索一些表型,比如身高体重呀,跳高跳远呀,各种鬼扯的天赋基因都来自于此~

里面居然有58个位点是躁狂抑郁症Bipolar Disorder -(科学网—我们都是潜在的bipolar患者- 廖晓琳的博文http://blog.sciencenet.cn/blog-349936-584626.html )

克隆氏症(又名克羅恩氏症, Crohn's Disease ),慢性腸道炎的一種!

其余的我都不想翻译了,蓝瘦香菇!

而且,极端的不靠谱,我不否认这些研究结果里面有真实的信息,但是假阳性太多了,而且你们看我博客里面对于这类研究发表的杂志探索,就明白了。大部分是在plos ONE杂志上面发表的,那个神刊!!!

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

NFV性能优化——架构性并行加速算法思想

众所周知,NFV在很大程度上能够减低部署成本和运维成本,目前已经受到许多网络运营商的关注,有些运营商已经开始部署NFV的相关产品到自己的现有业务中。但是,NFV...

3235
来自专栏分子生物和分子模拟计算

利用Chimera进行简单快速的MD

872
来自专栏竹清助手

果拾网推荐高清图片资源

573
来自专栏AI研习社

如何配置一台适用于深度学习的工作站?

问题详情: 如何配置一台适用于深度学习的工作站? 刚买两块 Titan Z GPU 准备搞搞深度学习,结果原来的工作站功率不够,带不动,所以准备组装一台新工作站...

3538
来自专栏目标检测和深度学习

资源 | Texture:一个优雅的开源学术论文书写工具

机器之心整理 作者:思源 近日,Substance 在 GitHub 上开源了一个用于结构文本的文字处理工具 Texture,他们表示该工具像 LaTeX 一样...

33110
来自专栏逸鹏说道

水印第四版 ~ 非人水印(添加人脸识别)

说起这个人脸识别,还真有点缘分。记得逆天以前在学生时代参加创新大赛的时候,题目就是人脸识别打卡 解决别人替人打卡的问题,想想看,要是用微软的faceapi那还不...

2708
来自专栏生信技能树

用gnomDB数据库对个人vcf变异文件进行过滤

直播我的基因组前面的上游分析到此为止了,这里是一个分界线,经过孜孜不倦的探索挖掘我已经拿到了我个人基因组跟hg19参考基因组的全部差异位点,而且可以肯定方法学上...

3587
来自专栏Fundebug

想成为顶级开发者?你需要多练习!请收好这些资源

译者按: 其实我们国内也有很多经典案例,比如饿了么、豆瓣、知乎。同样是非常不错的锻炼项目。

1539
来自专栏AI科技评论

干货 | 如何配置一台适用于深度学习的工作站?

本文来源于王璋在知乎问题【如何配置一台适用于深度学习的工作站?】下的回答,AI科技评论获其授权转载。 问题详情 如何配置一台适用于深度学习的工作站? 刚买两块T...

44014
来自专栏互联网数据官iCDO

自助性BI工具:Zoho Reports

译者:严小鳙,iCDO翻译志愿者。 前言:今天我们将为大家介绍一款适合中小企业的自助BI工具。 它简单易学,当然同时也存在着局限性。接下来就让我们来详细解读。 ...

2587

扫描关注云+社区