前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >体验impute.me基因检测分析结果

体验impute.me基因检测分析结果

作者头像
用户1075469
发布2020-03-03 11:47:20
7573
发布2020-03-03 11:47:20
举报
文章被收录于专栏:科技记者科技记者

本来以为这是一个小应用,试用完后给我的感受是这是一个基因组的应用商店,它涵盖了无数的研究结果,一个大大的赞!

impute.me是个可以让你DIY分析你的基因组的网站,我的基因检测结果是没有提供impute(基因型填充)的,这个网站方便地进行了基因型填充,还有各个基因特征的预测,赞一个!我前面也介绍过,这个网站是开源的,使用R的shiny搭建。当然,这个基因型填 充是基于千人基因组计划进行的,数据结果估计不会像国内测了几十万人的准确。这里还有一个小插曲,前面我的原始结果并不是标准的23andme的,上传时并没有识别,作者还热心地联系我帮助我完成了分析,一并表示感谢。

先看一下这个基因型填充结果

这个基因型填充结果压缩包有295兆,解压后有几个G之巨,仔细看了下是各个染色体分开的文件,每个染色体几十兆的样子。那么就统计下一共有多少位点吧,总共有37,249,181,有3700万之多。。。

代码语言:javascript
复制
ls ./| while read id;do wc -l $id;done2840214 id_634230d20_chr1.simple_format.txt
1779626 id_634230d20_chr10.simple_format.txt
1792749 id_634230d20_chr11.simple_format.txt
1725145 id_634230d20_chr12.simple_format.txt
1296116 id_634230d20_chr13.simple_format.txt
1184998 id_634230d20_chr14.simple_format.txt
1064439 id_634230d20_chr15.simple_format.txt
1144875 id_634230d20_chr16.simple_format.txt
983628 id_634230d20_chr17.simple_format.txt
1028291 id_634230d20_chr18.simple_format.txt
759762 id_634230d20_chr19.simple_format.txt
3132121 id_634230d20_chr2.simple_format.txt
808199 id_634230d20_chr20.simple_format.txt
485343 id_634230d20_chr21.simple_format.txt
462904 id_634230d20_chr22.simple_format.txt
2613454 id_634230d20_chr3.simple_format.txt
2581152 id_634230d20_chr4.simple_format.txt
2394303 id_634230d20_chr5.simple_format.txt
2290440 id_634230d20_chr6.simple_format.txt
2089551 id_634230d20_chr7.simple_format.txt
2072014 id_634230d20_chr8.simple_format.txt
1561593 id_634230d20_chr9.simple_format.txt
1158264 id_634230d20_chrX.simple_format.txt

2.看看各个分析项目

除了基因型填充,一共有12个类别,里面有各个小类,那我就简单看下结果。

2.1 复杂疾病(Complex diseases: The GWAS Calculator)

竟然有930多项,真的感觉快把GWAS的项目搬过来了,看得出工作量之巨大。 每个项目的模式是,先介绍下参考了哪篇文献,使用了多少个SNP,然后这篇文献的情况,研究了多少个体,然后告诉你你的评估结果,偏高还是偏低。后面以表格的形式列出你的snp位点信息。最后介绍下方法学:

输入数据是从几个在线科学来源下载的,包括PubMed、GWAS中心和GWAS Catalog。然后,通过计算风险等位基因乘以效应大小(OR或Beta)来计算每个SNP的得分。以此为中心,使普通人群的平均得分为零(“人口标准化”)。这意味着,如果一个人是一个非常罕见的风险变体的纯合子,这将导致一个非常高的Z评分,相反,如果SNP是常见的,Z评分将不那么极端。这些标准化的SNP评分之和被计算为一个性状范围的遗传风险评分(GRS)。此外,还对GRS进行了定标,使一般人群的标准差为1(单位方差),有效地使得分成为Z-分值。所有缩放都是使用每个SNP的次要等位基因频率(MAF)进行的,这是从1000个基因组项目v3中提取的,使用东亚频率分布,这给出了这个多基因风险评分的族裔特定标准偏差为0.13,当得出特征Z评分-0.89时,考虑到了这一点。计算的更多细节可以在源代码中找到。 这种方法的优点是它不需要比MAF、效应大小和基因型更多的数据输入。这使得计算相当容易实现。要对此理论分布进行双重检查,请打开“高级选项”部分中的“打印实际分布”选项。在大多数情况下,理论分布和实际分布是相同的,但如果不是这样,则可能表明存在一些问题,如高度种族特有的影响。 另一个潜在的问题是,在某些情况下,术语遗传风险评分可能不清楚。例如,就高密度脂蛋白胆固醇或维生素水平而言,目前尚不清楚较高的数值是否与风险有关。再次建议参考GWAS的原始出版物。此外,不是滚动这里的所有条目,然后检查精确医学模块-基于这一信息,但给出了一个更有针对性和范围相关的分数视图。

这些项目实在是太多了,多的我只能把这些文字爬下来拖到网页翻译来解决,竟然一次还搞定不了,告诉我翻译文字超过5000,不能一起翻译完,分了四五次之多。。。一并放在最后了。

英国生物银行

最近发表了一项针对约20万英国居民的研究,称为英国生物银行。该模块允许计算任何已发表的性状的遗传风险评分。

再来看看第二个项目,同样有惊人地数不清的数目,竟然有339个项目之多,同样覆盖了好多不同的领域,很多还是各种生活特征,充满了趣味性的感觉。同样还是和GWAS计算器一样的,是根据每一篇文章来的,后面是附上了各个位点和等位基因频率等相关系数。 有兴趣的话可以仔细搜索一下这些项目有没有感兴趣的,来分析一波。 太多了,还是附在最后的合适。。。

身体外观

外观特征,如身高和头发颜色高度可遗传,您的基因组可以提供线索。当然,最好的来源是镜子。 尽管如此,对儿童进行分析以提供他们最终身高和外表的估计值可能会很有趣。将来可能会提供其他特征,如眼睛和肤色,甚至是面部形状。然而,事实是这些特征更难以预测,因此遗传分析提供了更有限的益处。因此,该模块专注于高度可遗传的高度,以及目前更多猜测的头发颜色。

身体外观 垂直条表示您的遗传高度。彩色云显示了来自一大群人的真实高度和遗传高度分数的比较。从这两个你可以找到你估计的实际高度。

细节:垂直条显示您在X轴上的遗传高度。遗传高度计算为Z得分,其基本上是指高于或低于总体平均值的标准偏差的数量。总体平均值显示为背景颜色涂片,并且根据当前最大高度-GWAS。如果显示较小的点,则它们代表已自愿提供其自身高度信息的先前用户。在可能的情况下,数据会针对性别进行更正 – 遗憾的是,一些数据提供者不包括性染色体的测量数据。 头发颜色估计 该图显示了您估计的遗传毛发颜色。

圆圈显示您估计的基因头发颜色。请考虑提供自己的头发颜色 – 这些算法可以使用更好的调整,例如我们真的需要听到红头发的人。

祖源

有几种方法可以调查基于种族的种族,其中很多都围绕着分配祖国的百分比。这个种族模块采用了一种不同但更简单的方法。从大型1000基因组项目开始,它确定了大多数种族依赖的~1000个SNP。然后,模块对1000个基因组 – 项目样本中的每一个以及您的样本执行聚类分析(’PCA’)。

这在我们的分析方法中特别有用,因为该信息可用于种族 – 纠正其他模块中的计算,例如复杂的疾病模块。然后,您可以调查您的基因组最相似的已知种族。

关于祖源,我还做过一些学习笔记,晚会放在这:

您的基因组在结果图中显示为略大的黑点,您可能需要放大才能看到它。

药物反应

这是对药物反应SNP的系统方法的测试。大多数已知的药物反应相关遗传学涉及肝酶(例如CYP2C19)及其药物代谢物的分解。这些已经在其他地方很好地表征 该模块的重点是整合肝酶以外的系统多SNP谱,并提供药物反应的估计。

为了说明这是如何工作的,该模块显示了对于第一和第二表对应于每个药物水平和每个SNP水平的许多药物反应预测的计算。第一个表格尽可能地总结了每种药物的计算方法。如果可能,以与复杂疾病中描述的相同方式计算Z分数模块。如果不是,则表示为“未计算”。在这种情况下,有必要查看第二个表,以便从输入研究中对各个SNP进行评论。Z-score方法从许多SNP获取信息,因此可以被认为是更多的,当然取决于潜在的科学研究。 有这么几个项目,分别对应了几个药物,这些应该是科学上研究比较明确的,一般测的项目全的基因检测公司都会有的项目。 急性冠状动脉综合征-氯吡格雷,急性淋巴细胞白血病-门冬酰胺酶-氨甲喋呤,酒依赖-纳曲酮,过敏-ige致敏,细菌感染-大环内酯类,噪郁症-锂,乳腺癌-他莫昔芬,慢性淋巴细胞白血病-氟达拉滨加环磷酰胺,慢性阻塞性肺疾病-bronchodilator,冠状动脉心脏疾病-氯吡格雷-他汀类药物,乙型肝炎病毒(HBV)-pegylated interferon,丙型肝炎病毒(HCV)-干扰素,海洛因依赖-美沙酮,HIV-阿巴卡韦,高血压-阿替洛尔-氯沙坦-噻嗪类,麻疹、腮腺炎和风疹-疫苗,多发性骨髓瘤-双膦酸盐,多发性硬化症-帕松,银屑病-抗TNF,肾细胞癌-帕唑帕尼,精神分裂症-氯氮平,2型糖尿病-胰岛素-二甲双胍,维生素E缺乏症-维他命E。

罕见疾病

该表显示了已知赋予一系列严重遗传病症的变体。它们都是相当罕见的条件。然而,稍微更常见的是成为这些条件的载体的情况。作为携带者意味着一个人有一份致病等位基因的副本,但不会受到影响,因为这种情况只有在两种副本属于引起疾病的类型时才会出现。

根据这个分析,你应该特别注意遗传的条件:家族性地中海热(南方人中比较常见的,携带这个基因的人对疟疾的抗性比较高)。

但请注意,即使在插补后,79%的查询SNP在您的数据中也不可用。这是因为这些引起罕见疾病的SNP难以估算,并且只有来自23andme的微阵列类型具有定制修改以便测量它们。

基因突变

基因组中的大多数SNP实际上并未在基因中发现:它们是“基因间的”。然而,当谈论基因突变时,正如在流行媒体中所做的那样,通常意思是改变基因序列的SNP。由于整个演化过程中的选择压力,这些都是罕见的。此外,它们通常是使用DNA测序技术发现罕见疾病原因的科学研究的焦点。然而,有趣的是,我们中的许多人实际上拥有这些“基因破坏”SNP,但仍然是完全健康的。该站点使用的插补技术使得有机会仅基于基因分型微阵列结果来识别其中的一些。如果您将ID代码提供给此模块,则会显示所有测量的错义和无意义突变的表格。

对表格的解释可以通过多种方式完成,与其他模块不同,这并不能给出“一个真正的答案”。一种方法是搜索SNP,其中您有一个或两个非常见等位基因拷贝,然后使用其他资源(如dbSnp或ExAC)调查结果。但请注意,’common’的定义非常依赖于种族:在这个浏览器中,常见的仅仅是impute.me-users中最常见的等位基因。但是,建议检查例如1000个基因组浏览器中的种族分布。提供的另一个帮助是polyphen和SIFT – 分数,可以指示结果。最终,这样做的目的是满足人们对功能基因状态的好奇心。如果您碰巧发现您携带两份完全有害的突变(无义突变),但在其他方面感觉健康,请随时与我们联系。通过健康,尽管有一个特定的基因断裂,你将有助于完成我们对基因及其工作方式的看法。

结果是一共有显示8,317个,实在好多,当然,如果进行全基因组测序的话会有更多的snp,绝大部分应该是没有意义的。

BRCA

没错,这就是安吉-朱莉测的那个BRCA,这可是臭名昭著的能导致乳腺和卵巢的癌症的基因突变。当然,这里是基因型填充出来的,可能有位点存在准确性问题。当然,大部分人是不会有致病突变的。

已经记录了BRCA1和BRCA2基因中的数千个突变。23andMe报告了三种突变的数据,这三种突变占了遗传性乳腺癌的大部分,但这两种基因的其他可能突变并未包括在23andme报告中。许多只能通过测序检测,例如来自无数的遗传学。然而,通过插补分析可以获得数十种额外可能的感兴趣突变。以下列出了直接测量的三个23andme-SNP以及两个基因中错误或无意义的所有其他推测SNP的基因型。对于解释,我们建议您阅读更多关于polyphen,sift-scores和clinvar的信息。

如果clinvar被指示为致病性和在您的基因组中测量SNP 并且您的基因型不是基因型表示正常,那么这表明存在潜在问题。默认情况下,列表根据clinvar变量排序。

政治倾向

根据以前用户自愿提供自己政治观点的现有意见,我们可以计算出遗传学没有任何重大的政治意见影响。当校正年龄和性别(P = 0.18)和0.048%未校正时(P = 0.18),遗传学解释的政治观点变异百分比为0.95%。Spearman等级相关性给出rho = 0.046(P = 0.0052),这是一个相当低的关联分数。请注意,由于极端的遗传价值(可能是种族效应),未显示287个样本。但它们包含在统计数据中。

方法 使用Hatemi等人的数据计算遗传风险评分。使用的方法与针对复杂疾病模块描述的方法相同。

Kandinskyfy你的基因组

从基因组数据中创造独特的艺术并不是一个新想法。但是,我见过提供此类服务的大多数地方实际上只使用很少的SNP。在这个模块中,所有与特质相关的SNP结合起来,使用kandinsky R-package中的漂亮代码,以Wassily Kandinsky的风格创造出一种真正独特的艺术品。 您可能会问这幅图是否能够揭示您对基因组和内在自我的更深入了解?也许它确实如此,也许它没有。无论哪种方式 – 它都保证是仅从您的基因组中获得的独特绘图。您可以打印并将其用作艺术品。

这我可以把这个理解为人工智能了,哈哈,当然这只是计算机作图而已。

运动相关

这些SNP是最着名的运动SNP。他们都背后有很好的支持。如果你想使用这些发现,花一些时间了解比值比的概念是值得的。这是因为这些研究的效果大小通常以例如优势比’1.3’的每等位基因给出,作为精英运动员的机会。这意味着,有一种被精英的短跑选手,每个等位基因1.3倍的几率提高-但它也意味着一批精英的短跑运动员中,很大一部分将不会一定冲刺基因型。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技记者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 先看一下这个基因型填充结果
  • 2.看看各个分析项目
    • 2.1 复杂疾病(Complex diseases: The GWAS Calculator)
    • 英国生物银行
    • 身体外观
    • 祖源
    • 药物反应
    • 罕见疾病
    • 基因突变
    • BRCA
    • 政治倾向
    • Kandinskyfy你的基因组
    • 运动相关
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档