前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何通过可视化解读GWAS分析结果

如何通过可视化解读GWAS分析结果

作者头像
邓飞
发布2024-03-13 12:57:17
1250
发布2024-03-13 12:57:17
举报

最近有老师问GWAS可视化的内容,GWAS分析结果没有曼哈顿图和QQ图是没有灵魂的,这两个图究竟怎么看呢,下面介绍一下:

大家好,我是邓飞,GWAS分析应该是可视化最靓的仔了,五颜六色,形状各异,真叫人眼花缭乱,看了又看。

GWAS最直观的结果,就是曼哈顿图,看一下GWAS分析是否理想,就是看有没有点超过了阈值线,类似鲤鱼跃龙门,我们希望它有,但也不希望它太多!

除了曼哈顿图,还有QQ图,它主要是从模型的角度看一下显著位点是否是假阳性。

显著性的位点,怎么能缺少LDblock(LDblock绘制连锁不平衡和单体型图),倒三角缺不了的!

有时候还会绘制LD衰减图(LD衰减图绘制--PopLDdecay)。

做完GWAS只给出显著性位点和注释基因的汇总统计表格,没有几个绚丽的图就不好意思出来见人,如何绘制曼哈顿图和QQ图?(颜值即正义 | 只知道qqman而不知道cmplot是不专业的),还可以将多个性状或者多个环境的曼哈顿图合并(多性状GWAS结果如何合并做曼哈顿图!

图好做,但是怎么看?怎么解读?这篇文章介绍一下!

QQ图和曼哈顿图是嘛意思?

GWAS分析中,会有一个结果,每个SNP的P值,可以根据这个值,以及SNP的染色体和物理位置,进行作图。

常见的图是QQ图和曼哈顿图。比如:

什么是QQ图

QQ图,全称quantile-quantile plot,又称为「分位图」它是判断模型假阳性、假阴性的重要指标。

「为何要用QQ图来表示GWAS的结果呢?」

一般,我们认为,P值达到显著性,那就说明不同的SNP分型,对表型数据是有显著性影响的,但是在GWAS中,我们将显著的原因分为两个部分:

❝第一是自然选择(Selection),我这里所说的自然选择不仅指达尔文在《进化论》中所描述的物竞天择,还指所有对物种适应性有影响作用的“力量”,比如高辐射环境、疾病、病毒等,这也是我们在GWAS研究中真正关心的突变; 第二是遗传漂变(genetics drift),它是一种比较随机的基因组突变而且数量也不少,虽然也是物种演化的一种重要力量,但是由于它的突变都比较随机,目前认为它与环境的变迁没有必然联系,但也会在某些时候,有些随机的突变带来了生存优势,便会在种群中显示出它的作用。但绝大多数情况下,对于已经在群体中稳定存在的性状而言,并不认为它们有明显的作用,所以GWAS研究是不关心这一类突变的,我们要把它们全部排除掉。如果你发现自己得到的结果全部是这样的变异的话,那么,应该重新考虑一下如何重新设计这个分析,包括是否应该增加样本量以及想办法排除技术错误以及干扰因素等方面,或者也可能它们之间就是没有关系。 --https://zhuanlan.zhihu.com/p/59767114,知乎,碱基矿工 ❞

第一个部分,是由于突变导致的表型变异,比如AA变异了AT或者TT,导致产奶量增加,AA比如是10Kg,AT是15Kg,TT是20Kg,而且达到极显著水平,我们可以认为该突变导致产奶量变化,是我们关注的位点或者基因。GWAS的目的就是找到这样的位点,进而找到这样的基因。

第二个部分,是随机遗传漂变,它显示的统计显著性只是偶然,并不是该位点真的影响表型值。随机漂变,是随机在染色体上变化,它符合均匀分布,所以一定范围内有一定的概率。这些位点,是我们需要排除的。

QQ图的x坐标是均匀分布的值(理论值),经过-log10转换了。QQ图的y坐标实际的P值(观测值),经过-log10转换了。

「如果所谓的变异都是遗传漂变引起的:」

那就是这样一个图:横坐标和纵坐标都是在一条直线上,他们是完全一致的,因为X坐标是模拟的均匀分布的P值,而Y坐标是真实的P值,它与X一致,就说明它的分布也是均匀分布的,那我们就可以认为它是随机漂变的产物。

「如果所谓的变异都是遗传漂变引起+真实变异引起的:」

那它的图应该是这样的:刚开始的位点,比如-log10在3之前,都是和均匀分布是一致的,是随机漂变导致的。在大于3之后,均匀分布还是在直线上,但是由于随机漂变+真实位点的存在,开始偏离直线,并且上翘,这些上翘的位点就是我们关注的位点。

所以,好的GWAS分析,有结果的QQ图,都是前期在直线上,后面上翘。有点翘的QQ图才是好的QQ图。

什么是曼哈顿图

首先,曼哈顿是一个地名,是这样的:

因为建筑高低错落有致,我们将GWAS中不同染色体表示不同的位置,将不同SNP的P值比作不同的建筑,就会有种曼哈顿夜景的感觉:

「好的曼哈顿图:」

GWAS分析中,原理就是SNP位点和控制性状的基因存在LD状态,即SNP的分型可以代表基因的不同分型,所以,真实的显著位点应该是在基因两侧分布的,有一个上升和下降的趋势,比如这样的图:

「坏的曼哈顿图:」

只有孤零零的一个点,周围没有显著的点,这很有可能是假阳性,因为GWAS分析和培育品种是类似的:一出出一窝!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • QQ图和曼哈顿图是嘛意思?
    • 什么是QQ图
      • 什么是曼哈顿图
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档