在基因组遗传变异的研究方面,有一个方式叫做单核苷酸多态性 (single nucleotide polymorphism, SNP)。关于 SNP 的含义的话。下面下面这个视频进行了一定的解释。有需要了解的可以看一眼。
在了解了 SNP 是什么之后,同时也需要简单的了解一下关于 SNP 的命名,这样也方便我们在使用一些 SNP相关数据库的时候知道输入的内容是什么。
rs 号是对于 SNP 的最常见的命名方式。这个是 NCBI 通过一些大规模的基因组测序发现的了大量的 SNP,为了对这些 SNP 进行统一的管理就对其进行了逐一的编号。因此几乎之前发现的 SNP 基本上都有一个 RS 号。同时在 NCBI 旗下的 SNP 数据库可以对 SNP 进行直接的检索
在这个 SNP 数据库当中,可以输入基因/RS 号码进行直接检索。例如检索:rs1421085 。就可以知道 SNP 具体的信息了。
上面这种属于 SNP 的官方编码。对于 SNP 而言,只要是位于染色体上。每一个核苷酸就会有相对应的染色体位置。例如chr1: 109817590 就代表在一号染色体上的 109817590 位的这个 SNP。
在刚刚我们使用 SNP 数据库查询 SNP 的时候。里面涉及到了一些查询的内容。这里就对查询的内容结果进行一下简单的介绍。我们查询一个 SNP 的时候得到的基本信息是这样的
对于每一个 SNP 在染色体上除了基本的染色体位置,还包括这个 SNP 和基因的关系,以及这个 SNP 是如何发生改变了。在 SNP 数据库当中,我们可以看到 👆 那个 SNP 主要是在FTO 的内含子上发生从 T 变成 C 的改变
很多遗传性疾病是和基因组变异是有关系的。基于之前的研究也发现了很多 SNP 和疾病的相关性。在ClinVar数据库当中,我们可以了解这个 SNP 和临床疾病的相关性。经过查询发现这个 SNP 和肥胖症是有关的。
每一个 SNP 的发生频率都是不一样的。如果一个 SNP 发生频率很低的话,那么对于人群研究而言,可能检测完发现都是一个基因型,那就没有办法进行后续的研究了。所以在研究 SNP 之前,需要查看一下这个 SNP 的改变频率。
SNP 和疾病的关系从机制层面而言的话,可能是这个 SNP 影响一个或者多个基因来发生作用的。其中和 SNP 有关的一个专业性术语就是数量性状座位 (quantitative trait locus, QTL)。
关于QTL,就是一种把表型和基因的分子标记联合起来分析的统计方法。通过QTL我们可以了解是哪些基因组的标记来影响表型的变化。其中分析标记的最常用的就是单核苷酸多肽(SNP)。而表型的话,可以是很多种类型。这个就延伸出很多种的xQTL。例如eQTL,就是把基因的表达当作表型,来分析样本的SNP对于基因表达的影响。而meQTL就是把甲基化状态看作表型,来分析样本的SNP对于甲基化的影响。
所以简单来说QTL是统计方法。而xQTL就是用QTL的统计方法来分析SNP对于x的影响。
cis 和 trans 的定义主要还是取决于相对位置而言的。拿 eQTL 而言的话,如果一个 SNP 对于这个基因 TSS 区域的上下游 10M 范围内的话,我们认为这个 SNP 的变化可以直接影响这个基因的表达,所以称之为 cis-eQTL。如果在 1M 范围以外的话,则有可能这个 SNP 的变化有可能是影响别的基因进而可以影响这个基因的变化。我们称之为 trans-eQTLs。
image-20200516215844142
除了 QTL 之外,由于 SNP 是主要影响的是核苷酸的改变。所以和核苷酸有关的变化都有可能是 SNP 的调控机制。比如如果 SNP 是位于蛋白编码区,那么 SNP 的改变就可能导致编码的蛋白不同。如果 SNP 是位于内含子区,那么就可能影响可变剪切调控。如果 SNP 位于启动子区则可能也影响转录因子调控等等
在人体研究方面, SNP 的研究可能在10年左右的时候可能是热点。目前来看的话,相对来说也是在逐年降低的。尤其是到21年和20年相比。少了近一半。