DNA 甲基化作为重要的表观遗传学的标记,能够调控基因的表达,在生长发育和疾病相关研究领域都有着重要意义。测定甲基化的手段有很多,芯片作为一种成熟的手段,其稳定性,可重复性以及性价比,使得在DNA甲基化研究领域芯片占据了半壁江山。
对于human 来说,目前主流的DNA甲基化芯片有450K 和 850K 两种,都是illumina 公司研发的。这里的450K
和 850K
指的是芯片上探针的数量,对应可以检测的甲基化位点个数。
在GEO 数据库中,每种芯片都有对应的GPL 编号, 450K 芯片的链接如下:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL13534
850K 芯片的链接如下:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21145
打开上面的链接,可以看到对应芯片的详细信息,我们来看下每种芯片探针的数量
从具体的探针数目也可以看出,450K
和 850K
是1个约数,用来表明探针的数量,覆盖的甲基化位点的个数。
探针是以甲基化位点为单位的,每个探针对应检测一个甲基化位点。为了能够区分甲基化位点和非甲基化位点,在450K 和 850K中,有两种类型的探针,分别叫做I 型探针和 II 型探针。示意图如下
对于亚硫酸氢盐处理的DNA ,非甲基化的C会变成T , 而甲基化的C不会变。 对于I 型探针而言,有两种序列,专业名词叫做bead type, 其中Unmethylated bead type 用来和非甲基化的C杂交,Methylated bead type 用来和甲基化的C杂交。
下面是450K 上一个 I 型探针的示例:
ID cg00050873
AlleleA_ProbeSeq ACAAAAAAACAACACACAACTATAATAATTTTTAAAATAAATAAACCCCA
AlleleB_ProbeSeq ACGAAAAAACAACGCACAACTATAATAATTTTTAAAATAAATAAACCCCG
可以看到两种bead type 只有末端最后1个碱基不同,A 碱基用来杂交非甲基化的C, G碱基用来杂交甲基化的C。
对于II 型探针而言,设计的比较巧妙,它只需要1个bead type, 探针只涉及到甲基化位点的前一个碱基,在DNA 链的延伸阶段,根据延伸的碱基是A 还是 G , 从而判断是甲基化的C 还是非甲基化的C。
下面是450K 上一个II 型探针的示例:
ID cg00035864
AlleleA_ProbeSeq AAAACACTAACAATCTTATCCACATAAACCCTTAAATTTATCTCAAATT
可以看到只有1种bead type。
450K
和850K
两种,这两个数字代表覆盖到的甲基化位点的个数,是一个约数;