在本章中,我们将研究构建基因组图谱的各种方法。基因组图谱就像任何其他类型的图谱一样,显示有趣特征和其他重要标志的位置。在基因组图谱中,这些特征和标志是基因和其他独特的 DNA 序列。尽管可以使用多种技术来绘制基因和其他 DNA 标志的图谱,但惯例是将基因组图谱绘制看作包含两种互补方法:
在探索遗传和物理图谱绘制所涉及的各种技术之前,我们必须首先了解为什么基因组图谱很重要。
基因组研究通常被视为生物研究中的一个现代、前沿领域,与 Gregor Mendel 等早期遗传学家的工作相去甚远。然而,用于构建基因组图谱的许多技术都直接基于 Mendel 和其他早期遗传学家的发现。因此,我们必须花几分钟时间来理解为什么基因组图谱绘制尽管是一种"老式"的生物学类型,但在基因组时代快节奏的研究中仍然很重要。
在基因组研究的早期,人们认为拥有详细的图谱将是组装基因组正确序列的必要先决条件。这是因为 DNA 测序有一个主要限制:即使使用最先进和最近引入的技术,也只能在单次实验中获得超过约 750 bp 的序列。这意味着长 DNA 分子的序列必须从一系列较短序列中构建。这是通过将分子分解成片段、确定每个片段的序列,并使用计算机搜索重叠部分并构建主序列来完成的(图 3.1)。这种霰弹枪方法是基因组测序的标准方法,但存在两个问题。其中第一个问题是,特别是对于较大的基因组,可能无法获得足够的短序列来产生整个基因组的连续 DNA 序列。相反,基因组序列可能由许多短片段组成,这些片段由代表基因组的部分的空白分隔,这些部分偶然地未被已获得的序列覆盖(图 3.2)。如果这些片段是未连接的,那么如何将它们正确地相对定位以构建基因组序列?答案是识别那些片段内位于基因组图谱上的特征。通过将片段锚定在图谱上,可以获得正确的基因组序列,即使该序列仍包含一些空白。
图 3.1 序列组装的霰弹枪方法。DNA 分子被分解成小片段,每个片段都被测序。通过搜索单个片段序列之间的重叠来组装主序列。
图 3.2 使用基因组图谱作为序列组装的辅助工具。基因组已被分解成短 DNA 片段,这些片段已通过霰弹枪方法测序。当序列被组装时,获得了一系列未连接的基因组片段。这些片段包含基因和其他序列特征(A、B、C 等),其在基因组中的位置已被绘制图谱。因此可以使用图谱来识别片段在基因组序列中的位置。
霰弹枪方法的第二个问题是,如果基因组包含重复的 DNA 序列,它可能导致错误。这些是长达数千碱基的序列,在基因组中的两个或更多位置重复。当包含重复 DNA 的基因组被分解成片段时,一些产生的片段将包含相同的序列基序。很容易重新组装这些序列,使得一对重复之间的 DNA 被遗漏,甚至将同一条染色体或不同染色体的两个完全分离的片段连接在一起(图 3.3A)。再次,基因组图谱能够避免这种类型的错误。如果重复区域任一侧的序列特征与基因组图谱匹配,那么该区域的序列已被正确组合。如果序列和图谱不匹配,那么就出了错误,必须修订组装(图 3.3B)。
(A) 重复 DNA 引起的序列组装错误 (B) 基因组图谱使错误得以识别 图 3.3 重复 DNA 可能引起的序列组装错误。(A) DNA 分子包含两个重复序列的拷贝。当检查霰弹枪序列时,两个片段似乎重叠,但一个片段包含一个重复的左手部分,另一个片段具有第二个重复的右手部分。未能识别这种组装错误将导致两个重复之间的 DNA 片段从主序列中遗漏。如果两个重复在不同的染色体上,那么这些染色体的序列将被错误地连接在一起。(B) 序列组装中的错误被识别出来,因为组装序列中绘制特征 (A、B、C 等) 的相对位置与基因组图谱中这些特征的正确位置不对应。
多年来,测序技术变得更加强大,能够从单个基因组产生越来越多的短序列,这意味着最终序列包含许多空白的可能性较小。同时,用于将这些序列组装成连续片段的计算机算法变得更加智能,现在能够识别组装何时到达重复 DNA 区域,并采取措施确保这些区域周围的序列不会被错误地组合在一起(第 4.2 节)。因此,图谱变得不那么重要了。许多原核生物基因组(相对较小且重复 DNA 很少)已经在没有参考图谱的情况下被测序,越来越多的真核生物基因组项目也在放弃它们。但是图谱作为基因组测序的辅助工具还没有完全冗余。今天最大的挑战之一是获得重要作物植物的基因组序列,其中许多具有大基因组且重复 DNA 含量很高。例如,大麦的基因组约为 5100 Mb(相比之下人类基因组为 3100 Mb),其中约 80% 是重复 DNA。面包小麦呈现出更大程度的困难,它是六倍体,意味着它有三个基因组,称为 A、B 和 D。每个约为 5500 Mb(总计为巨大的 16,500 Mb),具有与大麦相似的重复 DNA 含量。这些和其他重要作物的基因组项目仍在进行中,由于其基因组的复杂性,全面的图谱对于组装序列是必不可少的。当然,这是一个关键的研究领域:了解作物生物学的各个方面对于应对未来几十年的全球饥饿问题至关重要。
图谱作为基因组序列组装辅助工具可能变得不那么普遍相关,但它们在基因组学研究其他方面的价值并未减少。重要的是要认识到,完成基因组的核苷酸序列本身并不是目的。实际上,每个基因组只是一系列 A、C、G 和 T,弄清楚这些字母的顺序并不能告诉我们太多(如果有的话)关于基因组如何作为生物信息存储器发挥作用,或者如何使用该信息来指定所研究物种的特征。正如我们将在第 5 章和第 6 章中看到的,理解基因组序列的第一阶段是识别它包含的基因并为尽可能多的基因分配功能。许多用于分配功能的方法从基因开始并询问"这个基因做什么?"但相反的过程,即我们从功能开始并询问"哪个基因负责这个特征?"同样重要。正如我们将在第 6.4 节中看到的,基因组图谱对于回答第二个问题是必不可少的,因为最初使用的方法涉及识别所寻找基因的位置相对于图谱上已知位置的其他基因或序列特征。这个过程一直是,并将继续是识别导致囊性纤维化和乳腺癌等人类疾病的基因的关键。类似的方法用于识别基因组中可能分散的基因组,这些基因并不直接引起疾病,但赋予对该疾病不同程度的易感性。进一步的是,用于识别数量性状位点 (QTLs) 的方法,这些位点是基因组的区域,每个区域可能包含若干基因,控制诸如农场动物的产肉量和作物植物的抗虫性等可变性状。
基因组图谱在控制作物植物商业重要性状的基因和 QTLs 位置方面提供的信息也被用于旨在开发具有改良农业特性的新品种的育种计划中。这些育种计划通常产生数千株幼苗,由于遗传过程的随机性,它们的精确生物学特征是未知的。一株幼苗可能结合两个亲本的最佳特征,可能成为重要的新作物品种,或者它可能结合亲本的最不有用的特性,没有商业价值。作物育种者感兴趣的许多性状在植物生命周期的晚期表现出来——例如种子或果实产量——只能通过将每株幼苗培养到成熟来评估,这当然需要时间并需要大量的种植空间。我们将在第 18.4 节中看到一种称为标记辅助选择的方法如何使 DNA 筛查能够用于识别那些具有有益特征的幼苗,因此可以保留这些幼苗并丢弃其他不太有趣的幼苗。标记辅助选择只有在基因组图谱可用的情况下才可能进行。如果图谱可用,那么即使完整的基因组序列未知,也可以成功进行,就像大麦和小麦等作物的情况一样。
与任何类型的图谱一样,遗传图谱必须显示独特特征的位置。在地理图谱中,这些标记是可识别的景观组成部分,如河流、道路和建筑物。我们可以在遗传景观中使用什么标记?
最初的遗传图谱是在 20 世纪早期为果蝇等生物构建的,使用基因作为标记。要作为遗传标记有用,基因必须以至少两种形式或等位基因存在,每种都指定不同的表型,例如 Gregor Mendel 最初研究的豌豆植物中的高茎或矮茎。开始时,能够研究的基因只有那些通过视觉检查就能区分表型的基因。因此,例如,最初的果蝇图谱显示了体色、眼色、翅膀形状等基因的位置,所有这些表型只需用低倍显微镜或肉眼观察果蝇就可以看到。这种方法在早期是有效的,但遗传学家很快意识到,只有有限数量的视觉表型的遗传可以被研究,在许多情况下,它们的分析很复杂,因为单一表型可能受到多个基因的影响。例如,到 1922 年,已有 50 多个基因被绘制到四条果蝇染色体上,但其中九个基因是眼色基因。在后来的研究中,研究果蝇的遗传学家必须学会区分红色、淡红色、朱红色、石榴红色、肉红色、朱砂色、红宝石色、乌贼墨色、猩红色、粉红色、红衣主教色、酒红色、紫色或棕色的果蝇眼睛。为了使基因图谱更全面,有必要找到比视觉特征更具区别性和不那么复杂的特征。
答案是使用生物化学来区分表型。这对两种类型的生物——微生物和人类——特别重要。微生物,如细菌和酵母,视觉特征很少,因此这些生物的基因图谱绘制必须依赖生化表型,如表 3.1 中列出的那些。对于人类,可以使用视觉特征,但自 1920 年代以来,人类遗传变异的研究主要基于可以通过血型检测来评分的生化表型。这些表型不仅包括标准血型,如 ABO 系列,还包括血清蛋白和免疫蛋白的变体,如人白细胞抗原 (HLA 系统)。这些标记的一个很大优势是许多相关基因具有多个等位基因。例如,称为 HLA-DRB1 的基因有 3000 多个等位基因,HLA-B 有 8200 个。这是相关的,因为人类基因图谱绘制的方式(第 3.4 节)。与为实验生物(如果蝇或小鼠)设置计划繁殖实验的程序不同,人类基因遗传的数据必须通过检查家庭成员显示的表型来收集,其中父母出于个人原因而不是为了遗传学家的方便而走到一起。如果一个家庭的所有成员对于所研究的基因都有相同的等位基因,那么就无法获得有用的信息。因此,对于基因图谱绘制目的,有必要找到父母偶然具有不同等位基因的家庭。如果所研究的基因有 1800 个而不是 2 个等位基因,这就更有可能了。
表 3.1 用于酿酒酵母遗传分析的典型生化标记
标记 | 表型 | 携带该标记的细胞识别方法 |
|---|---|---|
ADE2 | 需要腺嘌呤 | 只有在培养基中存在腺嘌呤时才能生长 |
CAN1 | 对刀豆氨酸耐受 | 在刀豆氨酸存在下生长 |
CUP1 | 对铜耐受 | 在铜存在下生长 |
CYH1 | 对环己酰亚胺耐受 | 在环己酰亚胺存在下生长 |
LEU2 | 需要亮氨酸 | 只有在培养基中存在亮氨酸时才能生长 |
SUC2 | 能够发酵蔗糖 | 如果蔗糖是培养基中唯一的碳水化合物则能生长 |
UBA3 | 需要尿嘧啶 | 只有在培养基中存在尿嘧啶时才能生长 |
基因是非常有用的标记,但它们绝非理想。一个问题是,一张完全基于基因的图谱不够详细,尤其对于像脊椎动物和开花植物这样拥有较大基因组的物种而言。即便每个基因都能被定位,情况也是如此,因为在大多数真核生物的基因组中,基因之间分布稀疏,间隔很大。此外,只有一小部分基因存在易于区分的等位基因形式,这使得问题更加严重。因此,基因图谱的覆盖范围并不全面。我们需要其他类型的标记。
那些被定位但并非基因的特征被称为DNA标记。与基因标记一样,一个DNA标记必须至少有两个等位基因才有用。DNA标记的两个例子是限制性片段长度多态性(RFLPs)和简单序列长度多态性(SSLPs)。
RFLP是第一种被研究的DNA标记。回顾一下,限制性内切酶在特定的识别序列处切割DNA分子(第2.1节)。这种序列特异性意味着用一种限制酶处理一个DNA分子应该总是产生同一组片段。然而,对于基因组DNA分子来说,情况并非总是如此,因为一些限制性位点是多态性的,以两种等位基因的形式存在:一种等位基因展示了正确的限制性位点序列,因此在用该酶处理DNA时会被切割;而第二种等位基因则存在序列改变,导致该限制性位点不再被识别。这种序列改变的结果是,在用酶处理后,两个相邻的限制性片段仍然连接在一起,从而导致了长度上的多态性(图3.4)。这就是一个RFLP,它在基因组图谱上的位置可以通过追踪其等位基因的遗传方式来确定,就像使用基因作为标记时一样。据认为,一个哺乳动物基因组中大约有10^5个RFLP。
图 3.4 限制性片段长度多态性 (RFLP)。左侧的 DNA 分子具有多态性限制位点(用星号标记),右侧的分子中不存在该位点。RFLP 在用限制性酶处理后被揭示,因为一个分子被切成四个片段,而另一个被切成三个片段。
对于小的DNA分子,一个RFLP的两种等位基因可以通过使用适当的限制酶进行切割,并在琼脂糖凝胶中鉴定所产生片段的大小来简单地区分。而在基因组DNA中对RFLP进行分型则更为困难。像 EcoRI 这样具有六个核苷酸识别序列的酶,大约每 4^6 = 4096 bp 切割一次,因此在处理人类DNA时会产生超过750,000个片段。通过琼脂糖凝胶电泳分离后,这750,000个片段会产生一片DNA的弥散涂抹带。因此,为了观察与RFLP相关的片段,必须使用一个跨越多态性限制性位点的探针进行Southern杂交(图3.5A)。这是一个冗长的过程,并且在单次实验中难以检测超过约12个DNA样品。RFLP分型是自PCR技术发明以来变得更加简便的众多程序中的一个例子。使用PCR,可以在一份基因组DNA样本中对RFLP进行分型,而无需用限制酶切割该DNA。取而代之的是,PCR的引物被设计成在多态性位点的两侧退火,然后通过用限制酶处理扩增出的片段来对RFLP进行分型(图3.5B)。在多孔板中可以轻松地设置多个PCR反应,因此现在单次运行就可以对多达96个DNA样本进行分型。
图 3.5 定型 RFLP 的两种方法。(A) RFLPs 可以通过 Southern 杂交定型。DNA 用适当的限制性酶消化并在琼脂糖凝胶中分离。限制片段的污迹转移到尼龙膜上,并用跨越多态性限制位点的 DNA 片段探测。如果位点不存在,则检测到单个限制片段(第 2 泳道);如果位点存在,则检测到两个片段(第 3 泳道)。(B) RFLP 也可以通过 PCR 定型,使用在多态性限制位点任一侧退火的引物。PCR 后,产物用适当的限制性酶处理,然后通过琼脂糖凝胶电泳分析。如果位点不存在,则在琼脂糖凝胶上看到一个条带(第 2 泳道);如果位点存在,则看到两个条带(第 3 泳道)。
SSLPs 与 RFLPs 大不相同。SSLPs 是显示长度变化的重复序列阵列,不同等位基因包含不同数量的重复单位(图 3.6A)。与 RFLPs 不同,SSLPs 可以是多等位基因的,因为每个 SSLP 可以有许多不同的长度变体。有两种类型的 SSLPs:
(A) SSLP 的两种变体
图 3.6 SSLPs 及其分型方法。(A) SSLP 的两个等位基因。这个特殊例子是短串联重复 (STR),也称为微卫星。在等位基因 1 中,基序 'GA' 重复三次,在等位基因 2 中,重复五次。(B) 通过 PCR 分型 STR。STR 及其周围序列的一部分被扩增,产物的大小通过琼脂糖凝胶电泳或毛细管电泳确定。在琼脂糖凝胶中,泳道 A 包含 PCR 产物,泳道 B 包含 DNA 标记,显示两个等位基因 PCR 后得到的条带大小。泳道 A 中的条带与两个 DNA 标记中较大的那个大小相同,表明被测试的 DNA 包含等位基因 2。毛细管电泳的结果显示为电泳图,蓝色峰的位置表示 PCR 产物的大小。电泳图自动根据大小标记(红色峰)校准,因此可以计算 PCR 产物的精确长度。
微卫星比小卫星更受欢迎作为 DNA 标记,有两个原因。首先,小卫星在基因组中分布不均匀,而是倾向于更频繁地出现在染色体末端的端粒区域。用地理学术语来说,这相当于试图使用灯塔地图来找到岛屿中部的方位。微卫星在整个基因组中分布更便利。其次,长度多态性最快的分型方法是通过 PCR,但 PCR 分型对于长度小于 300 bp 的序列更快速和准确。大多数小卫星等位基因都比这更长,因为重复单位相对较大,并且在单个阵列中往往有很多个,因此需要几千碱基长度的 PCR 产物来分型它们。用作 DNA 标记的微卫星通常由 10-30 个长度不超过 6 bp 的重复单位组成,因此更适合 PCR 分析。人类基因组中有超过 400 万个重复单位为 2-6 bp 的微卫星。
当通过 PCR 检查时,微卫星中存在的等位基因由 PCR 产物的精确长度显示(图 3.6B)。长度变异可以通过琼脂糖凝胶电泳可视化,但标准凝胶电泳是一个繁琐的过程,难以自动化,因此不适合现代基因组研究所要求的高通量分析。相反,微卫星通常通过聚丙烯酰胺凝胶中的毛细管电泳分型。聚丙烯酰胺凝胶的孔径比琼脂糖凝胶小,允许更精确地分离不同长度的分子。大多数毛细管电泳系统使用荧光检测,因此在进行 PCR 之前将荧光标记附着到一个或两个引物上。PCR 后,产物被加载到毛细管系统中并经过荧光检测器。连接到检测器的计算机将 PCR 产物的通过时间与一组大小标记的等效数据相关联,从而确定产物的精确长度。
RFLP和SSLP在某些类型的基因组研究中很有用,但大多数现代的遗传图谱构建项目使用的是一种不同类型的DNA标记。它们被称为单核苷酸多态性(SNPs)。一个SNP是指基因组中的一个位置,在该位置上,一些个体拥有一个核苷酸(如G),而另一些个体则拥有一个不同的核苷酸(如C)(图3.7)。在每个物种的基因组中都存在大量的SNP:当比较2504个人类基因组序列时,发现了8.47 × 10⁷个SNP,而据估计,整个人类群体中约有3-4 × 10⁸个SNP。一些SNP也会导致RFLP的产生,但许多则不会,因为它们所在的序列不被任何限制酶识别。
图 3.7 单核苷酸多态性 (SNP)。
在基因组的任何一个单一位置,四种核苷酸中的任何一种都可能存在,因此可以想象每个SNP应该有四个等位基因。理论上这是可能的,但实际上大多数SNP仅以两种变体的形式存在。这是因为每个SNP都起源于基因组中发生的一次点突变(第17章),该突变将一个核苷酸转变为另一个。如果突变发生在个体的生殖细胞中,那么该个体的一个或多个后代可能会继承这个突变,经过许多代之后,这个SNP最终可能会在群体中稳定下来。但这样只存在两种等位基因——原始序列和突变版本。要产生第三个等位基因,就必须在另一个个体的基因组中相同位置发生一次新的突变,并且这个个体及其后代必须通过繁殖使这个新的等位基因也稳定下来。这种情况并非不可能,但可能性很小:因此,绝大多数SNP是双等位基因的。这个缺点被每个基因组中存在的巨大数量的SNP所弥补而有余——在大多数真核生物中,每1000 bp的DNA中至少有一个SNP。因此,SNP使得构建非常详细的基因组图谱成为可能。
基因组中SNP的频率意味着这些标记在利用基因组图谱来鉴定指定特定性状的基因或QTL(数量性状位点)(第6.4节)的项目中,以及在利用图谱作为标记辅助选择辅助手段的作物育种计划(第18.4节)中,已经占据了相当重要的地位。这些应用推动了对单个及大量SNP进行快速分型方法的发展。其中几种分型方法是基于寡核苷酸杂交分析。寡核苷酸是一种短的单链DNA分子,通常长度小于50个核苷酸,在试管中合成。如果条件恰到好处,那么一个寡核苷酸只有在与另一个DNA分子形成完全碱基配对的结构时,才会与之杂交。如果存在单个错配——即寡核苷酸内部有一个位置没有形成碱基对——杂交就不会发生(图3.8)。因此,寡核苷酸杂交可以区分一个SNP的两种等位基因。
图 3.8 通过寡核苷酸杂交分析进行 SNP 分型的基础。在其他高度严格的杂交条件下,只有当寡核苷酸能够与靶 DNA 形成完全碱基配对结构时,才会形成稳定的杂合体。如果有单个错配,则杂合体不会形成。要达到这种严格性水平,培养温度必须刚好低于寡核苷酸的熔解温度或 Tm。在高于 Tm 的温度下,即使完全碱基配对的杂合体也是不稳定的。在低于 Tm 超过 5°C 时,错配的杂合体可能是稳定的。图中所示寡核苷酸的 Tm 约为 58°C。Tm(以 °C 为单位)通过公式 Tm = (4 × G 和 C 核苷酸数量) + (2 × A 和 T 核苷酸数量) 计算。该公式对 15-30 个核苷酸的寡核苷酸的 Tm 给出粗略指示。
基于寡核苷酸杂交的多种SNP分型策略已被设计出来,包括以下几种:
图 3.9 用 DNA 芯片进行 SNP 分型。寡核苷酸以阵列形式固定在芯片表面。施加标记的 DNA,通过激光扫描或荧光共聚焦显微镜确定发生杂交的位置。
其他的分型方法利用的是一种其错配位点发生在寡核苷酸5'或3'末端的寡核苷酸。在适当的条件下,这种类型的寡核苷酸会与错配的模板DNA杂交,并带有一个短的、非碱基配对的"尾巴"(图3.10A)。这一特性被以两种不同的方式加以利用:
图 3.10 SNP 分型方法。(A) 在适当的条件下,与 SNP 的错配发生在其极端 5' 或 3' 端的寡核苷酸将与错配的模板 DNA 杂交,具有短的、非碱基配对的尾巴。(B) 通过寡核苷酸连接分析进行 SNP 分型。(C) ARMS 测试。
现在我们已经组装了一套用于构建遗传图谱的标记,我们可以继续查看图谱绘制技术本身。遗传图谱绘制技术源于 Gregor Mendel 在 19 世纪中期取得的遗传学开创性发现,因此要理解图谱绘制,我们必须回到 Mendel 在布尔诺的修道院花园,看看他在 1856 年至 1863 年间进行的实验。
遗传图谱绘制基于 Gregor Mendel 在 1865 年首次描述的遗传原理。从他对豌豆的繁殖实验结果,Mendel 得出结论,每株豌豆植物对每个基因都具有两个等位基因,但只显示一种表型。如果植物对特定特征是纯育种的或同型合子的,这很容易理解,因为它具有两个相同的等位基因并显示相应的表型(图 3.11A)。然而,Mendel 表明,如果将两株具有不同表型的纯育种植物杂交,那么所有后代(F₁ 世代)都显示相同的表型。这些 F₁ 植物必须是杂合子,意味着它们具有两个不同的等位基因,每种表型一个——一个等位基因从母本遗传,一个从父本遗传。Mendel 假设在这种杂合条件下,一个等位基因超越另一个等位基因的效应:因此他将 F₁ 植物中表达的表型描述为相对于第二个隐性表型是显性的(图 3.11B)。
(A) 纯育种豌豆植物的自我受精 (B) 不同纯育种植物的杂交 图 3.11 同型合子性和杂合子性。Mendel 在他的豌豆植物中研究了七对对比特征,其中一个是紫色和白色花色,如此处所示。(A) 纯育种植物总是产生具有亲本颜色的花。这些植物是同型合子,每个都具有一对相同的等位基因,这里用 VV 表示紫色花,WW 表示白色花。(B) 当两个纯育种植物杂交时,在 F₁ 世代中只看到一种表型。Mendel 推断 F₁ 植物的基因型是 VW,因此 V 是显性等位基因,W 是隐性等位基因。
Mendel 对杂合条件的解释对他研究的等位基因对是完全正确的,但我们现在认识到这个简单的显性-隐性规则可能会被他没有遇到的情况复杂化。这些包括:
(A) 不完全显性 (B) 共显性 图 3.12 Mendel 没有遇到的两种等位基因相互作用类型。(A) 康乃馨花色的不完全显性。(B) M 和 N 血型等位基因的共显性。
除了发现显性和隐性,Mendel 进行了额外的实验,使他能够建立他的两个遗传学定律。第一定律指出等位基因随机分离。换句话说,如果亲本的等位基因是 A 和 a,那么 F₁ 世代的成员继承 A 的机会与继承 a 的机会相同。第二定律是等位基因对独立分离,因此基因 A 的等位基因的遗传独立于基因 B 的等位基因的遗传。由于这些定律,遗传杂交的结果是可预测的(图 3.13)。
图 3.13 Mendel 的定律使遗传杂交的结果能够被预测。显示了 Mendel 的两个杂交及其预测结果。在单杂交中,跟踪单个基因的等位基因,在这种情况下,高豌豆植物的等位基因 T 和矮豌豆植物的等位基因 t。T 是显性的,t 是隐性的。网格显示基于 Mendel 第一定律的 F₁ 世代的预测基因型和表型,该定律指出等位基因随机分离。当 Mendel 进行这个杂交时,他获得了 787 株高豌豆植物和 277 株矮植物,比例为 2.84:1。在双杂交中,跟踪两个基因。第一个基因决定豌豆的形状,等位基因是 R(圆形,显性等位基因)和 r(皱纹,隐性),第二个指定豌豆的颜色,等位基因为 Y(显性,黄色豌豆)和 y(隐性,绿色豌豆)。所示的基因型和表型是由 Mendel 第一和第二定律预测的,后者指出等位基因对独立分离。Mendel 的杂交产生了 315 个圆形黄色豌豆,108 个圆形绿色,101 个皱纹黄色和 32 个皱纹绿色,比例为 9.84:3.38:3.12:1。
当 Mendel 的工作在 1900 年被重新发现时,他的第二定律令早期遗传学家担忧,因为很快确定基因位于染色体上,并且意识到所有生物体的基因都比染色体多得多。染色体作为完整单位遗传,因此推理认为某些基因对的等位基因将一起遗传,因为它们在同一条染色体上(图 3.14)。这是遗传连锁的原理,它很快被证明是正确的,尽管结果并没有完全如预期的那样。许多基因对之间预期的完全连锁未能实现。基因对要么独立遗传,如预期的不同染色体上的基因,要么如果它们显示连锁,那么只是部分连锁:有时它们一起遗传,有时它们不是(图 3.15)。预测与观察之间这种矛盾的解决是遗传图谱绘制技术发展的关键步骤。
图 3.14 同一染色体上的基因应该显示连锁。基因 A 和 B 在同一条染色体上,因此应该一起遗传。因此,Mendel 第二定律不应适用于 A 和 B 的遗传。基因 C 在不同的染色体上,因此第二定律将适用于 A 和 C 或 B 和 C 的遗传。Mendel 没有发现连锁,因为他研究的七个基因分别在不同的豌豆染色体上。
图 3.15 部分连锁。部分连锁在 20 世纪早期被发现。这里显示的杂交是 Bateson、Saunders 和 Punnett 在 1905 年用香豌豆进行的。亲本杂交给出预期结果,所有 F₁ 植物显示相同的表型,表明显性等位基因是紫色花和长花粉粒。F₁ 杂交给出意外结果,因为后代既不显示 9:3:3:1 比例(不同染色体上基因的预期)也不显示 3:1 比例(如果基因完全连锁的预期)。不寻常的比例是部分连锁的典型特征。
关键突破是由 Thomas Hunt Morgan 实现的,他在部分连锁和细胞核分裂时染色体行为之间建立了概念上的飞跃。19 世纪后期的细胞学家区分了两种类型的核分裂:有丝分裂和减数分裂。有丝分裂更常见,是体细胞二倍体核分裂产生两个子核的过程,两个子核都是二倍体(图 3.16)。人类一生中需要大约 10¹⁷ 次有丝分裂来产生所需的所有细胞。在有丝分裂开始之前,核中的每条染色体都被复制,但产生的子染色体不会立即彼此分离。起初,它们在着丝粒处保持连接,直到有丝分裂后期染色体分布到两个新核中时才分离。显然,重要的是每个新核都接收到完整的染色体组,有丝分裂的大部分复杂性都致力于实现这一目标。
有丝分裂说明了核分裂期间发生的基本事件,但减数分裂的独特特征才是我们感兴趣的。减数分裂只发生在生殖细胞中,导致二倍体细胞产生四个单倍体配子,每个配子随后可以在有性生殖期间与异性配子融合。减数分裂产生四个单倍体细胞,而有丝分裂产生两个二倍体细胞,这很容易解释:减数分裂涉及连续的两次核分裂,而有丝分裂只是单次核分裂。这是一个重要的区别,但有丝分裂和减数分裂之间的关键差异更微妙。回想一下,在二倍体细胞中,每条染色体都有两个独立的副本(第 1 章)。我们将这些称为同源染色体对。在有丝分裂期间,同源染色体彼此保持分离,每对的每个成员独立于其同源物复制并传递给子核。然而,在减数分裂中,同源染色体对绝不是独立的。在减数分裂的初始阶段,每对同源染色体配对形成二价体(图 3.17)。这发生在每条染色体复制之后,但在复制结构分裂之前,因此二价体实际上包含四个染色体副本,每个都注定要在减数分裂结束时进入四个配子中的一个。在二价体内,染色体臂(染色单体)可以发生物理断裂和 DNA 片段交换。这个过程称为交换或重组,于 1909 年由比利时细胞学家 Janssens 发现。这比 Morgan 开始思考部分连锁仅早两年。
图 3.17 减数分裂。显示涉及一对同源染色体的事件;这对中的一个成员是红色的,另一个是蓝色的。在减数分裂开始时,染色体凝缩,每个同源对排列形成二价体。在二价体内,可能发生交换,涉及染色体臂断裂和 DNA 交换。然后减数分裂通过一对有丝分裂核分裂进行,产生每条染色体的单个副本。减数分裂的这些最终产物,即配子,因此是单倍体的。
交换的发现如何帮助 Morgan 解释部分连锁?要理解这一点,我们需要思考交换对基因遗传可能产生的影响。让我们考虑两个基因,每个基因都有两个等位基因。我们将第一个基因称为 A,其等位基因为 A 和 a,第二个基因 B 具有等位基因 B 和 b。想象这两个基因位于果蝇(Morgan 研究的果蝇种类)第 2 号染色体上。我们将跟踪二倍体核的减数分裂,其中第 2 号染色体的一个副本具有等位基因 A 和 B,第二个具有 a 和 b。这种情况在图 3.18 中得到说明。考虑两种替代情况:
现在考虑如果我们观察 100 个相同细胞的减数分裂结果会发生什么。如果交换从不发生,那么产生的配子将具有以下基因型:
200AB 200ab
这是完全连锁:基因 A 和 B 在减数分裂期间作为单个单位行为。但如果(更可能的)在一些核中 A 和 B 之间发生交换,那么等位基因对将不会作为单个单位遗传。假设在 100 次减数分裂中的 40 次中发生交换。将产生以下配子:
160AB 160ab 40Ab 40aB
连锁不是完全的;它只是部分的。除了两种亲本基因型 (AB, ab) 之外,我们还看到具有重组基因型 (Ab, aB) 的配子。
图 3.18 交换对连锁基因的影响。图画显示一对同源染色体,一个红色,另一个蓝色。A 和 B 是连锁基因,等位基因为 A、a、B 和 b。左侧是 A 和 B 之间无交换的减数分裂:产生的配子中的两个具有基因型 AB,另外两个是 ab。右侧,A 和 B 之间发生交换:四个配子显示所有可能的基因型——AB、aB、Ab 和 ab。
一旦 Morgan 理解了部分连锁如何通过减数分裂期间的交换来解释,他就能够设计一种绘制基因在染色体上相对位置图谱的方法。事实上,最重要的工作不是由 Morgan 本人完成的,而是由他实验室的一名本科生 Arthur Sturtevant 完成的。Sturtevant 假设交换是一个随机事件,在一对排列的染色单体的任何位置发生的机会相等。如果这个假设是正确的,那么靠近的两个基因被交换分离的频率将低于彼此距离更远的两个基因。此外,基因被交换解除连锁的频率将与它们在染色体上的距离成正比。因此,重组频率是两个基因之间距离的度量。如果你计算出不同基因对的重组频率,你可以构建它们在染色体上相对位置的图谱。
重组频率 m 和 v 之间 = 3.0% m 和 y 之间 = 33.7% v 和 w 之间 = 29.4% w 和 y 之间 = 1.3%
图 3.19 从重组频率计算遗传图谱。这个例子取自 Arthur Sturtevant 进行的果蝇原始实验。所有四个基因都在果蝇的第 1 号染色体上。显示了基因之间的重组频率,以及它们推断的图谱位置。
Sturtevant 构建的第一个图谱显示了果蝇第 1 号染色体上四个基因的位置(图 3.19)。Morgan 的团队然后着手绘制尽可能多的果蝇基因图谱,到 1915 年已经为其中 85 个分配了位置。这些基因分为四个连锁群,对应于果蝇核中看到的四对染色体。基因间距离以图谱单位表示,一个图谱单位是重组频率为 1% 的两个基因之间的距离。根据这个符号,白眼和黄体基因之间的距离为 1.3 图谱单位,重组频率为 1.3%(见图 3.19)。最近,名称 centiMorgan (cM) 开始取代图谱单位。Morgan 最初绘制的 85 个基因中的每一个都指定一种表型,如眼色、翅膀或体形,可以通过简单地检查从遗传杂交获得的果蝇来分型。该技术对于通过生化测试分型的基因,以及通过 PCR 或其他类型的 DNA 分析识别其等位基因的 DNA 标记(如 RFLPs、SSLPs 和 SNPs)同样有效(第 3.2 节)。因此,连锁分析可以用于许多不同类型的生物体,正如我们将在下一节中看到的,产生的图谱可以显示许多不同类型标记的位置。
在继续之前,我们必须考虑与连锁分析基本原理相关的一个最终问题。事实证明,Sturtevant 关于交换随机性的假设并不完全合理。遗传图谱与 DNA 分子上标记的实际位置之间的比较,如物理图谱绘制和 DNA 测序所揭示的,表明染色体的某些区域,称为重组热点,比其他区域更容易参与交换。这意味着遗传图距离不一定表示两个标记之间的物理距离(见图 3.26)。此外,我们现在意识到单个染色单体可以同时参与多个交换,但这些交换的紧密程度有限制,导致图谱绘制程序中的更多不准确性。尽管有这些限制,连锁分析通常对标记顺序做出正确的推断,距离估计足够准确,可以生成有价值的遗传图谱,作为基因组测序项目的框架,并用于标记辅助选择等技术。因此,我们将继续考虑如何对不同类型的生物体进行连锁分析。
要了解连锁分析实际上是如何进行的,我们需要考虑三种截然不同的情况:
我们将要研究的第一种连锁分析类型是由Morgan及其同事开发方法的现代版本。该方法基于分析已知基因型亲本之间建立的实验杂交后代的分析,至少在理论上,它适用于所有真核生物。伦理考虑排除了这种方法在人类中的应用,而怀孕期长度和新生儿达到成熟(从而能够参与后续杂交)所需时间等实际问题限制了该方法在某些动物和植物中的有效性。
如果我们回到图3.18,我们看到遗传图谱绘制的关键是能够确定减数分裂产生的配子的基因型。在少数情况下,这可以通过直接检查配子来实现。例如,一些微生物真核生物产生的配子,包括酿酒酵母,可以生长成单倍体细胞菌落。然后可以通过生化测试和DNA标记分型来识别这些单倍体菌落的基因型。如果使用DNA标记,高等真核生物的配子也可以直接基因分型,因为可以用来自单个精子的DNA进行PCR,从而能够对RFLP、SSLP和SNP进行分型。不幸的是,精子分型很费时。因此,高等真核生物的常规连锁分析不是通过直接检查配子进行的,而是通过确定两个配子融合产生的二倍体后代的基因型进行的,即来自一对亲本中每个的一个配子。换句话说,进行遗传杂交。
遗传杂交的复杂之处在于,产生的二倍体后代不是一次减数分裂的产物,而是两次(每个亲本一次)的产物,在大多数生物体中,交换事件在雄性和雌性配子产生过程中发生的可能性相等。我们必须以某种方式能够从二倍体后代的基因型中分解出在这两次减数分裂中的每一次中发生的交换事件。这意味着必须小心建立杂交。标准程序是使用测试杂交。这在图3.20中得到说明,我们在其中建立了测试杂交来绘制我们之前遇到的两个标记的图谱:A(等位基因A和a)和B(等位基因B和b),两者都在果蝇的第2号染色体上。测试杂交的关键特征是两个亲本的基因型:
图 3.20 显示显性和隐性的等位基因之间的测试杂交。A 和 B 是具有等位基因 A、a、B 和 b 的标记。通过检查后代的表型来对其进行分型。由于双纯合子亲本(亲本 2)具有两个隐性等位基因 a 和 b,它实际上对后代的表型没有贡献。因此,F₁ 世代中每个个体的表型与产生该个体的来自亲本 1 的配子的基因型相同。
双杂合子具有与我们在图3.18中跟踪其减数分裂的细胞相同的基因型。因此,我们的目标是推断该亲本产生的配子的基因型,并计算重组子的比例。注意,第二个亲本(双纯合子)产生的所有配子都将具有基因型ab,无论它们是亲本型还是重组配子。等位基因a和b都是隐性的,因此当检查后代的表型时,该亲本中的减数分裂实际上是不可见的。这意味着,如图3.20所示,二倍体后代的表型可以明确地转换为来自双杂合亲本的配子的基因型。因此,测试杂交使我们能够直接检查单次减数分裂,从而计算正在研究的两个标记的重组频率和图谱距离。
如果在单次杂交中跟踪两个以上的标记,这种类型的连锁分析的威力会增强。这不仅能更快地产生重组频率,还能够通过简单检查数据来确定标记在染色体上的相对顺序。这是因为需要两个重组事件来解除中央标记与三个系列中两个外部标记的连锁,而两个外部标记中的任何一个都可以通过单个重组解除连锁(图3.21)。双重组的可能性低于单重组,因此中央标记的解除连锁将相对很少发生。表3.2显示了来自三点杂交的一组典型数据。在三重杂合子(ABC/abc)和三重纯合子(abc/abc)之间建立了测试杂交。最频繁的后代是具有两种亲本基因型之一的后代,这是由于在包含标记A、B和C的区域中没有重组事件。其他两类后代相对频繁(在所示例子中为51和63个后代)。这两者都被推定来自单个重组。检查它们的基因型显示,在这两类中的第一类中,标记A已与B和C解除连锁,在第二类中,标记B已与A和C解除连锁。含义是A和B是外部标记。这通过标记C与A和B解除连锁的后代数量得到证实。只有两个这样的后代,表明需要双重组来产生这种基因型。因此标记C在A和B之间。
图 3.21 三点杂交中交换的影响。两个外部标记中的任何一个都可以通过单个重组事件解除连锁,但需要两个重组来解除中央标记与两个外部标记的连锁。
只需要考虑一个额外的点。如果像图3.20和表3.2中那样,其等位基因显示显性和隐性的标记在测试杂交中被检查,那么双或三重纯合子亲本必须具有隐性表型的等位基因。另一方面,如果使用共显性标记,那么双纯合子亲本可以具有任何纯合子等位基因组合(即AB/AB、Ab/Ab、aB/aB或ab/ab)。图3.22给出了这种类型测试杂交的例子,显示了这样做的原因。注意,通过PCR分型的DNA标记实际上显示共显性:因此图3.22显示了使用DNA标记进行连锁分析时遇到的典型情况。
图 3.22 显示共显性的等位基因之间的测试杂交。A 和 B 是等位基因对呈共显性的标记。在这个特定例子中,双纯合子亲本的基因型为 AB/AB。F₁ 个体中存在的等位基因可通过 PCR 等方法直接检测。这些等位基因组合使得能够推断出产生每个个体的亲本 1 配子的基因型。
对于人类,当然不可能预选亲本的基因型并建立专门为图谱绘制目的而设计的杂交。相反,计算重组频率的数据必须通过检查现有家庭连续几代成员的基因型来获得。这种方法称为谱系分析。通常,只有有限的数据可用,它们的解释往往很困难,因为人类配对很少产生方便的测试杂交,而且一个或多个家庭成员的基因型往往无法获得,因为这些个体已经死亡或不愿意合作。
这些问题在图3.23中得到说明。在这个例子中,我们正在研究一个由两个父母和六个孩子组成的家庭中存在的遗传疾病。遗传疾病经常被用作人类的基因标记,疾病状态是一个等位基因,健康状态是第二个等位基因。图3.23A中的谱系显示母亲受到疾病影响,她的四个孩子也是如此。我们从家族记录中知道外祖母也患有这种疾病,但她和她的丈夫——外祖父——现在都已经死了。我们可以将他们包括在谱系中,用斜线表示他们已经死亡,但我们无法获得关于他们基因型的任何进一步信息。我们知道疾病基因与我们称为M的微卫星位于同一条染色体上,其四个等位基因——M₁、M₂、M₃和M₄——存在于活着的家庭成员中。我们的目标是绘制疾病基因相对于微卫星的位置图谱。
图 3.23 人类谱系分析的例子。(A) 谱系显示了一个由两个在世父母和六个孩子组成的家庭中遗传疾病的遗传,从家族记录中可获得有关外祖父母的信息。疾病等位基因(实心符号)相对于健康等位基因(空心符号)是显性的。目标是通过对家庭在世成员的微卫星 M 等位基因(M₁、M₂ 等)进行分型来确定疾病基因与微卫星 M 之间的连锁程度。(B) 谱系可以用两种不同的方式解释:假设 1 给出低重组频率,表明疾病基因与微卫星 M 紧密连锁。假设 2 表明疾病基因和微卫星的连锁程度要低得多。(C) 通过外祖母的重新出现解决了这个问题,她的微卫星基因型仅与假设 1 一致。
为了建立疾病基因和微卫星M之间的重组频率,我们必须确定有多少孩子是重组子。如果我们观察六个孩子的基因型,我们看到1、3和4号具有疾病等位基因和微卫星等位基因M₁。2号和5号具有健康等位基因和M₂。因此我们可以构建两个替代假设。第一个是母亲中相关同源染色体的两个拷贝具有基因型疾病-M₁和健康-M₂。因此,孩子1、2、3、4和5具有亲本基因型,孩子6是唯一的重组子(图3.23B)。这将表明疾病基因和微卫星相对紧密连锁,它们之间的交换很少发生。替代假设是母亲的染色体具有基因型健康-M₁和疾病-M₂。这将意味着孩子1-5是重组子,孩子6具有亲本基因型,基因和微卫星在染色体上相对较远。我们无法确定这些假设中哪一个是正确的:数据令人沮丧地模糊。
图3.23中谱系提出的问题最令人满意的解决方案是知道祖母的基因型。让我们假装这是一个肥皂剧家庭,祖母并没有真正死去。令所有人惊讶的是,她及时重新出现,拯救了下降的收视率。她的微卫星M基因型结果是M₁M₅(图3.23C)。这告诉我们母亲继承的染色体具有基因型疾病-M₁。因此我们可以确定地得出结论:假设1是正确的,只有孩子6是重组子。
关键个体的复活通常不是现实生活中遗传学家可以选择的选项,尽管DNA可以从旧的病理标本如载玻片和Guthrie卡中获得,后者含有新生儿的血液样本。不完美的谱系使用称为lod分数的测量进行统计分析。这代表基因连锁的几率对数,主要用于确定正在研究的两个标记是否位于同一条染色体上——换句话说,基因是否连锁。lod分数为3或更高对应于1000:1的几率,通常被作为有信心得出这种结论的最小值。如果lod分析确立了连锁,那么可以为一系列重组频率中的每一个计算额外的lod分数,以确定最有可能产生通过谱系分析获得的数据的频率。理想情况下,可用数据将来自多个谱系,增加结果的可信度。对于具有较多孩子的家庭,分析不那么模糊,正如我们在图3.23中看到的,重要的是至少三代的成员可以进行基因分型。由于这个原因,已经建立了家族收集,如巴黎的人类多态性研究中心(CEPH)Jean Dausset基金会维护的收集。CEPH收集包含来自家庭的培养细胞系,其中所有四个祖父母以及至少八个第二代孩子都可以采样。该收集可供任何同意将结果数据提交给中央CEPH数据库的研究人员用于DNA标记图谱绘制。
图 3.24 细菌间实现 DNA 转移的三种方式。(A) 接合可导致染色体或质粒 DNA 从供体细菌转移到受体细菌。接合涉及两个细菌之间的物理接触,转移被认为通过称为菌毛的狭窄管道发生。(B) 转导是通过噬菌体转移供体细胞 DNA 的小片段。(C) 转化与转导相似,但转移的是"裸露"DNA。(B) 和 (C) 中描述的事件通常伴随供体细胞的死亡。在 (B) 中,当噬菌体从供体细胞中出现时发生死亡。在 (C) 中,DNA 从供体细胞释放通常是细胞因自然原因死亡的结果。
我们必须考虑的最后一种遗传图谱绘制类型是用于细菌的策略。遗传学家在试图为细菌开发遗传图谱绘制技术时面临的主要困难是这些生物通常是单倍体的,因此不进行减数分裂。因此必须设计其他方法来诱导同源细菌DNA片段之间的交换。答案是利用存在的三种天然方法来在一个细菌与另一个细菌之间转移DNA片段(图3.24):
图 3.25 细菌中基因图谱绘制的基础。(A) 功能性色氨酸生物合成基因从野生型细菌(基因型描述为 trp⁺)转移到缺乏该基因功能拷贝的受体(trp⁻)。(B) 通过接合进行图谱绘制。(C) 通过转导和转化进行图谱绘制。
经常使用生化标记,显性或野生型表型是拥有生化特征(例如,合成色氨酸的能力),隐性表型是互补特征(例如,无法合成色氨酸)。DNA转移通常在拥有野生型等位基因的供体品系和具有隐性等位基因的受体之间建立,通过寻找正在研究的基因指定的生化功能的获得来监测转移到受体品系中。这在图3.25A中得到说明,我们看到功能性色氨酸生物合成基因从野生型细菌(基因型描述为trp⁺)转移到缺乏该基因功能拷贝的受体(trp⁻)。受体被称为色氨酸营养缺陷型,这是用来描述只有在提供野生型不需要的营养物质——在这种情况下是色氨酸——时才能存活的突变细菌的术语。转移后,需要两个交换来将转移的基因整合到受体细胞的染色体中,将受体从trp⁻转换为trp⁺。
图谱绘制程序的精确细节取决于正在使用的基因转移类型。在接合期间,DNA以与绳子被拉过管子相同的方式从供体转移到受体。因此,可以通过确定标记出现在受体细胞中的时间来绘制DNA分子上标记的相对位置图谱。在图3.25B所示的例子中,标记A、B和C分别在接合开始后8、20和30分钟转移。整个大肠杆菌染色体需要大约100分钟来转移。相比之下,转导和转化图谱绘制能够绘制相对靠近的标记的图谱,因为转移的DNA片段很短(<50 kb),所以两个标记一起转移的概率取决于它们在细菌染色体上的接近程度(图3.25C)。
目前使用两种方法进行基因组的物理图谱绘制。
使用RFLP作为DNA标记的遗传图谱构建可以定位基因组内的多态性限制性位点(见3.2节),但很少有限制性位点是多态性的,因此许多位点无法通过该技术进行定位(图3.27)。我们能否通过使用替代方法来定位一些非多态性限制性位点,从而增加基因组图谱上的标记密度?这正是限制性图谱构建所要实现的目标。
图 3.27 并非所有限制性位点都具有多态性。
构建限制性图谱最简单的方法是,比较一个DNA分子被两种识别不同靶序列的限制性内切酶消化后产生的片段大小。图3.28展示了一个使用限制性内切酶 EcoRI 和 BamHI 的例子。这个例子阐释了对小DNA分子进行限制性图谱构建的常规方法,该方法涉及进行三种类型的酶切:
图 3.28 本实验的目标是在一个大小为 4.9 kb 的线性DNA分子上,绘制出 EcoRI (E) 和 BamHI (B) 的酶切位点图谱。顶部展示了单酶切和双酶切的结果。双酶切后得到的片段大小可以构建出两种可能的图谱(如中间图板所解释),其中悬而未决的问题是三个 BamHI 位点中某一个的位置。通过 BamHI 的部分酶切(底部)对这两种图谱进行检验,结果表明图谱II是正确的。
如果所用酶的切割位点相对较少,上述方法将能产生一个明确的图谱。然而,随着切割位点数量的增加,需要测量和比较的单酶切、双酶切和部分酶切产物的数量也会增加,从而才能构建出图谱。虽然可以借助计算机进行分析,但问题最终还是会出现。当酶切产物中的片段过多时,琼脂糖凝胶上的各个条带会合并在一起,这会增加一个或多个片段被错误测量或完全遗漏的可能性。如果几个片段的大小相近,即使它们都能被识别出来,也可能无法将它们组装成一个明确的图谱。因此,传统的限制性图谱构建方法更适用于小分子而非大分子,其上限取决于被定位分子中限制性位点的频率。在实践中,如果一个DNA分子的长度小于50kb,通常可以为一系列具有六核苷酸识别序列的酶构建限制性图谱。五十千碱基(50 kb)远低于细菌或真核生物染色体的最小尺寸,但它确实涵盖了一些病毒和细胞器基因组。通过这种方式构建的全基因组限制性图谱在指导这些小分子的测序项目中确实起到了重要作用。在对细菌或真核生物基因组DNA进行克隆后,如果克隆的片段长度小于50kb,该方法同样非常有用。
光学图谱绘制于1993年首次报告,是一种相对较新的物理图谱绘制技术,它使用光学技术直接观察 DNA 分子并识别限制位点或其他特征在这些分子内的位置。由于整个 DNA 分子都被检查,包括人类基因组中的单个染色体,都可以用这种方法绘制图谱。
光学图谱绘制的基础是单个 DNA 分子的成像。我们从第1章知道,DNA 双螺旋的直径约为 2 nm,因此太小而无法直接可视化,但限制性酶切割产生的间隙足够大,可以在正确条件下通过光学显微镜观察到。当然,有一些技术困难需要克服。首先,必须有一种方法可以看到 DNA 分子。这通过附着荧光标记来实现,通常是 DAPI(4,6-二氨基-2-苯基吲哚二盐酸盐)等染料,它与 DNA 结合并在荧光显微镜下可视化分子。第二个问题是 DNA 分子必须扩展成线性配置。
图 3.29 凝胶拉伸和分子梳理。(A) 为了进行凝胶拉伸,将含有染色体 DNA 分子的熔融琼脂糖用移液器滴到稍微倾斜的显微镜载玻片上。当凝胶流动和凝固时,DNA 分子变得拉伸。添加氯化镁激活凝胶中包含的限制酶,从而切割 DNA 分子。当分子逐渐卷曲时,代表切割位点的间隙变得可见。(B) 在分子梳理中,将盖玻片浸入 DNA 溶液中。DNA 分子通过其末端附着到盖玻片上,载玻片以 的速度从溶液中取出,
溶液中的 DNA 呈现随机卷曲构型,分子群倾向于在团块中聚集在一起。因此,光学图谱绘制的关键是能够将单个 DNA 分子延伸成线性构型,以便通过观察分子看到的限制性酶切割的位置能够准确反映限制位点在 DNA 序列中的位置。如果 DNA 分子的某些部分仍然呈随机卷曲状态,或没有完全延伸,那么计算限制位点之间的实际距离将会更加困难。在最早形式的光学图谱绘制中,分子通过称为凝胶拉伸的过程延伸。染色体 DNA 悬浮在熔融琼脂糖中并放置在稍微倾斜的显微镜载玻片上,使琼脂糖在冷却和凝固时沿着载玻片缓慢流动。在这些条件下,琼脂糖中包含的 DNA 分子排列并变得延伸(图 3.29A)。凝胶还含有限制酶,可以通过添加镁离子来激活——所有限制酶都需要镁才能工作。然后通过添加荧光染料如 DAPI(4,6-二氨基-2-苯基吲哚二氯化物)来可视化分子,该染料染色 DNA,使得当用高倍荧光显微镜检查载玻片时可以看到纤维。延伸分子中的限制位点逐渐变成间隙,因为 DNA 的天然弹性降低了纤维延伸程度,从而能够记录切割的相对位置。
凝胶拉伸相对容易进行,但在凝胶滴中观察 DNA 纤维时固有的扭曲限制了该方法可达到的分辨率程度。不使用凝胶拉伸分子的替代方法是分子梳理。将硅烷化包被的盖玻片浸入 DNA 溶液中,保持 5 分钟(在此期间 DNA 分子通过其末端附着到盖玻片上),然后以恒定速度(通常为 0.3 mm s)从溶液中取出(图 3.29B)。将 DNA 分子拉过弯月面所需的力使它们排列。一旦在空气中,盖玻片表面干燥,将 DNA 分子保持为平行纤维阵列。用这种方法,可以可视化相距小于 800 bp 的限制位点。光学图谱绘制首先应用于在 BAC 载体中克隆的大 DNA 片段(第 2.3 节)。然后通过对疟疾寄生虫恶性疟原虫 1 Mb 染色体的研究建立了使用该技术处理基因组 DNA 的可行性。以及细菌放射杜氏球菌的两条染色体和较大的两个质粒,分别为 2.65、0.41 和 (见表 8.2)。长度超过 的分子很难纯化和延伸而不发生意外断裂,因此大多数光学图谱是根据一系列重叠片段获得的数据构建的。例如,2.65 Mb D. radiodurans 染色体是从 157 个片段绘制的图谱。这意味着该程序是劳动密集型的,因为必须进行许多单独的观察,并且劳动量随着起始分子长度的增加而不成比例地增加。因此,最近的工作集中在自动化程序上,以便能够以高通量方式绘制许多片段中的限制位点图谱。这些自动化程序使用微流体装置来延伸分子,然后逐个移动它们通过光学检测器。在某些系统中,使用分子梳理的变体来延伸分子,但在其他系统中,分子通过电极网格的移动而部分延伸,然后通过被溶剂流推入一系列纳米通道而完全延伸,这些通道刚好足够宽,使线性分子能够挤过(图 3.30)。当然,这种方法只有在 DNA 片段被限制酶切割延迟到片段进入纳米通道时才有效。实现这一结果的一种方法是设计微流体架构,使得在每个纳米通道内建立镁离子梯度,因此限制酶只有在与 DNA 片段一起进入通道时才被激活。因此,限制位点在纳米通道内被切割,DNA 片段中产生的间隙立即被检测系统记录。这些用于数据生成的自动化方法,连同对产生数据的计算机分析,大大扩展了光学图谱绘制的范围,现在可以获得各种植物和动物基因组的这种类型图谱。
图 3.30 用于限制位点光学图谱绘制的微流体装置。DNA 分子通过电极网格的通过而部分延伸,然后当它进入纳米通道时完全延伸,纳米通道仅比双螺旋稍宽。DNA 在纳米通道内被切割,其中有镁离子梯度。
2000年代期间的认识是观察延伸的 DNA 分子是绘制限制位点图谱的可行方法,这导致了光学图谱绘制创新版本的开发,这些版本能够绘制限制位点以外的标记。这些光学图谱绘制的修改部分源于并行开发的使用,这是物理图谱绘制 DNA 分子的第二种技术,称为荧光原位杂交 (FISH)。
图 3.31 荧光原位杂交。分裂细胞样品干燥到显微镜载玻片上,并用甲酰胺处理,使染色体变性但不失去其特征性中期形态(见第 7.1 节)。探针与染色体 DNA 杂交的位置通过检测标记 DNA 发出的荧光信号来可视化。
与光学图谱绘制一样,FISH 能够直接可视化染色体或延伸 DNA 分子上标记的位置。不同之处在于,使用 FISH,标记是 DNA 分子中包含的 DNA 序列,其位置通过与互补的荧光 DNA 探针杂交来可视化,该探针因此结合标记序列(图 3.31)。该技术在 1980 年代首次用于中期染色体(第 7.1 节)。这些染色体,从进行分裂的细胞核制备,高度凝缩,染色体组中的每条染色体呈现可识别的外观,其特征是着丝粒的位置和染色体制备染色后出现的条带图案(见图 7.5)。因此,这种类型的 FISH 可以识别标记相对于着丝粒和染色体条带的位置,但无法实现任何程度的高分辨率图谱绘制,两个标记必须至少相距 才能被解析为分离的杂交信号。因此,中期 FISH 的主要应用是确定新标记位于哪条染色体上,并提供其图谱位置的粗略概念,作为其他方法进行更精细图谱绘制的预备步骤。
在 1990 年代,开发了 FISH 的修改版本,其中目标材料不是中期结构,而是机械拉伸的染色体或从核分裂的前期或间期阶段制备的染色体,此时染色体自然更加延伸。
即使有这些创新,相距小于 的标记也无法解析。为了进一步提高 FISH 的分辨率,因此有必要放弃完整的染色体,而是使用纯化的 DNA。这种方法最初称为纤维 FISH,本质上是光学图谱绘制的修改版本,并在微流体装置中用拉伸的 DNA 片段进行,架构类似于上述描述的那些。与限制位点图谱绘制相比,纤维 FISH 的优势在于探针可以设计为靶向任何所需的 DNA 序列,因此可以检测的标记类型没有限制。
图 3.32 一段短的肽核酸。肽核酸具有酰胺骨架,而不是标准核酸中发现的糖磷酸结构。
这种类型的光学图谱绘制面临的主要挑战是确保探针在 DNA 片段延伸并通过微流体通道和检测器时保持附着在其特定位置。使用传统杂交探针,目标 DNA 必须至少部分变性以暴露探针退火的单链区域。然后第二条 DNA 链将与探针竞争并可能取代它,重新形成双链分子。如果这发生在 DNA 通过检测器之前,那么将无法获得数据。这个问题的一个解决方案是使用肽核酸 (PNA) 作为探针。这是一种多核苷酸类似物,其中糖磷酸骨架被酰胺键替代(图 3.32)。PNA 探针与其在 DNA 分子上的目标之间的杂交比正常的 DNA-DNA 相互作用更稳定,原因有两个。首先,DNA-DNA 杂合体的稳定性在某种程度上被两个多核苷酸的带负电荷的糖磷酸骨架之间的排斥作用削弱。PNA 的酰胺骨架不带电荷,因此不会发生这种排斥。其次,PNA 可以通过两种不同的方式与其目标进行碱基配对。除了通过标准的"Watson-Crick"碱基对附着外,高嘧啶含量的 PNA 还可以与目标形成 Hoogsteen 碱基对。Hoogsteen 碱基对涉及与 Watson-Crick 碱基对相同的组合(A-T 和 G-C),但保持配对的氢键涉及嘌呤和嘧啶碱基上的不同基团(图 3.33)。这意味着单个 DNA 链可以同时附着两个 PNA,一个通过 Watson-Crick 配对,一个通过 Hoogsteen 配对。产生的三重结构 比 DNA-DNA 杂合体更稳定,因此在光学图谱绘制过程中不太可能分解。
当使用荧光探针进行光学图谱绘制时出现的杂合体不稳定性问题如果荧光标记能够直接并入所检查的 DNA 分子中将会避免。这可以通过缺口翻译实现,这是一种标记 DNA 的久经验证的方法,涉及将 DNA 聚合酶附着到单链缺口,然后替换断裂多核苷酸的短片段,向反应混合物中添加一个或多个荧光核苷酸作为链合成的底物(图 3.34)。在标准方法中,缺口通过用单链特异性内切酶如 DNase I 处理 DNA 在随机位置产生。对于光学图谱绘制,目标是在特定位置标记 DNA,使用称为缺口内切酶的限制性内切酶变体。这些酶识别特定的核苷酸序列,但不是在 DNA 中制造双链断裂,而是只切割一条链,产生序列特异性缺口。然后聚合酶标记缺口附近的 DNA,使识别序列的位置能够通过光学图谱绘制识别。一些缺口内切酶是天然存在的细菌或噬菌体酶,而其他酶是标准限制性内切酶的工程化版本。后者的一个例子是 ,它包括两个亚基,每个亚基在其 - CCTCAGC- 3 目标序列切割不同的链。其中一个或另一个亚基的催化位点突变导致两个修饰酶 Nb.BbvCI 和 Nt.BbvCI,它们在识别序列处缺口而不是切割 DNA。
图 3.33 Hoogsteen 碱基对。这种类型的碱基配对可以在 PNA 和 DNA 链之间形成。
图 3.34 缺口翻译。DNA 聚合酶 I 附着到单链缺口并替换断裂多核苷酸的短片段。如果向反应混合物中添加一个或多个荧光核苷酸,那么这些将被并入新合成的链中。
如果使用缺口内切酶,那么如果酶的两个识别序列位于目标 DNA 上距离大约 400 bp 以内的位置,可能会出现问题。如此接近的两个缺口形成"脆弱位点",可能影响双链分子的完整性,因为两个缺口之间区域的碱基对可能不足以将两个多核苷酸保持在一起。如果碱基配对被破坏,那么 DNA 将断裂成两段,减少可获得的光学图谱的长度。通过使用序列特异性 DNA 甲基转移酶作为直接标记酶可以避免这个问题。这是一种将甲基从 - 腺苷甲硫氨酸转移到双链 DNA 分子内腺嘌呤或胞嘧啶核苷酸的酶。如果 - 腺苷甲硫氨酸供体分子以适当的方式进行荧光标记,那么标签会连同甲基一起转移到 DNA 上。一个例子是 DLE-1,它甲基化其 - CTTAAG- 识别序列中的第二个腺嘌呤,而不向 DNA 分子引入缺口或任何其他类型的损伤(图 3.35)。当与微流体成像系统一起使用时(见图 3.30),直接标记方法使重要作物植物高粱 基因组的 能够被绘制图谱。
图 3.35 直接标记。直接标记酶 DLE-1 在完整双链 DNA 分子中直接向 -CTTAAG- 序列中的第二个腺嘌呤添加荧光甲基。
在我们探索这种方法时,还有两个光学图谱绘制的创新我们应该简要考虑。这些创新与基因组图谱上标记位置的识别没有直接关系,但仍然提供关于基因组结构和表达的重要信息:
图 3.36 适合 STS 图谱绘制的片段收集。片段跨越染色体的整个长度,染色体上的每个点平均在五个片段中存在。两个蓝色标记在染色体图谱上彼此接近,它们在同一片段上发现的概率很高。两个绿色标记彼此相距较远,因此不太可能在
物理图谱绘制的第二种方法涉及将标记分配给基因组片段,基于两个出现在同一片段中的标记在基因组中必须彼此靠近定位的原理。在这种方法中,每个标记被称为序列标记位点 (STS)。STS 只是一个短的 DNA 序列,通常长度在 100 bp 到 500 bp 之间,易于识别且在正在研究的染色体或基因组中只出现一次。要绘制一组 STS 的图谱,需要来自单个染色体或整个基因组的重叠 DNA 片段集合。在图 3.36 所示的例子中,已经从单个染色体制备了片段集合,染色体上的每个点平均在集合中出现五次。将用于导出图谱的数据通过确定哪些片段包含哪些 STS 获得。这可以通过杂交分析完成,但通常使用 PCR,因为它更快且已被证明更适合自动化。两个 STS 存在于同一片段上的机会当然取决于它们在基因组中彼此有多接近。如果它们非常接近,那么它们总是在同一片段上的机会很大;如果它们相距较远,那么有时它们在同一片段上,有时不在。因此,数据可以用于计算两个标记之间的距离,以类似于通过连锁分析确定图谱距离的方式(第 3.4 节)。记住,在连锁分析中,图谱距离是根据两个标记之间发生交换的频率计算的。STS 图谱绘制本质上是相同的,除了图谱距离基于两个标记之间发生断裂的频率。
上面给出的 STS 图谱绘制描述遗漏了一些关键问题:STS 究竟是什么?DNA 片段集合是如何获得的?
要符合 STS 条件,DNA 序列必须满足两个标准。第一个是必须知道其序列,以便可以建立 PCR 检测来测试 STS 在不同 DNA 片段上的存在或不存在。第二个要求是 STS 必须在正在研究的染色体中或在整个基因组中(如果 DNA 片段集覆盖整个基因组)具有唯一位置。如果 STS 序列在多个位置出现,那么图谱绘制数据将是模糊的。因此,必须小心确保 STS 不包括在重复 DNA 中发现的序列。
这些是容易满足的标准,STS 可以通过多种方式获得,最常见的来源是表达序列标签 (EST)、SSLP 和随机基因组序列。
图 3.37 制备 cDNA 的一种方法。大多数真核 mRNA 在其 端有一个 poly(A) 尾(第 1.2 节)。这一系列 A 核苷酸被用作 cDNA 合成第一阶段的引物位点,由逆转录酶进行——一种复制 RNA 模板的 DNA 聚合酶(第 2.1 节)。引物是一个短的合成 DNA 寡核苷酸,通常长 20 个核苷酸,完全由 T 组成("oligo(dT)"引物)。当第一链合成完成后,制备物用核糖核酸酶 H 处理,该酶特异性降解 RNA-DNA 杂合体的 RNA 组分。在使用的条件下,酶不会降解所有 RNA,而是留下短片段,这些片段引发第二次 DNA 链合成反应,这次由 DNA 聚合酶 I 催化。该聚合酶具有 外切酶活性(第 2.1 节),因此能够降解 RNA 引物并用 DNA 替换这些,完成 cDNA 第二链的合成。
STS 图谱绘制程序的第二个组成部分是跨越正在研究的染色体或基因组的 DNA 片段集合。这个集合有时被称为图谱试剂,目前有两种方式可以组装它:作为克隆文库和作为辐射杂种面板。我们将首先考虑辐射杂种。
(A) 染色体辐射
(B) 细胞融合产生辐射杂种 图 3.38 辐射杂种。(A) 人类细胞辐射的结果:染色体断裂成片段,较高的 X 射线剂量产生较小的片段。在 (B) 中,通过将辐射的人类细胞与未处理的仓鼠细胞融合产生辐射杂种。为了清楚起见,只显示细胞核。
辐射杂种是包含来自第二个生物体的染色体片段的细胞或生物体。该技术最初是用人类染色体开发的,始于 1970 年代,当时发现将人类细胞暴露于 3000-8000 rad 的 X 射线剂量会导致染色体随机断裂成片段,更大的 X 射线剂量产生更小的片段(图 3.38A)。这种处理对人类细胞当然是致命的,但如果辐射细胞随后与未辐射的仓鼠或其他啮齿动物细胞融合,染色体片段可以传播。融合通过聚乙二醇化学刺激,或通过暴露于仙台病毒刺激(图 3.38B)。并非所有仓鼠细胞都摄取染色体片段,因此需要识别杂种的方法。常规选择过程是使用无法制造胸苷激酶 (TK) 或次黄嘌呤磷酸核糖转移酶 (HPRT) 的仓鼠细胞系,在含有次黄嘌呤、氨基喋呤和胸苷混合物 (HAT 培养基) 的培养基中生长时,这两种酶中任一种的缺陷都是致命的。融合后,将细胞置于 HAT 培养基中。那些生长的是杂种仓鼠细胞,已经获得包括人类 TK 和 HPRT 酶基因的人类 DNA 片段,这些酶在杂种内合成,使这些细胞能够在选择性培养基中生长。处理导致杂种细胞含有插入仓鼠染色体中的随机选择的人类 DNA 片段。通常片段大小为 5-10 Mb,每个细胞含有相当于人类基因组 的片段。细胞集合称为辐射杂种面板,可以用作 STS 图谱绘制中的图谱试剂,前提是用于识别 STS 的 PCR 检测不会扩增仓鼠基因组的等效区域。
辐射杂种图谱绘制在构建人类基因组的第一个物理图谱中很重要,少于 200 个杂种的面板使 41,000 个 STS 能够以 分辨率绘制图谱。这意味着如果两个标记相距小于 ,那么它们将出现在基因组中占据相同位置。这种分辨率程度远不如光学图谱绘制,后者可能区分相距小于 500 bp 的标记,但对于未测序基因组的初始图谱绘制仍然令人满意。在人类基因组取得成功后,辐射杂种图谱绘制被应用于其他哺乳动物和非哺乳动物物种,如斑马鱼和鸡。在适应该技术用于植物方面也取得了一些进展。例如,大麦辐射杂种面板是通过辐射大麦原生质体以片段化其染色体,然后将这些细胞与烟草原生质体融合而创建的。棉花面板是通过辐射一种棉花 Gossypium hirsutum 的花粉,然后使用这种花粉受精相关物种 Gossypium barbadense 产生的。类似的方法对小麦证明是成功的,一项使用 115 个辐射杂种面板的研究使 26,299 个 SNP 能够以 分辨率映射到 D 基因组。
有时,大而复杂基因组测序的预备任务是将基因组或分离的染色体分解成片段,并在高容量载体如 BAC(第 2.3 节)中克隆每一个。这导致克隆文库,一个 DNA 片段集合,平均大小为几百 kb。各种克隆中的片段形成重叠系列,这意味着除了支持测序工作外,克隆文库也可以用作 STS 分析中的图谱试剂。
克隆文库可以从基因组 DNA 制备,在这种情况下它代表整个基因组,或者如果起始 DNA 来自只有一种类型的染色体,可以制备染色体特异性文库。后者是可能的,因为个体染色体可以通过流式细胞术分离。为了进行这种技术,分裂细胞(具有凝缩染色体的细胞)被小心地打开,以便获得完整染色体的混合物。然后用荧光染料染色染色体。染色体结合的染料量取决于其大小,因此较大的染色体结合更多染料并比较小的染色体荧光更亮。染色体制备被稀释并通过细孔,产生液滴流,每个液滴含有单个染色体(图 3.39)。液滴通过检测器,该检测器测量荧光量,从而识别哪些液滴含有所寻求的特定染色体。对这些液滴施加电荷,而不对其他液滴施加电荷,使含有所需染色体的液滴能够被偏转并与其余液滴分离。如果两个不同的染色体具有相似的大小,如人类染色体 21 和 22 的情况,会怎样?如果使用的染料不是非特异性结合 DNA 的染料,而是对 AT 或 GC 富集区域有偏好的染料,通常可以分离这些染色体。这类染料的例子分别是 Hoechst 33258 和 chromomycin A3。大小相同的两条染色体很少具有相同的 GC 含量,因此可以通过它们结合的 AT 或 GC 特异性染料的量来区分。
图 3.39 通过流式细胞术分离染色体。荧光染色的染色体混合物通过小孔,使出现的每个液滴只含有一条染色体。荧光检测器识别来自含有正确染色体的液滴的信号,并对这些液滴施加电荷。当液滴到达电板时,带电的液滴被偏转到单独的烧杯中。所有其他液滴直接通过偏转板掉落。
与辐射杂交板相比,克隆文库在进行STS(序列标签位点)作图时有一个重要优势。这个优势在于,通过组装重叠的克隆可以获得作为基础材料的长而连续的DNA序列,然后利用STS数据便可将这段序列精确地锚定到物理图谱上。如果这些STS中还包含了已通过连锁分析定位的SSLP(简单序列长度多态性)或SNP(单核苷酸多态性),那么DNA序列、物理图谱和遗传图谱就都可以整合在一起了。