重温一代测序,为先驱们的智慧点赞。有些生命科学发明,看似并不复杂,比如 PCR,就是热水中的链合成反应。东西印迹、西方印迹,就是一块破布(来自本人一位大学老师)。今天要学习的一代测序,就是DNA合成反应末端终止加上毛细管电泳。 但是,它们都确确实实是生命科学史上最伟大的发明之一。
1981年,James W. Jorgenson和Krynn D. Lukacs发明了效率更高的毛细管电泳。
同一时期,1985年,Kary Mullis发明了PCR技术。这一技术随后的广泛应用使DNA的制备变得空前容易。
而就比Mullis早了一年,生物化学家、两次诺贝尔化学奖获得者、同时也身为蛋白质测序技术奠基人的Fredrick Sanger发明了双脱氧阻断法测序。这一测序方法最终脱颖而出,成为了至今仍广泛应用的一种一代测序技术。
Sanger老爷子:
腺嘌呤核糖核苷酸:
腺嘌呤脱氧核苷酸:
戊糖分子上共有4个羟基。其中,呋喃型核糖(即最常见的环状核糖,下文简称核糖)是核酸的组成部分之一,它的4个羟基有着不同的分工。核糖在1'羟基上连接含氮碱基,在4'羟基上连接磷酸基团,即形成核糖核苷酸,它是RNA的结构单元。这时仍存在2' 3'两个游离羟基。2' 羟基可以脱去,变为氢原子。此时,核糖总体上少去一个氧原子,变为脱氧核糖。相应地,核糖核苷酸变为脱氧核苷酸。它是DNA的结构单元。
而3'羟基的功能则是与磷酸基团酯化。它可以与核苷酸自身的磷酸基团酯化形成环化核苷酸,从而参与细胞内信息传递;也可以与另一个核苷酸的磷酸基团成键,从而使单个的核苷酸聚合形成多聚核苷酸,进而形成长链核酸。
同样地,核苷酸的3' 羟基也可以脱去。此时,下一个核苷酸的磷酸基团失去作用位点而无法与其连接,核酸长链无法继续增加。
腺嘌呤双脱氧核苷三磷酸:
DNA的结构单元(脱氧核苷酸)脱去3' 羟基后,称为双脱氧核苷酸。若在DNA复制时将原料换为双脱氧核苷酸,则会导致聚合酶无法继续延伸DNA单链,复制失败。双脱氧阻断法测序正是应用了这一原理。
PCR技术发明之前,生物学界已经能使用单个引物在细胞外体系中一次延伸一条与模板互补的DNA单链,制备少量DNA。双脱氧阻断法测序亦使用这样的单链复制作为测序反应的主体。不同的是,它会在延伸的原料(4种脱氧核苷酸三磷酸)中少量掺入一种双脱氧核苷三磷酸。结果可想而知:例如,在掺入胸腺嘧啶双脱氧核苷三磷酸(ddTTP)的体系中,单链延伸时,聚合酶有概率将ddTTP当作dTTP作为原料,添加到正在延伸的DNA单链上,从而导致那一条单链的延伸停止在胸腺嘧啶处。我们若在反应体系中加入足量模板DNA、原料和dTTP,则理论上可以得到一组在所有胸腺嘧啶位置终止的新生单链。由于长度不一,它们有着不同的分子量。
那如果我们分别开启4个反应呢?
在4个相同的反应体系中分别加入腺嘌呤双脱氧核苷三磷酸(ddATP)、胞嘧啶双脱氧核苷三磷酸(ddCTP)、鸟嘌呤双脱氧核苷三磷酸(ddGTP)、胸腺嘧啶双脱氧核苷三磷酸(ddTTP),即可分别获得4组单链,它们与模板DNA互补,并分别在腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)处终止。
双脱氧阻断法测序原理图:
如果在ddATP体系中,通过分子量推断新生单链延伸了5、25、30……个碱基,那么也就是说它们在第5、25、30……位终止了反应。根据碱基互补配对原则,一般情况下我们便可以认定模板链在这几位处是与A互补的T。其他体系同理。
在做出如此判断之前,我们需要先显化反应结果,分离出不同终止基团、不同长度(即分子量)的单链。这一工作最初通过超长聚丙烯酰胺凝胶电泳完成:在一条一米甚至更长的聚丙烯酰胺凝胶上共有5个泳道,分别加入DNA Marker以及4个反应的产物,通电,DNA单链即会向前迁移,且长度越小,分子量越小,迁移速率越快。于是,同一泳道的不同单链散开。电泳完成后,将凝胶染色,即可从下而上读取长度递增的显影条带。分别按读取顺序和泳道顺序,可以确认新生链某个位置的碱基,从而得到模板链对应位置的碱基。例如,读取到第25个条带位于ddATP泳道,推断新生链(除去引物序列)5'端第25位为A,则模板链3'端第25位即为T。
从凝胶电泳到毛细管电泳到新一代测序技术(NGS):
很明显,这一方法有着巨大缺陷:超长的凝胶会导致制备上的低效,也要求实验室具备特殊的超长电泳槽,使得双脱氧阻断法测序难以普及;电泳结果必须在染色后人工读取,自动化程度很低。
于是,双脱氧阻断法的读取步骤被改良,毛细管电泳和荧光基团标记法被引入:在延伸时,加入的4种双脱氧核苷三磷酸都被带上了不同颜色的荧光基团。它们产生的不同光信号可以通过激光扫描被自动读取。
4个反应体系被混为一个,反应完成后进行毛细管电泳。此时,不再采用电泳后显影-读取的低效率模式,而是边电泳边读取:将毛细管穿过激光扫描仪,通电后,长度越小的一组单链移动越快,越先到达扫描仪处。此时,它们末端的双脱氧核苷酸携带的荧光基团被激活,并发出特定的荧光信号。扫描仪识别此处的荧光信号,对应数值的上升在测序图谱中形成一个峰。如此,单链不断到达扫描仪,其荧光信号对应的峰在图谱中顺次排列,形成峰图。
Applied Biosystem(ABI)公司使用激光扫描,推出了第一款半自动一代测序仪ABI370,随后加入毛细管电泳技术制成了ABI310。于是,双脱氧阻断法测序逐渐成为了应用最广的一代测序。如今,ABI公司的一代测序仪已成为行业中的金标准。也正是因为其领先性,测序峰图的后缀以其命名,写作.abi或.ab1(后者现今常见的多)。
计算机的进步、生物信息软件的开发使得ab1文件中的峰可以自动被认读为对应核苷酸,从而读出完整的序列。拥有这一功能的软件有很多,比如MEGA、BioEdit等软件的序列编辑器都兼有查看峰图的功能。
但是一代测序仍有缺陷。
反应体系有限。每一次阻断都会减少继续延伸的链的数量,造成峰图信号缓慢地衰减。同时,分子量越大,DNA单链间分离所需的时间越长。毛细管电泳无法无限制地读取过长的链。综合以上的负面因素,一代测序的有效读长在1000bp以下。一般在700bp后,峰变弱,峰形状改变,不再为美观的钟形,此时,认读出的序列质量显著下降。同时,峰的信号也不断变弱直至无法分辨。
这显然远少于某些引物的扩增长度。比如,常用于真菌菌种鉴定的内转录间隔区引物ITS1/ITS4分别附着于18s rDNA、28s rDNA上,扩增中间的内转录间隔区1(ITS1)、5.8s rDNA、内转录间隔区2(ITS2),以及侧翼的少量18s rDNA及28s rDNA,总长度约为1100bp,显然不能被一代测序一次性读完。于是就有了双向测序,使用正反2个引物,通过2次反应分别读出2个互补的峰图,并拼成最终的测序结果。 在这个过程中,两个峰图的认读结果相互配对,组成最终的ITS区段,在单链测序过程中产生的小错误也能在匹配后被发觉,并得到修正。这称为组装。笔者在进行一代测序时,即使目标片段大小在700bp以下,也会使用双向测序,组装形成更加精准的序列。
导入峰图:
序列的组装可使用DNAMAN、SeqMan(DNAStar)、SnapGene、Chromus Pro等软件完成。笔者使用的是Vector NTI软件包中的ContigExpress。这个软件可以更高效地批量处理峰图,特别适用于大规模测序后的批量峰图质控和组装。
在ContigExpress的顶部菜单栏中,选择File > Add Fragments > from ABI File将峰图文件导入软件主界面。此时,双击峰图图标,即可在新开弹窗中看到彩色峰图。注意观察的话,你大概能留意到以下几种情况:
在理想状态下,测序仪得到的峰图应该由高度相差不大的、排列大致等距的钟形峰组成。在每一个位置,只有一个可被辨认的峰。
完好峰形:
在扩增多拷贝基因时,得到的是细胞中所有该基因拷贝的产物的混合物。若该基因具有在同一位点有大量点突变存在,即存在不同基因型,我们可以观察到在峰图的对应位置有一高一低两个峰嵌套在一起,或有两个等高的峰融合在一起。若有小部分片段为杂合,亦可通过峰图看到有两组峰的片段。如果需要测序杂合序列的其中一条,则需在PCR完成后给产物连接至复制载体,导入菌体建立文库后挑取多个菌株分别测序。
3个SNP位点:
若PCR扩增效果不佳,会导致目的片段与非特异性扩增一起被测序。它们形成的峰图叠加在一起,会形成看起来混乱的重叠峰。此时,如果重叠峰可以分出明显的主次,即一组峰明显高于另一组,则可用Blast比对确认主峰是否为目的片段,若是,则仍然获得正确的测序结果,并可通过与反义链组装对结果进行进一步的校正。重叠峰亦可由poly结构和杂合片段产生。
重叠峰:
多个相同的核苷酸聚合在一起(例:AAAAAAAAA)或多个相同的短片段聚合在一起(例:ATATATATAT)形成的片段称为poly(多聚)结构。这一结构会引发多种测序失败的结果:polyA和polyT由于氢键较少,和新生链结合较弱,会导致聚合酶从DNA上脱落,造成测序信号衰减;邻近的互补poly(例:CCCCCCCAATGGGGGGGG)会互补配对,使DNA单链形成茎环(发夹状二级结构),阻止聚合酶向前延伸;当聚合酶经过poly结构时,由于前后的核苷酸都相同,聚合酶可能会向前/向后滑动若干个核苷酸,导致新合成的单链中,poly的长度不一致,在电泳时,不同长度的链相互错开,导致峰图中poly结构以后的部分由多组poly长度不同的峰错开叠成,形成重叠峰。这种重叠峰有时被测序公司称为“后双峰”。
Poly结构及其导致的重叠峰:
长度较短的poly(5bp及以下)不大可能导致聚合酶滑动,但是聚合酶频繁地经过poly结构会增大其脱落的概率,导致测序信号的衰减速度快于一般速度,峰高快速下降并很快难以分辨。
信号衰减:
一代测序本身带有少量底噪,这可能是由于少量先行的链或原料卡在毛细管电泳的分子筛中、检测灵敏度以及环境中的光信号干扰导致的。若峰图中不见明显的峰,而是混乱的4种掺在一起的线,则为底噪,目标片段由于信号弱/无信号而难以被辨别。出现此种问题可能由于测序引物亲和力差/模板浓度过低。
无信号:
扩增使用的Taq DNA聚合酶缺失3’核酸内切酶活性并具有末端转移酶活性。每次扩增时,会在产物尾部转移一个腺嘌呤(A)形成粘性末端。这个A在产物较短时可能被读出。尾部多余的A可能造成拼接时头尾插入缺位,可以剪去。
末端A:
在完成对峰图的初步观察后,我们开始进行初步的质控。这一步质控主要是剪去序列两端模糊和变形的峰。一般考虑剪去前50bp峰距不等、有部分重叠的片段,及后700-800bp信号衰减过强、峰与峰之间出现黏着感、峰变形的片段。这些片段的测序未必不正确,但可能出现碱基的高频率漏读等情况。修剪时,将鼠标悬停于需要修剪的片段的核苷酸序列上然后拖动选择,按退格键或删除键删去即可;对于需要修剪的较长片段,可先选择开头的2-3个核苷酸。此时,右上角的序列编辑器的光标也会自动跳转到该位置。随后,即可在序列编辑器中更快地完成选择。对于出现重叠峰的序列,此时不必急于剪去套峰的部分,而应稍多地保留峰形规整、两组信号之间未错开的重叠片段。这会使接下来的序列拼接更加轻松;同时,错读的部分可以在组装时被进一步修正。
修剪前50bp的不美观区域:
修剪末端。此处出现无峰图的序列是因为这条峰图的送测样本中含有少量被扩增出的人源序列:
修剪后可见被剪去的部分在峰图顶端核苷酸字符消失、在序列查看器中变为上方带箭头的红色。修剪完一条峰图后,按Ctrl S保存修剪结果。
完成质控后,我们对序列进行组装。ContigExpress中的序列组装可以使用多种方式。你可以左键拖动反义链的峰图并在正义链释放,这样,反义链就会被自动反向互补并组装到正义链上。(笔者注:这一步不绝对,需要多次尝试;或在组装完成后用软件内功能进行反向互补。)
组装:
或者,也可以按住Ctrl键点击两条需要组装的序列,然后在顶部菜单栏上找到'Assemble Selected'的图标按钮,点击即可。
在完成组装后,两条峰图会被收入到一个叫做'Contig ***'的文件夹。双击这个文件夹,即可打开这一组装的校对界面。
在界面中,左上角处我们可以查看到两条峰图的重叠情况。其中,正义链箭头向右,反义链箭头向左,且带有'complementary(互补)'的字样。下方若出现绿色折线图则代表缺位情况,即:一条峰图出现核苷酸漏读,软件在组装重叠区域时在漏读的地方插空;或重叠峰导致核苷酸被错认,而被引入缺位。若缺位过多,则可能代表两条峰图的序列其实并不匹配,测序质量过差,需要重测。
接下来,我们在顶部菜单栏找到Viewing Options图标按下,然后将Show alignment as的显示从'Sequence'改为'Graph(峰图)',确认后下方即会显示出两条序列的峰图。
开启峰图查看:
显示峰图的组装:
接下来,我们开始校正不一致的核苷酸。在上方菜单栏中找到’find next ambiguous’图标并点击,会自动1跳转到下一个不一致(简并碱基)位置。此时,在最下方拖动选择简并碱基(红色),在键盘上按下需要改成的碱基即可。然后继续点击’find next ambiguous’,跳转至下一个简并碱基进行校正。
若组装质量良好或校正到最后一处,则弹窗显示无更多模糊区域。
寻找简并碱基的按钮及无更多模糊区域时的弹窗:
在修正简并碱基时我们可以进行一定的逻辑判断。若为SNP位点则可以保留;若其中一个峰形状不明显则应选择另一个峰;若有一条峰图出现重叠峰则应选择另一条峰图;若均为重叠峰则应优先选择同时在两条峰图中出现的峰。
在一条序列出现重叠峰时,使用另一条序列对应的峰图校准:
完成对重叠峰的校准后开始校准缺位区域。在右上角的组装查看器中找到缺位后,拖动选择邻近的一段区域,下方即可自动跳转到对应的位置。在示例中,唯一的一处缺位是由于反义链始端的两个T过于邻近、无法被认读造成的。直接保留即可。
组装完成后,按Ctrl+S保存。(注意:校对时若删除过缺位,此时可能导致软件闪退!解决方案见Q&A)然后将其导出为fasta文件:先将组装改个名,方便后续的识别和操作。点击其文件夹,按F2或右键菜单’Rename’完成重命名;然后右键菜单’Export Contig – Fasta File’,选择输出目录,然后指定文件名,确认导出即可。
通过在右上角的组装查看器拖动选择快速定位到缺位区域:
Seq文件是从峰图中直接提取出来的序列,最大的弊端是不能体现出核苷酸质量。直接使用Seq文件组装会导致质量下降。同理,测序公司组装的fasta文件头尾质量也未必好。由于笔者专攻分子系统发育,对整条序列的质量要求都比较高,且使用的测序公司并不提供组装服务,所以一惯自行组装。
ContigExpress现在有两种形式,一种是ThermoFisher官网中的VectorNTI整合包,ContigExpress是其中的一个组件。笔者使用过这个整合包,但是认为这其中的ContigExpress操作性并不好,主要是因为峰图图像包络线过细难以辨认、窗口固定难以调整、每进行一步操作都会弹窗提示;
另一种ContigExpress是笔者使用的版本。它是从较早的VectorNTI整合包中分离出来的。下载有困难的同学,可以到公众号【简说基因】的QQ交流群(群号:925694514)获取。
首先,ContigExpress里面的所有组装是可以统一保存的。在主界面按Ctrl+S即可把当前页另存为一个组装工程。勤加保存的话,在遇到闪退时可以打开工程文件进行复位。
然后,对于修剪过缺位的组装,可以在底部栏(即:总体序列)点击,出现光标后,按Ctrl+A全选,复制,粘贴到一个文本文档中,并添加FASTA文件的注释头,格式如下:
>序列标题(注释)
AATCA……(序列)
然后将文件后缀改为.fas即可。
保存校对结果后,点击该组装对应的文件夹,点击make reverse complement,然后导出新生成的反向互补序列即可。如果该组装涉及缺位删减而无法存储(闪退),则可手动将序列上传至其他反向互补工具,获得反向互补序列(可在 usegalaxy.cn 云平台搜索工具:revseq)。
目前支持一代测序组装的软件除ContigExpress外,还有DNAMAN、SeqMan、Chromas Pro、SnapGene、Geneious Prime等。DNAMAN不能直接拼接峰图而SeqMan可以;但笔者认为两者的操作模式效率低于ContigExpress;Chromas Pro、Geneious Prime是较好的选择,其中Chromas Pro很有特色,可以计算每个核苷酸的质量并显示。但是,两者均为商业软件且费用较贵;SnapGene的自动缩放峰图功能很好,可以看清一些信号衰减较快的序列的后半部分;但它也需要付费,且适合用于组装单个较长的序列(比如整个载体的测序)。
遇到这种情况,一是因为质控时修剪过多,二是因为测序质量差。如果遇到poly导致的后双峰情况,如果直接在poly后面修剪掉全部后双峰可能导致拼接不上,建议保留后50bp区域组装,然后手动校正简并碱基;如果一直拼不上,或者拼接完成后中间的缺位非常多,可能测序了非特异性片段,建议调整方案并重新送样测序。