在上一期节目中,我们共同搭建了长读长人类基因组重测序分析的地基,梳理了从碱基识别(Basecalling)、质量控制(QC)到参考基因组比对(Alignment)的前半部分流程。如果说前三步是数据的“清洗与定位”,那么今天我们要讲解的后半部分——变异检测、单倍型分型以及变异注释,则是数据的“挖掘与解读”,是真正产出生物学价值的核心环节。 让我们继续沿着 Genome Research 最新综述的脉络,深入探索长读长测序如何重新定义基因组分析的标准范式。
第四步:变异检测(Variant Calling)——多维度的精准捕获
在整个重测序流程中,变异检测无疑是最关键的一步。不同于二代测序主要聚焦于点突变,长读长测序的变异检测是一个多维度的过程,通常涵盖以下五大类:
随着深度学习模型(如DeepVariant, Clair3)的引入,PacBio HiFi数据的SNV检测精度已达到二代测序水平,ONT数据在最新算法加持下也取得了巨大突破。长读长不再只是“读得长”,它同样“读得准”。
这是长读长测序真正的杀手锏。包括大片段的插入、缺失、倒位、重复和易位。由于长读长序列能够完整跨越结构变异的断点(Breakpoints)和复杂区域,它在检测灵敏度、假阳性控制以及变异边界定位方面,远优于基于短读长推断的方法。
许多神经退行性疾病(如亨廷顿舞蹈症、脆性X综合征)由短串联重复序列异常扩增引起。长读长能够直接“读通”完整的重复单元区域,不再依赖统计学推断,从而能够准确计算重复次数并检测序列内部的异质性,被视为该领域的检测“金标准”。
长读长对CNV的检测策略正在不断完善,它不单依赖单一指标,而是综合了多种信号进行判断:
这使得长读长在检测较大的基因组扩增或缺失时表现出稳健的性能。
长读长最具变革性的一点在于,它在获取ATCG序列的同时,还能直接输出碱基修饰信号(如5mC甲基化)。这意味着在不改变实验流程的前提下,就可以获得表观遗传学层面的信息,即可实现“基因组测序 + 表观修饰检测”的一站式完成,为疾病研究和功能基因组学提供了额外的表观遗传学维度。

第五步:单倍型分型(Phasing)——区分“父源”与“母源”

由于Read足够长,一条序列往往能同时覆盖多个杂合变异位点,这使得每条序列天然携带了父源或母源的连续遗传信息(Linkage)。 通过分型分析(Phasing),我们可以明确判断两个变异位点是位于同一条染色体(顺式,Cis)还是分别位于两条同源染色体(反式,Trans)。
第六步:变异注释(Annotation)——从数据到意义
分析的终点是回答“检测到的变异意味着什么?”。变异注释是将生物学意义赋予ACGT变化的过程。
总结
至此,我们通过两期节目,系统梳理了基于长读长的人类基因组重测序标准分析流程:从精准的碱基识别出发,经过严格的质控与比对,深入进行多维度的变异检测,利用单倍型分型理清遗传来源,最终通过注释揭示生物学意义。
好了,这期节目就到这里,我们下期见!
额外知识:
检测 CNV 需要依据多个“线索”,没有一种信号能独立判断: