首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >三代测序100问(23):基于长读长测序的人类基因组重测序分析流程02

三代测序100问(23):基于长读长测序的人类基因组重测序分析流程02

作者头像
天意生信云
发布2025-12-25 14:49:58
发布2025-12-25 14:49:58
1270
举报

在上一期节目中,我们共同搭建了长读长人类基因组重测序分析的地基,梳理了从碱基识别(Basecalling)、质量控制(QC)到参考基因组比对(Alignment)的前半部分流程。如果说前三步是数据的“清洗与定位”,那么今天我们要讲解的后半部分——变异检测、单倍型分型以及变异注释,则是数据的“挖掘与解读”,是真正产出生物学价值的核心环节。 让我们继续沿着 Genome Research 最新综述的脉络,深入探索长读长测序如何重新定义基因组分析的标准范式。

第四步:变异检测(Variant Calling)——多维度的精准捕获

在整个重测序流程中,变异检测无疑是最关键的一步。不同于二代测序主要聚焦于点突变,长读长测序的变异检测是一个多维度的过程,通常涵盖以下五大类:

  1. 单碱基变异与小片段插入缺失(SNV/Indel)

随着深度学习模型(如DeepVariant, Clair3)的引入,PacBio HiFi数据的SNV检测精度已达到二代测序水平,ONT数据在最新算法加持下也取得了巨大突破。长读长不再只是“读得长”,它同样“读得准”。

  1. 结构变异(SV):长读长的“主战场”

这是长读长测序真正的杀手锏。包括大片段的插入、缺失、倒位、重复和易位。由于长读长序列能够完整跨越结构变异的断点(Breakpoints)和复杂区域,它在检测灵敏度、假阳性控制以及变异边界定位方面,远优于基于短读长推断的方法。

  1. 串联重复扩增(TR):神经遗传病的“金标准”

许多神经退行性疾病(如亨廷顿舞蹈症、脆性X综合征)由短串联重复序列异常扩增引起。长读长能够直接“读通”完整的重复单元区域,不再依赖统计学推断,从而能够准确计算重复次数并检测序列内部的异质性,被视为该领域的检测“金标准”。

  1. 拷贝数变异(CNV):综合信号的判断

长读长对CNV的检测策略正在不断完善,它不单依赖单一指标,而是综合了多种信号进行判断:

  • 测序深度(Read Depth): 区域拷贝数增加会导致覆盖深度显著升高,反之则下降。
  • 比对模式(Alignment Patterns): 某些长读段在断点处无法正常比对(Split reads),提示结构发生改变。
  • 片段长度分布: 异常的插入或缺失会导致读段在特定区域的堆积或分布异常。

这使得长读长在检测较大的基因组扩增或缺失时表现出稳健的性能。

  1. 碱基修饰(Base Modification):表观遗传的“免费午餐”

长读长最具变革性的一点在于,它在获取ATCG序列的同时,还能直接输出碱基修饰信号(如5mC甲基化)。这意味着在不改变实验流程的前提下,就可以获得表观遗传学层面的信息,即可实现“基因组测序 + 表观修饰检测”的一站式完成,为疾病研究和功能基因组学提供了额外的表观遗传学维度。

第五步:单倍型分型(Phasing)——区分“父源”与“母源”

由于Read足够长,一条序列往往能同时覆盖多个杂合变异位点,这使得每条序列天然携带了父源或母源的连续遗传信息(Linkage)。 通过分型分析(Phasing),我们可以明确判断两个变异位点是位于同一条染色体(顺式,Cis)还是分别位于两条同源染色体(反式,Trans)。

  • 临床意义: 在隐性遗传病诊断中,如果患者的两个致病突变呈“反式”排列(复合杂合),则可能致病;若呈“顺式”排列(即便携带两个突变,但另一条染色体正常),则通常不致病。二代测序往往需要家系验证才能解决的问题,三代测序可以单人单次检测直接给出答案。

第六步:变异注释(Annotation)——从数据到意义

分析的终点是回答“检测到的变异意味着什么?”。变异注释是将生物学意义赋予ACGT变化的过程。

  • 常规注释: 评估变异是否位于编码区、是否改变氨基酸序列(错义/无义)、在人群数据库(gnomAD等)中的频率、以及在疾病数据库(ClinVar等)中的记录。
  • 功能预测: 预测变异是否影响蛋白结构、剪接位点(Splicing)或调控元件。
  • 长读长特有注释: 对于结构变异(SV)和串联重复(TR),我们需要结合专门的策略来评估其潜在致病性,例如该SV是否破坏了拓扑关联域(TAD)边界,或TR扩增是否超过了致病阈值。

总结

至此,我们通过两期节目,系统梳理了基于长读长的人类基因组重测序标准分析流程:从精准的碱基识别出发,经过严格的质控与比对,深入进行多维度的变异检测,利用单倍型分型理清遗传来源,最终通过注释揭示生物学意义。

好了,这期节目就到这里,我们下期见!

额外知识:

检测 CNV 需要依据多个“线索”,没有一种信号能独立判断:

  1. 测序深度变化: 如果某区域拷贝变多,深度会升高;变少,深度会下降。
  2. 片段长度/比对状态分布: 例如读段在某位置异常堆积或缺失。
  3. 比对异常模式: 比如某些长读段无法对准预期位置,提示结构发生了变化。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BioOmics 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档