

From Theory to Practice: Translating Whole-Genome Sequencing (WGS) into the Clinic
全球医院正面临日益增多的难治性感染病例。要限制感染并为患者提供最佳用药方案,需要及时进行菌株鉴定以及毒力和耐药性分析。此外,基于识别反复感染的环境源头(如受污染的水槽)和重建传播链(即谁感染了谁)的预防性干预措施,有助于降低医院感染的发生率。
全基因组测序(WGS)或许是解决这些问题的关键。然而,其在临床中的应用进展缓慢。在 WGS 充分发挥其临床微生物诊断潜力之前,一些主要的科学和物流挑战亟待解决。本综述旨在明确 WGS 在常规临床干预中需解决的关键瓶颈,并探讨可能的解决方案。
WGS 在诊断微生物学中的常见应用包括分离株表征、抗菌素耐药性(AMR)分析以及确定复发性感染和患者间传播的来源。所有这些都具有明显的临床相关性,并提供了案例研究,其中 WGS 原则上可以提供额外的信息,甚至可以取代通过标准临床微生物学技术获得的知识。
我们认为,应用为基础研究开发的现有 WGS 管道不太可能产生所需的快速和强大的工具,并且临床上需要新的专用方法 WGS。
在最基础的层面,全基因组测序可用于临床分离株的特征分析,通过判定其可能的菌种和/或亚型,将特定基因序列在现有分离株谱系中进行系统发育定位。
相较于多位点序列分型(MLST)等基于遗传标记的方法,全基因组测序菌株鉴定具有更高的分辨率优势。当传统标准技术无法准确区分菌株谱系时,该方法仍可有效应用。对于具有庞大附属基因组的细菌——这类细菌包含诸多临床最难治的病原体——基于 WGS 的菌株鉴定尤为重要,因为其大部分关键遗传多样性正源于染色体附属基因组和/或质粒携带的差异。
虽然 WGS 中包含的丰富信息原则上应该能够取代传统的分类学分类,但为基因组序列定义一个直观、有意义且严谨的分类则代表着一个重大挑战。对于不发生水平基因转移(horizontal gene transfer, HGT)的物种,如结核分枝杆菌,可以设计出一种基于系统发育的“自然”的稳健分类法。不幸的是,那些经常发生 HGT 且具有显著辅助基因组的生物体并不能很好地归入现有的分类方案。 事实上,对于这类生物体,甚至存疑是否能够设计出完全令人满意的分类方案,因为基于核心基因组、辅助基因组、看家基因(MLST)、基因型标记、质粒序列、毒力因子或 AMR 谱的分类都可能产生不相容的类别。
除了物种鉴定和特征描述外,基因组序列还提供了丰富的资源,可用于预测病原体的表型。临床相关的微生物主要性状是 AMR 和毒力,但也可能包括其他性状,如形成生物膜的能力或在环境中的存活能力。
目前科研界开发的耐药基因预测工具主要分为两类:
此外,PhyResSE 与 PATRIC-RAST 等工具可实现更精细的物种特异性分析;另有工具可直接基于未组装测序读数预测表型,无需经过基因组组装流程。
有研究指出,基于全基因组测序的表型预测在某些情况下可能与传统表型检测方法同样准确,甚至更胜一筹。但值得注意的是,目前最成功的应用案例主要集中在结核分枝杆菌和金黄色葡萄球菌上——这两种病原体的附属基因组分别呈现完全缺失或高度受限的特征,这或许并非偶然。其他成功案例包括链球菌病原体:即使面对大规模多样化的分离株样本,基于 WGS 的预测结果与实测表型耐药性仍表现出高度一致性。但总体而言,对于具有开放基因组的微生物(如大肠杆菌),其全面耐药谱预测仍面临挑战——这类微生物中仅 6%的基因存在于所有菌株,因此需要极其庞大且经过严格校验的参考数据库支持。
除肺炎链球菌等特例外,目前基于 WGS 的耐药谱预测多停留于定性判断(耐药/敏感),而耐药本质上是连续且复杂的性状。菌株对药物的耐药程度受多重因素影响:上位耐药元件互作、拷贝数变异、菌株遗传背景功能以及环境调控效应。尽管临床常根据截断值将最小抑菌浓度(MIC)简化为二分判断,但这种半定量表型检测能有效反映耐药水平。定量耐药预测不仅具有学术价值——对低度耐药菌株,通过增加标准剂量仍可使用特定低毒性药物,这常是临床最优解。
目前细菌基因组表型预测研究主要集中在耐药谱分析,但多物种毒力分析工具也已出现,如毒力因子数据库:
核心挑战在于毒力是情境依赖性状,以肺炎克雷伯菌为例,现有替代指标(荚膜类型、高黏液性、生物膜/铁载体生成、血清杀伤实验存活率等)虽可量化且重复性好,但其与临床毒力的关联性仍不明确。相较于已有明确分子机制的耐药性预测,缺乏明确定义的毒力表型及其基因型关联研究,可能面临更复杂的科学挑战。
除单个分离株的表型预测外,全基因组测序(WGS)已能够重构医院及社区中的疫情传播链。
通过整合流行病学数据与系统发育信息,WGS 既可识别属于暴发谱系的分离株,又能检测可能的直接传播事件。以 BEAST 软件生成的时序系统发育树为例,其可推断传播事件的可能时间窗口,并估算暴发谱系的起始扩散时间。
基于传播链的分析方法还能识别感染复发源头(即"超级传播者"),且无需对暴发中所有分离株进行测序,支持对进行中疫情的部分采样分析。这种 WGS 推断能揭示传统分型方法无法复现的感染传播模式。
WGS 的一个重要承诺在于分子监测和传染病实时追踪。在全球监测计划和解析框架中,针对病毒传播的方案最为成功。
要让全基因组测序(WGS)在临床微生物学中常规应用,它必须具有成本效益。人们普遍认为测序成本正在急剧下降。WGS 确实代表了一种潜在的成本效益高且信息丰富的临床诊断工具,但对于微生物学规模的测序,我们似乎已经进入了成本暴跌后的时代。
一种有用的诊断工具的关键特征在于其能够快速提供治疗信息。迄今为止,WGS 的多数应用都是针对实验室培养的生物体(细菌和真菌)。传统的培养方法需要较长的周转时间:
在这种情况下,WGS 作为一种辅助技术,主要用于提供关于耐药性和毒力基因存在的信息,这对于难以通过表型确定的机制(例如碳青霉烯类耐药性)特别有用。尽管这种 WGS 的应用解决了一些当前的临床问题,但它并没有加快感染诊断的速度;更确切地说,新技术正在取代一些较为繁琐的实验室技术,同时提供额外信息。
当 WGS 与可绕过(或缩短)传统培养步骤的程序相结合时,它作为微生物学快速诊断解决方案更具吸引力。
微生物测序不可避免地可能会测出宿主的 DNA,这将引入伦理和法律问题。即便宿主 DNA 可以最大程度地去除干净,但是来自多个身体部位的宏基因组样本也可以用于识别个体。鉴于这些担忧,认真管理临床宏基因组学数据应当被重视,这不仅是因为它是实施的一个障碍,更因为这对患者隐私构成了真正的风险。
全基因组测序数据分析的一个主要问题是,目前几乎不存在公认的黄金标准。微生物基因组学中的全基因组测序分析基本步骤在不同应用中往往相似,通常包括以下环节:序列数据质量控制;测序生物材料的鉴定/确认;测序分离株的特征分析(包括分型工作以及毒力因子和潜在抗菌素耐药元件/突变的表征);流行病学分析;最后是结果存储。

大多数实验室仍使用一系列开源工具进行特定子分析。这些工具通常被拼接成一个软件组合(即“流程”)。流程的理念在于通过相对少量的手动生物信息学工作,实现实验室内对批量分离株的标准化分析。此类流程可针对不同问题高度定制化。此外,也有跨实验室统一工作流程的社区协作尝试,例如 Galaxy——个允许非生物信息学专家通过网页界面使用多种生物信息学工具的框架。
尽管 WGS(全基因组测序)具有巨大潜力并取得了一些早期成功,但要预测其何时能完全取代临床微生物学中的现有标准仍然十分困难。
将其作为常规方法用于诊断和表征微生物感染存在几个主要瓶颈:
短期内聚焦于满足未竟诊断需求、且能为患者及医疗从业者带来明确益处的全基因组测序应用,将有助于推动临床微生物学向全基因组测序转型所需的文化变革。
附属基因组(Accessory genome):
由仅存在于某物种部分菌株中的基因组成的可变基因组。许多代表最严重抗菌素耐药性威胁的微生物,其特征正是拥有庞大的附属基因组,其中包含临床相关表型多样性的重要组成部分。
抗菌素耐药性(Antimicrobial resistance, AMR):
微生物在特定抗菌化合物存在下仍能繁殖的能力,亦称抗生素耐药性(ABR 或 AR)。测序菌株中检测到的所有 AMR 基因总和,有时被称为耐药基因组(resistome)。
水平基因转移(Horizontal gene transfer, HGT):
遗传物质在生物体间以非“垂直”亲代-子代遗传方式的横向传播(可跨越物种界限)。与临床相关表型(如 AMR 和毒力)相关的遗传元件常通过 HGT 传播。
K-mer:
较长序列中包含的长度为 k 的短字符串。例如序列“ATTGT”包含两个 4-mer:“ATTG”和“TTGT”。通过分析原始测序读长的 k-mer 组成,可在无需基因组组装的情况下快速表征菌株间的遗传差异。
多位点序列分型(Multilocus sequence typing, MLST):
基于一组染色体携带的持家基因等位基因对细菌进行分型的方案,亦称序列分型(ST)。
系统发育树(Phylogenetic tree):
基于一组序列间遗传差异推断进化关系的图形化表示,亦称系统发育(phylogeny)。
传播链(Transmission chain):
疫情中病原体在宿主间的传播路径。与传统流行病学推断(如追踪患者接触史)相比,全基因组测序常能更精准表征传播链。
毒力(Virulence):
广义上指病原体通过侵袭、黏附、免疫逃逸和毒素产生等方式对宿主造成损害的能力。然而,目前毒力仍通过表型(如血清杀菌试验)或基因型(如荚膜合成或高黏液性相关基因的存在)等间接指标进行粗略界定。
全基因组测序(Whole-genome sequencing, WGS):
测定生物体基因组完整核苷酸序列的过程,通常通过"鸟枪法"对短读长进行测序实现,这些短序列需经过从头组装或比对至高质量参考基因组。
中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。我们还为进阶用户提供高质量课程培训: