2022年2月23日,俄亥俄州立大学医学院生物医学信息学系的 Qin Ma 和密苏里大学电子工程和计算机科学系的 Dong Xu 在 Nat Rev Mol Cell Biol 杂志 (2020年影响因子94.444) 发表文章,介绍了深度学习方法在单细胞数据分析中应用的进展、局限性、最佳实践和前景。
以下是全文内容。
摘要
深度学习在单细胞数据分析中具有巨大的潜力,但仍有许多挑战和可能的新发展有待探索。在这篇文章中,我们考虑了将深度学习方法应用于单细胞数据分析的进展、局限性、最佳实践和前景。
前言
单细胞技术极大地促进了我们对单个细胞的异质性和功能多样性的理解,并为生物学和精准医学带来了巨大的机会,特别是用于研究正在快速分化的细胞 (例如,在耐药和肿瘤复发的情况下),进化成不同亚群的细胞 (例如,免疫细胞) 或对外部的扰动产生反应的细胞 (例如,在COVID-19 发病机制中)。深度学习 (DL) 重新定义了我们通过使用复杂的人工神经网络架构来分析大规模数据的能力。DL 的力量最近在AlphaFold2的蛋白质结构预测中得到了证明,现在在单细胞数据分析中使用DL是可行的。
具体来说,自动编码器 (autoencoders,AE) 已被广泛用于捕捉特征和提高信噪比,以便在单细胞研究中进行准确的细胞类型聚类、批量校正和基因插补。SAUCIE 将 AE 应用于由180 名登革热患者的 1100 万个 T 细胞组成的数据集,确定了基于集群的急性登革热感染特征和对登革热的分层免疫反应。同时,图神经网络 (GNN) 与注意机制相结合,使DL模型更加有效和可解释。scGNN 是第一个用于 scRNA-seq 数据的同时执行基因插补和细胞聚类的 GNN 模型;scGNN 在阿尔茨海默病中确定了十个神经元集群 (neuron clusters) 和细胞类型特异性标志物 (cell-type-specific markers)。SpaGCN 是一个 GNN 模型,用于从空间分辨的转录组学数据中识别组织结构;SpaGCN 分离了人类原发性胰腺肿瘤的癌症和非癌症区域,并确定了区分癌症区域的两个标记基因。
为单细胞研究开发深度学习的最佳实践
单细胞数据的高度异质性可以借助通用的DL模型来设计和优化,以无假设的方式在广泛的研究课题中进行分析。外部生物知识或数据 (例如,表型信息或大量的全基因数据) 可以被纳入到模型中,以改进作为约束的预测。单细胞数据往往包含有限的基准标签和注释,这可能导致模型过拟合和性能不佳。幸运的是,在许多情况下,新兴的半监督学习 (将少量的标记数据与大量的无标记数据相结合 )和自我监督学习 (借助数据的其他部分/属性,预测任何部分/属性,构建无标签数据的数据表示) 往往可以实现同样有洞察力的结果而不需要额外的标签。此外,为了提高DL模型的可信度,特别是在不同的实验平台和条件下的模型泛化,以及对数据中噪音的鲁棒性,开发者最好提供方法学的使用范围,并证明对于什么样的数据或在什么样的情况下DL会有好的或不好的效果。此外,提供一些预测结果的置信度评估 (如 P 值或 Z-cores) 可以指导用户进行生物推断。
凭借广泛的内置功能,可组合的DL管道可以帮助完成自动化模型开发中涉及的复杂的和重复的任务。这种可组合性允许收集适当的资源,以确保在软件控制下定制系统。可组合的DL可以被开发者用来配置易于使用的白盒模型,以可定制的方式解决各种单细胞的研究课题,而不会带来太多挑战。此外,为其他开发者和普通用户提供结构良好的源代码、实践教程和清晰的协议文档,包括包含的格式、处理步骤、模型训练、代码版本、确保可重复性的教程和参数调整,是一种良好的做法。
在单细胞生物学中应用深度学习的最佳实践
DL用户通常发现,根据可用性和准确性来决定何时和如何选择DL工具进行单细胞数据分析是一个挑战。与已经广泛用于单细胞数据分析的Seurat相比,DL可能会发现更多内在的关系和机制。选择最适合的DL模型通常由特定的目标驱动,例如,是用于细胞聚类还是细胞分类,以及特征顺序是否重要或不同模态之间的拓扑关系是否重要。其他考虑因素包括数据结构 (例如,表格、顺序、时间序列或图形结构)、数据大小和计算费用 (多任务和多模式学习)。附表提供了关于代表性DL工具的主要功能、核心模型和生物学解释的信息和指南。由于用于单细胞数据分析的DL模型尚未成熟,运行多个工具以了解它们的比较情况可能很有价值。此外,全面的单细胞DL基准测试论文可以帮助用户选择最佳模型。
深度学习在单细胞数据分析中的局限性
尽管现有的DL工具已经证明了它们在各种环境下分析单细胞数据的能力,但它们还没有被独立的研究小组广泛地用于他们的生物研究中。附表只包括原始方法论论文的案例研究。虽然新技术的建立往往需要时间,但目前单细胞数据分析中的DL方法的局限性也是障碍。特别是,DL方法往往需要大量的数据和计算资源来训练;它们的结果可能不是稳健的 (由于数据噪音、参数设置和新的输入数据,性能会发生变化);大多数DL模型是黑盒子,缺乏可扩展性;几乎所有的DL工具都需要大量的计算机技能来使用。因此,在DL方法的发展和它在不同生物系统中的广泛应用之间仍然存在着差距。接下来,我们将讨论填补这一空白的前景。
深度学习在单细胞数据分析中的前景
DL在单细胞数据分析中的应用为未来的探索带来了巨大的希望。前沿DL方法快速发展,分析方法的开发也在不断适应。由于单细胞生物学中可用的注释数据有限,因此应用主动学习 (以交互方式建议新的数据标记以训练模型) 来基于少量训练样本构建模型是有发展空间的。更多地采用端到端DL框架 (例如在AlphaFold2中) 可以促进更全面和整体地使用训练数据来说明所有的输入特征和关系。基于模型的DL预计将进一步渗透到单细胞生物学中。结构或拓扑感知方法,物理启发和生物信息框架将知识集成到DL模型中以用于其他应用,在单细胞生物学中可以预期有类似的应用。此外,可解释的DL的发展可以支持对潜在的生物机制进行更好的解释,包括因果或调节关系、细胞类型对外部刺激的特定反应,以及驱动疾病或表型的细胞亚群。
另一个趋势是降低在单细胞数据分析中应用DL技术的障碍。我们相信,开发集成系统和部署云平台将使没有编程技能的用户能够通过 Web 服务或连接到在线资源的 docker,来使用单细胞DL工具。此外,模块化的框架设计,由于其灵活性,可以利用单个DL模型和单细胞知识。值得注意的是,为可用于DL的数据、代码和模型建立明确的标准,将有望吸引更多的开发者开发开源/访问的DL工具,这反过来又可以扩大深入的单细胞数据分析。这些工具还可以帮助培训下一代的研究人员和临床医生,特别是让精准医疗更容易交付给医疗实践。
基于DL的方法已经在广泛的单细胞研究中显示出其优越性,如了解与感知和复杂行为有关的脑细胞类型的复杂性,推断肿瘤和免疫细胞群的高度多样性,以大大加快发现新的发病机制和癌症治疗方法。我们预计此类研究将大大扩展,以提供独特的见解,如果不结合单细胞数据和DL技术,很可能无法获得这些见解。另一个不断增长的领域是DL模型从可预测和可解释迁移到更可操作,即可以直接产生医疗的建议,如治疗靶点、药物再利用和药物组合。
附表:
为单细胞数据分析开发的深度学习工具的例子和最佳实践
参考资料
Ma, Q., Xu, D. Deep learning shapes single-cell data analysis. Nat Rev Mol Cell Biol (2022). https://doi.org/10.1038/s41580-022-00466-x
--------- End ---------