前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Brief. Bioinform. | 深度学习赋能表型药物发现

Brief. Bioinform. | 深度学习赋能表型药物发现

作者头像
DrugAI
发布2024-07-16 15:07:19
1230
发布2024-07-16 15:07:19
举报
文章被收录于专栏:DrugAI

今天为大家介绍的是近期发表在Briefings in Bioinformatics的综述文章。该文章由佛罗里达大学李彦君课题组完成,题为“Morphological profiling for drug discovery in the era of deep learning”。该研究探讨了深度学习在细胞形态学分析以及表型药物发现中的创新应用。

文献概要

形态学分析(Morphological profiling)是表型药物发现中的重要工具。高通量自动成像技术的出现,使得在单细胞分辨率下捕捉细胞在给药后产生的形态特征成为可能。同时,深度学习,特别是计算机视觉技术的显著进展,大大提升了对高通量高内涵图像(High Content Imaging)的分析能力。这些技术对于理解药物的作用机制,新型治疗药物的发现和发展都起到了关键的作用。本综述全面总结了形态学分析领域的最新进展。我们介绍了高内涵细胞图像分析流程,调研了基于特征工程和深度学习方法的不同分析策略,并介绍了有关公开数据集。我们着重介绍了深度学习在此流程中的应用,包括细胞图像分割、图像表征学习和多模态学习等。此外,我们总结了形态学分析在表型药物发现中的应用,并指出了该领域目前存在的潜在挑战和机遇。

综述背景

表型药物发现(Phenotypic Drug Discovery, PDD)是一种重要的药物发现方式。与基于靶点的药物发现(Target-based Drug Discovery, TDD)不同,PDD采用与靶标无关的方法,专注于化合物在疾病相关生物系统中的表型效应。这一策略利用已标注作用机制的参考化合物,来揭示测试化合物的作用机制(Mechanism of Action, MOA)。迄今为止,PDD在首创新药(first-in-class)的发现方面已做出重要贡献。例如,PDD是天然产物发现的主要方法,也是其识别新靶点和/或作用机制的基础。天然产物一般都具有生物活性,表型筛选,特别是通过分析高内涵图像中相关的有偏和无偏差异,是发现其未知作用机制的最有效方法。

自动显微镜和图像分析技术的发展,已经使得基于图像的高通量表型药物筛选(PDD)成为现实。在这一领域中,高内涵筛选(High-Content Screening, HCS)和形态学分析(Morphological profiling)是两种基于大规模成像实验的方法,但是它们在策略上存在明显差异。HCS是一种针对已知特定表型的测量方法,它专注于与扰动相关的特性。这种方法通常限定于测量那些已经明确与特定生物学扰动相关联的特征。与此相对,形态学分析,是一种无偏的分析方法。它通过捕捉由成百上千个细胞特征组成的高维图像数据,来全面地反映细胞的形态特性。这种方法不受限于已知表型,能够揭示细胞形态的细微差别或未知的表型特征(见图1)。传统上,生物图像信息学工具能够测量这些特征,并用于聚类分析以及预测扰动的生物活性相似性。这不仅提供了一种全面的形态学分析,而且能够以无偏的方式发现那些不易察觉或尚未被认识的表型变化。通过这种方式,形态学分析为药物发现提供了一种更为深入和全面的视角。

图1: 早期药物发现方法

作为人工智能(AI)领域的核心技术,深度学习通过深度神经网络以数据驱动的方式,从原始数据中自动提取特征,这一过程通常无需进行传统的特征工程(见图2)。在药物发现领域,深度学习技术已被广泛应用于多个关键环节,包括表型药物发现(PDD)中的生物图像分析,这些应用极大地推动了新药研发的效率和创新性。近年来,计算机视觉技术的飞速发展,不仅在效率上带来了显著提升,更在性能上实现了质的飞跃,这在基于图像的分析领域尤为明显。计算机视觉的进步,为药物发现领域带来了成本效益更高的计算方法,加速了药物研发的进程。在本综述中,我们将全面梳理并介绍当前用于形态学分析的计算方法,特别强调深度学习技术在其中的关键作用和应用潜力。

图2: 形态学分析流程示意

Cell Painting(细胞全景绘制)公开数据集及模型评价指标

Cell Painting,亦称为细胞全景绘制,是一种广泛应用于细胞形态学分析的技术。它通过六种荧光染料对细胞器进行标记,并在高通量显微镜下,通过五个不同的通道对固定和染色的细胞进行成像。在过去十年中,学术界和制药行业的研究者们已经创建并公开了多个Cell Painting数据集,包括:

  • Broad Bioimage Benchmark Collection(BBBC),涵盖了化合物和遗传扰动的数据集;
  • Image Data Resource(IDR),包含了高内涵筛选图像和时间序列图像;
  • Recursion公司发布的RxRx数据集,包含了化合物、遗传和病毒转导扰动的数据;
  • CytoImageNet数据集,它整合了来自40个公开可用的、具有弱标签的显微图像。

特别值得一提的是,形态学分析Cell Painting(JUMP-CP)联盟最近建立了迄今为止最大的公共Cell Painting数据集。该数据集包含了来自超过116,000个化学扰动和超过15,000个遗传扰动的人类骨肉瘤细胞(U2OS)的图像,这些图像资料来自12个不同的研究机构。这些公共数据集已经成为训练机器学习和深度学习模型的重要资源,用于化合物生物活性和作用机制的预测和图像表征学习。

在这些数据集中,BBBC021数据集已成为评估深度学习方法性能的常用基准。这一公开数据集可从Broad Bioimage Benchmark Collection获取,包含了113种化合物在八种不同浓度下处理的人MCF-7乳腺癌细胞的Cell Painting图像。大多数表征学习方法是在38种化合物的数据集上进行比较的,这些化合物已被人工标注为12种作用机制(MOAs)之一。

当评估不同MOA预测方法的有效性时,常使用以下评估指标:

  • NSC(Not-Same-Compound匹配精度):在NSC设置下,测试化合物在训练阶段被排除。模型的任务是预测测试化合物的MOA类别。在预测阶段,通常使用1-最近邻(1-NN)分类器处理生成的测试化合物表征,测试化合物的MOA取决于其在训练化合物特征空间中的最近邻居。此指标用于评估模型在MOA未知的情况下,预测新化合物类别的能力。
  • NSCB(Not-Same-Compound-and-Batch匹配精度):NSCB比NSC更为严格,除了NSC的限制外,同一实验批次的特征在训练中也被排除。此指标用于评估模型在不同实验条件和批次设置下的泛化能力,反映批处理效应和其他混杂因素的影响。
  • Drop:Drop是通过从NSC中减去NSCB来计算的。理想情况下,不应观察到性能下降。Drop值越大,表明批处理效应越显著。

图3: 形态学分析中的关键方法和最新技术

形态学分析过程概述

精确、高效且通用的成像数据分析流程对于形态学分析至关重要。在过去几年中,深度学习方法的应用取得了显著进展(见图3)。在本节中,我们概述了形态学分析数据分析的几个关键阶段,并特别强调了深度学习方面的进展。

阶段1:特征表征

细胞形态变化的测量始于为细胞图像创建有效的特征表征。传统上,这一任务通过特征工程技术来实现,如CellProfiler等软件,它们能够从荧光显微镜图像中提取如形状、大小和纹理等预定义特征。尽管这些方法能够提供有生物学意义的结果,但它们需要针对每次新的实验设置进行图像预处理和参数调整,且通常涉及单细胞分割。

阶段2:形态学特征生成

特征提取后,单细胞或视野图像的测量值将被整合成一个特征向量,形成细胞板孔级的特征表征,这些特征随后用于进一步的分析。

阶段3:作用机制(MOA)标注

利用汇总的孔级形态学特征,可以执行机器学习任务,如基于已知形态学特征的参考库预测查询扰动剂的MOA或毒性。这通常涉及在形态学特征基础上构建机器学习模型,例如使用最近邻分类器、随机森林或贝叶斯矩阵分解等算法。这些监督学习算法能够将查询扰动剂分类到预定义的、有标注的类别中。此外,形态学特征也可用于推断化合物功能的关联性,通常通过层次聚类算法实现,基于形态学特征相似性构建表型相似性矩阵。

深度学习技术的发展,为形态学分析带来了端到端的解决方案,将上述阶段整合到一个连贯的过程中。在这个框架下,表型分类和聚类任务可以直接利用原始的高内涵图像,无需显式的图像特征表征和中间步骤,从而简化了整个分析流程(图3)。

表征学习用于形态学分析

特征表征在形态学分析中扮演着至关重要的角色。传统上,形态学特征的提取依赖于特征工程方法,这不仅需要针对每个实验设置手动调整软件参数,还必须依赖于专家知识来确定哪些表型特征是关键的。显然,这种方法受限于人为的主观判断和专业知识的局限。与此相对,深度神经网络提供了一种更为客观和自动化的解决方案。它们能够直接从图像的原始像素中学习特征,从而编码出更为丰富和有意义的数据表征。这种端到端的训练方式,不仅简化了分析流程,而且通过减少人为干预,提高了模型的性能。更进一步,深度神经网络在处理不同类型的扰动(如化学和遗传扰动)时,展现出了卓越的泛化能力。这意味着,即使是在面对新的或未知的扰动类型时,这些网络也能够快速适应并提供准确的预测。此外,在分类任务中,深度学习模型的处理速度也显著优于传统的基于特征工程的模型,这为高通量药物筛选和表型分析提供了强有力的支持。

在预训练阶段,我们能够运用多种学习策略来优化深度学习模型的表现(如图4所示):

  1. 监督表征学习: 当拥有大量标注数据时,监督表征学习尤为有效。 例如,Kraus等人利用BBBC021数据集上的标注图像,训练了结合多示例学习的卷积神经网络,在分类任务中取得了比传统特征工程方法更高的准确性。 同样,Godinez等人开发的基于多尺度卷积神经网络的分类器,在BBBC数据集的基准测试中,也展现出了超越其他卷积模型的性能。
  2. 迁移学习: 尽管如此,获取充足的标注图像数据可能成本高昂且耗时。 在这种情况下,迁移学习提供了一种有效的解决方案。 Pawlowski等人首次提出利用在ImageNet上预训练的CNN进行形态学分析,这种方法在准确性和处理速度上都优于基于特征工程的方法。 Ando等人提出的Deep Metric Network,也是在大量RGB图像上预训练的模型,用于为BBBC021图像集生成特征。
  3. 弱监督表征学习: 除了迁移学习,弱监督学习(WSL)方法也被提出来训练深度神经网络学习Cell Painting图像的表征。 在这种学习方案中,化合物类别标签被视为“弱”或“噪声”标签,因为: (i)同一化合物扰动下的细胞可能表现出异质反应; (ii)某些化合物的功能在生物学上可能是惰性的; (iii)人为引入的技术噪声可能影响细胞形态的判断。 为了利用这些弱标签,此类方法将单个细胞图像分类到相应的类别标签成为用来训练网络的辅助任务。 从辅助任务中学习到的特征嵌入随后用于推断化合物之间的类别关联。
  4. 无监督表征学习: 最后,无监督学习方法通过识别数据中的潜在模式或将相似数据聚类,提供了一种不同的特征表征学习途径。 例如,该类方法可以利用未标注信息,如图像是否属于同一扰动,或通过聚类在嵌入上分配的伪标签进行学习。 此外,生成模型如GAN或VAE,通过学习数据的分布来学习其内在结构。

图4:细胞形态学分析的特征表征学习策略

这些策略均在BBBC021数据集上的基准测试中得到了验证,其中Cross-Zamirski等人提出的WS-DINO方法表现最佳。Ando等人的迁移学习方法和Perakis等人的自监督对比学习方法也展现了出色的性能。

为了确保深度学习方法在形态学特征分析中取得良好性能,需要综合考虑图像数据集的特性、模型的复杂性以及可用的计算资源。增加训练集的规模和多样性,例如通过整合不同实验室的图像集,可以更有效地提高性能。此外,适当的图像增强技术,如随机亮度变化和强度偏移,对SSL方法的性能有显著的正面影响。在计算资源方面,使用GPU加速的DINO方法在处理速度上具有优势,且尽管需要GPU支持,但其单细胞板的平均分析成本却相对较低。

细胞形态学与跨模态数据融合

随着生物技术的发展,药物发现领域迎来了多样化的数据模态。化学信息学利用化学结构数据和相似性原则,为预测化合物的生物活性和作用机制提供了有效工具。尽管化学结构与生物功能间的关系复杂,但化学数据的易获取性为虚拟筛选奠定了基础。与此同时,“组学”数据,如转录组学和代谢组学,从多角度揭示了药物作用的复杂性,尽管其检测成本和可扩展性仍是挑战。每种数据模态都有其优势和局限,而整合这些模态能够发挥协同效应,提供更全面的药效理解。最新研究显示,化学结构、形态学和基因表达等数据模态在预测药效方面互为补充。结合机器学习和深度学习技术,整合这些形态数据已成为药物发现领域的一个新兴研究方向(图5)。

图5: 整合细胞形态学与其他数据模态

整合化学结构与细胞形态学

研究表明,将结构模型与细胞形态学模型相结合,能够显著提高生物检测结果的预测准确性。Seal等人提出了一种基于相似性的合并模型,该模型融合了在Cell Painting图像和化学结构上独立训练的模型的预测概率,同时考虑了测试化合物与训练化合物在形态和结构上的相似性。具体来说,这些独立模型的预测结果和相似性度量被综合应用于逻辑回归模型,用以预测测试化合物的生物活性。研究结果表明,这种基于相似性的融合模型在性能上超越了传统的软投票集成方法、分层模型,以及任何仅基于单一模态数据训练的模型。

整合转录组学与细胞形态学

除了化学结构数据,将转录组学数据与细胞形态学数据的整合也是一种有效的跨模态组合策略。L1000检测是一种常用的获取基因表达谱的方法。Cell Painting和L1000检测都具备良好的可扩展性,并能提供互补的信息。尽管Cell Painting的形态学特征在可重复性上表现更佳,但可能受到批次和孔位效应的影响;而L1000检测则能够捕捉到更多样化的生物学特征。研究显示,基于转录组和形态学的模型在MOA预测方面,能够展现出与基于化学结构的模型相媲美甚至更优的性能。这些发现为将转录组学和形态学特征融合用于药物发现提供了实验证明和支持。

整合代谢组学与细胞形态学

尽管整合形态学和转录组学(L1000)特征在MOA预测中显示出优势,但这一正交平台在实际应用中仍面临挑战。这些挑战包括在识别具有广泛细胞效应的生物活性化合物时分辨率有限,以及在研究那些未引起显著形态学变化的生物活性化合物时灵敏度不足。为了克服这些局限性,研究人员探索了基于代谢组学的方法,将形态学特征与之结合,以揭示细胞在不同条件下的代谢变化。代谢组学分析能够提供关于细胞状态的全面信息,并定义细胞在扰动下的表型。例如,非靶向质谱(Mass spectrometry)的代谢组学可以与形态学分析整合,以促进在高通量环境中快速识别和功能注释天然产物。

综上所述,将深度学习方法应用于整合形态学数据与其他模态数据,如化学结构、转录组学和代谢组学,在药物发现中的重要性日益凸显。对比学习和数据融合技术的发展,为对齐多模态数据提供了新的工具。随着多模态数据集的不断整理和完善,这一新兴领域的发展将得到进一步推动。

形态学分析在药物发现中的创新应用

机器学习和深度学习技术在形态学分析中的应用,极大地丰富了表型药物发现,包括识别小分子的作用机制(MOA)、优化先导化合物到预测毒理学效果等。在本文中,我们将重点讨论一些新兴应用的最新进展。

构建基因型-表型关系和基因功能网络

将基因型与疾病相关的表型联系起来,是基因组学中的核心问题。CRISPR筛选技术已被用于在基因组规模上提示基因功能。然而,由于传统筛选方法的维度较低,它们在揭示疾病相关表型方面存在局限性。为了克服这一障碍,基于图像的分析方法为CRISPR筛选提供了高内涵的形态学标注,这不仅增加了数据的维度,还提高了对疾病相关表型的理解。例如,Ramezani等人开发的PERISCOPE方法,通过结合光学聚合CRISPR筛选和基于图像的分析,成功构建了基因功能网络。Sivanandan等人提出的CellPaint-POSH技术,进一步展示了深度学习模型在构建基因功能网络方面的潜力。

表征动态扰动影响

形态学分析的另一个新兴领域是活细胞表型分析,这可以通过时间序列成像来实现。这种方法增加了时间维度,从而提高了对化学物作用机制的预测能力。例如,通过活细胞成像分析FDA批准的药物库,可以准确推断出多种MOA。此外,活细胞成像还能揭示细胞状态转换的动态过程,这对于发育生物学至关重要。

引导小分子药物设计

形态学分析不仅在聚类或分类任务中发挥作用,还可以引导小分子的全新设计。Zapata等人提出利用形态学特征通过生成对抗网络来引导新分子的设计,这种方法在效率和成本效益上具有独特优势。

促进复杂生物模型中的基于图像的分析

类器官作为生物模拟组织模型,在基础科学和转化研究中发挥着越来越重要的作用。通过基于类器官高内涵图像的筛选,研究人员能够展示小分子在模拟组织结构和病理学中的效果。

促进基于天然产物的药物发现

天然产物及其衍生物在药物发现中扮演着关键角色。AI方法的应用,特别是在基于图像的分析平台上,已经显著推进了从天然产物中识别药物候选者的过程。通过整合形态学与多组学分析,研究人员能够更深入地理解天然产物的生物活性成分,解决天然产物药物发现中的挑战。

结语

形态学分析作为一种强大、高通量、数据密集且成本效益高的表型药物发现技术,正日益受到重视。它通过捕捉细胞在各种扰动下的表型变化,提供了一系列无偏、高维度的图像数据,为我们理解化合物的作用机制提供了一个全面的视角。计算生物学和深度学习领域的新兴技术,在从图像表征到生物活性预测的整个分析流程中,已经取得了显著的进展,未来的研究将持续推动多学科的协作。通过整合视觉表型数据,我们有望进一步促进药物发现的进程,为新药研发带来新的视角和动力。

参考资料

Qiaosi Tang, Ranjala Ratnayake, Gustavo Seabra, Zhe Jiang, Ruogu Fang, Lina Cui, Yousong Ding, Tamer Kahveci, Jiang Bian, Chenglong Li, Hendrik Luesch, Yanjun Li, Morphological profiling for drug discovery in the era of deep learning, Briefings in Bioinformatics, Volume 25, Issue 4, July 2024, bbae284, https://doi.org/10.1093/bib/bbae284

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档