前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Trends in Cell Biology | 细胞动力学研究中的机遇与挑战

Trends in Cell Biology | 细胞动力学研究中的机遇与挑战

作者头像
DrugAI
发布2024-05-22 14:41:38
980
发布2024-05-22 14:41:38
举报
文章被收录于专栏:DrugAI

今天为大家介绍的是来自Viji M. Draviam团队的一篇论文。人工智能(AI)的发展促进了计算机视觉和深度学习(DL)技术在显微镜图像和影片评估中的应用增加。这种应用不仅解决了动态细胞生物过程的定量分析难题,还开始支持药物开发、精准医疗和基因组-表型组映射方面的进展。作者调查了现有的基于AI的技术和工具,以及开源数据集,特别关注于细胞和亚细胞结构及动态的分割、分类和跟踪的计算任务。作者从计算视角总结了显微镜视频分析中长期存在的挑战,并回顾了深度学习引导自动化在细胞动态研究中的新兴研究前沿和创新应用。

显微镜技术的进步已经影响了细胞生物学和生物医学研究的多个领域。在自动或半自动图像分析的支持下,显微镜技术的进步正在被深度学习方法所改变。最近已经有人回顾了用于显微镜图像数据集分析和修复的深度学习方法,但关于利用人工智能方法跟踪或预测显微镜视频中动态结构轨迹的全面综述还不存在。由于图像采集的时间间断性,动态细胞生物学过程的延时视频是一个独特的案例,这一点通过高速和体积成像得到了补偿。在大多数图像分析任务中表现出卓越性能的机器学习或深度学习方法尚未被适配用于视频分析任务。

实现深度学习方法涉及数据标注、去噪、选择和训练选定的神经网络、评估和优化深度学习模型以及评估结果,所有这些都取决于具体的成像和分析任务。对于如何构建用于图像分析的深度学习模型的实用指南,作者推荐参考专注于生物图像分析工作流的综述。

在本综述中,作者从三个关键的计算任务——对象分割、分类和跟踪的角度,对当前基于人工智能的显微镜图像和视频分析进行了深入的调查。作者将传统的图像分析方法与在细胞生物学中成功使用的深度学习技术(神经网络架构)进行了对比。为了未来深度学习工具的开发,作者整理了一份现有开源数据集的列表。在整个过程中,作者讨论了用于深度学习应用的数据准备的准确和高效方法。最后,作者强调了当前在分析动态细胞生物学视频中深度学习应用的主要挑战和局限性,并确定了未来深度学习引导研究发展的机会。

人工智能引导的图像分析进展

作者简要介绍了 ML/DL 方法在显微图像分析方面取得的成功,并列出了这些方法如何引领细胞生物学的新趋势。首先,当前能够以一种与上下文无关且高效的方式分析大型图像数据集。这非常适合大型的延时视频或全基因组成像筛选。其次,当前能够自动化计算任务,如图像分割、分类、跟踪和转换,这些支持细胞过程的高保真时空研究。第三,当前能够通过识别已知形态特征中隐藏的模式来识别复杂结构,以建立假设并更好地解释数据。第四,当前可以更好地管理噪声和变异。特别是,处理形态和强度的变化可以增强数据的可重复性,减少人为偏见或错误的机会。

表 1

表1列出了用于显微镜图像分析的最常用的深度学习技术。除了这些已建立的技术之外,Meta AI最近提出了一种可重用且可适应的图像分割架构,采用零样本学习方法,名为“Segment Anything Model”(SAM)。其性能似乎与早期的完全监督训练模型相当,甚至更优,并已在医学成像和数字病理学中得到应用。然而,SAM尚未用于细胞或亚细胞分割任务,并且在处理复杂的亚细胞结构时遇到挑战。显然,SAM有简化分割的能力,但它尚未在密集打包的显微镜图像中进行测试。例如,展示拥挤细胞器的电子显微镜(EM)图像可能在没有单个细胞器的训练数据集的情况下,难以实现准确分割。

人工智能引导方法优于传统图像分析工具

图 1

深度学习(DL)神经网络比传统的计算机视觉技术更为有效。它们从大规模数据集中学习,并能够提取高级特征,而不需要依赖领域知识进行特征提取。尽管许多深度学习工具主要用于分割带有荧光标记的细胞核和整个细胞,但也有一些专门的深度学习工具被开发出来,用于从电子显微镜数据中分割高尔基体、线粒体和内质网等特定细胞器。然而,能够同时分割和跟踪时间延迟荧光视频中动态亚细胞结构的深度学习工具目前还很有限。线粒体、微管末端和有丝分裂纺锤体是少数几个动态变化的结构,可用自动化分析工具进行研究,但深度学习仅在最后一种情况中被使用。流行的基于深度学习的工具包括U-Net、StarDist和Cellpose。由于大多数基于深度学习的解决方案是数据驱动的,目前没有标准来指导生物学家决定哪种模型最适合他们自己的数据集和特定的计算任务。因此,大多数人倾向于使用集成平台,如Fiji(通过插件)、CellProfiler、QuPath、ZEISS arivis Cloud(前身为APEER)和ZeroCostDL4Mic。下文作者将讨论通过分割、分类和跟踪应用深度学习进行细胞图像和视频分析,并与传统的非深度学习方法进行对比。

表 2

分割

图像分割有两种类型,语义分割和实例分割,它们各自服务于不同的目的。语义分割旨在将图像中的单个像素分类到特定类别(如图1A顶部所示)。它将同一类别的对象分组在一起,但无法区分单独的对象,例如重叠的细胞核。然而,这种方法有效地将膜轮廓与细胞内或细胞外空间分离。实例分割则区分同一类别的不同对象(如图1A底部所示)。例如,Cellpose和SAM能够分开重叠的核对象,并将它们视为不同实体,从而允许区分即使重叠的也能识别出各自的细胞核。最近,一种称为全景分割的新型学习模型被引入,它整合了实例分割和语义分割。它识别单个对象并为每个像素标注它所代表的语义类别。

传统的分割方法包括阈值分割、基于边缘的算法和基于区域的分割。基于边缘的分割方法如Canny和Sobel边缘检测器,随后进行轮廓填充,性能优于阈值分割,但可能产生不完美的轮廓。基于区域的分割,尤其是分水岭分割,在细胞生物学中得到了广泛应用。传统分割方法通常用于大型数据集的自动标注,随后进行手动更正以节省标注时间。

深度学习方法不仅在显微镜图像中的亚细胞结构分割上超越了传统技术,而且还展示了显著的泛化能力,并能适应多样的成像条件、荧光标记或蛋白质和细胞类型。这促成了几种免费可用的工具的创建,这些工具提供预训练模型,供生物学家用来分割并随后以定量方式分析显微镜数据集。

分类

分类是指将文本标签分配给图像,在细胞生物学和数字病理学中经常使用。实例分类侧重于识别和分类图像中的单个对象,而不是对整个图像进行分类。深度学习技术用于识别和分类单个细胞、细胞核或亚细胞结构(如图1B所示),以及提供有关细胞群体及其分布的定量信息。细胞类型和亚细胞结构的识别是实例分类的其他应用,它们促进了对细胞功能的强大定量研究,细胞间互动,表型("是"或"否"预测)以及荧光图像中的空间模式和蛋白质定位。分类还被用于通过分析单个细胞水平上的细胞对药物治疗的反应,对小分子的大规模表型分析,以评估药物的效力、作用机制和潜在副作用。

细胞生物学专家的手工标注虽然可靠,但耗时且成本高。为了抵消这一成本,提出了主动学习。主动学习是深度学习中强大的人在环(human-in-the-loop)过程。它涉及手动标注图像中的一部分(而非全部)相关对象,用这部分数据进行训练,并为所有实例(包括未标注的)生成初始的分割和分类掩模。然后,可以审查和手动更正自动生成的初始分割和分类,这些更正后的结果将作为下一个训练迭代的标注,使得人在环过程成为一种成本效益高的方法。

与用于图像分类的深度学习方法不同,基于传统机器学习的分类器具有人类可解释性,这对于失败分析和模型改进很重要。尽管深度学习框架在大样本数据集上具有更高的识别精度,但传统的机器学习方法(例如,支持向量机,SVM)被认为是小数据集更好的解决方案。因此,为了在细胞类型分类问题上实现高精度和高准确性,正在使用结合机器学习和深度学习技术的混合方法,作为实现可解释人工智能的一步。

跟踪

在细胞生物学中,跟踪是指识别并链接一系列延时图像或视频中特定对象随时间移动的过程。与现实世界中如自动驾驶等应用深度学习(DL)进行跟踪的场景不同,细胞生物学中的跟踪方法主要是独立于DL的。从计算角度看,跟踪任务包括基于检测的跟踪(detection-based tracking, DBT)和无检测跟踪(detection-free tracking, DFT)。DBT,也常称为检测跟踪,通常包括两个主要步骤:检测感兴趣的对象,以及链接它们在连续帧中的位置和属性。另一方面,DFT需要在第一帧手动初始化固定数量的对象,然后在后续帧中定位这些对象。与DFT相比,DBT的使用更为广泛,因为在大多数情况下,对象可能是新发现的或暂时丢失的,而DFT无法处理这类情况。

在许多跟踪研究中,DL被用于检测步骤,如R-CNN系列、YOLO和SSD。DL也可用于轨迹或运动预测以支持跟踪。大多数基于DL的轨迹预测使用长短期记忆(LSTM)技术,该技术通过预测选定对象在未来时间帧的坐标而取得了显著进展。有些研究利用了卷积特征提取来预测轨迹。目前,DL基于跟踪的顶级应用场景包括行人检测和自动驾驶——增强现实(AR)和虚拟现实(VR)。类似的基于DL的跟踪技术可以应用于细胞生物学,以推进多尺度系统研究,其中同时调控和测量亚细胞、细胞和组织水平的变化。

细胞生物学应用中的典型跟踪示例包括单细胞跟踪、集体细胞迁移过程中的多细胞跟踪,以及细胞内的颗粒或细胞器跟踪。从计算和生物学的角度看,跟踪都是具有挑战性的,原因有多种。首先,对象可以从一个区域移动到另一个区域;因此应该在单帧基础上识别每个实例,并将这些检测随时间链接起来以避免错误连接。其次,被跟踪的对象可能会合并(如线粒体)或分裂(如细胞分裂),这在它们的形态上呈现出不连续性,导致误识别。第三,延时视频的帧率存在限制,这使得跟踪,尤其是在3D中的跟踪,因时间不连续性而变得具有挑战性。误连接和误识别的挑战可以通过使用DL方法进行轨迹预测至少部分克服,实时预测可以促进基于显微镜的物理对象跟踪。

跟踪亚细胞结构及其在三维空间中的变化是一个具有挑战性但有益的应用,因为它可以提供有关细胞动态的宝贵见解,并支持系统级建模努力,以探索复杂的信号和调节途径。例如,通过分析细胞在不同分子干扰后的移动模式,有助于解析控制细胞迁移的分子原理。整细胞跟踪以监测细胞或核大小的变化及细胞周期阶段的时间和持续时间,或细胞内跟踪以分析细胞内细胞器、囊泡或蛋白质的移动,都利用了关于不同特征(结构或动态)的先验知识,这些特征被独特地用于解决每个个别的跟踪问题。

面对的挑战

挑战一:缺乏良好标注的数据集。基于深度学习(DL)的方法需要大量的标注(已注释)数据。理想情况下,高质量的细胞生物学数据需要由专家进行注释,这是一个耗时的过程。尽管众包可以提供成本效益高的解决方案,但注释的不一致性需要专家进行纠正。此外,亚细胞形态的变异、染色协议和成像质量的不同可能会使非专家难以进行注释。为了应对这一挑战,正在开发许多解决方案,包括主动学习、迁移学习和数据增强技术。其中,数据增强策略通过改变图像的比例或强度提供了额外的样本,而不必增加手动注释样本的数量。Karabag及其同事研究了训练数据量和形状变异性对基于U-net的分割的影响。他们指出,如果获得的细胞对不能代表其他细胞,那么数据增强方法可能不会改善训练效果。因此,建议对各种增强方法进行彻底调查。尽管有上述解决方案,但高质量标记数据的短缺仍然是AI引导的图像和延时视频分析的一个关键限制。只有有限数量的开源数据集可用,如表3中按时间顺序列出的那样。

表 3

挑战二:影像数据集的质量。深度学习模型依赖于从数据集中提取模式和特征,因此注释数据的质量至关重要。不一致的基准真值会导致分析结果错误,而偏见数据(只突出部分而非全部表型)可能导致错误的模式或不准确的预测。显微镜下固有的噪声也会增加模型的复杂度,这是为了准确捕捉底层特征所必需的。这可能导致过拟合,即模型变得过于复杂,无法推广到新的未见数据。噪声数据还可能给深度学习模型带来挑战,导致细胞的欠分割或过分割,或细胞类型的错误分类,这可能导致视频中细胞追踪的错误。Meiniel和同事们提出了一种新的基于稀疏性的方法来增强图像清晰度,这种方法利用显微镜图像中的固有稀疏性,并提供了比现有方法更好的去噪性能。为了解决高质量图像可用性的问题,已经建立了图像数据资源,以便于图像数据的访问、存储和传播。总体来说,确保用于深度学习的数据集质量高、基准真值准确、噪声最小且无偏见至关重要。

挑战三:模型可解释性。深度学习模型的解释性挑战源于这些模型的复杂性和黑箱特性。这些模型能够通过多层神经元自动提取大量数据中的复杂特征和模式。虽然这使得这些模型在图像分割或分类等任务中表现出强大的能力,但这也使得理解模型如何得出其预测或决策变得具有挑战性。解决这一挑战的一种方式是可视化并检查模型内部单个神经元或神经元群的激活情况。这种技术可以洞察模型用于形成决策的模式。然而,如果没有对模型架构和数据领域的深入理解,这些可视化可能难以解释。

挑战四:现实场景中的成本高。基于深度学习的方法通常因两个主要因素而昂贵。首先,高效训练深度学习模型需要大量数据,而这些数据的生成可能成本很高。其次,训练过程计算量大,需要高性能的计算资源,如图形处理单元(GPUs)和张量处理单元(TPUs)等硬件。这些基础设施的成本可能会阻碍必要的成像研究的规划,这些研究是构建深度学习模型的基础。由机构或联盟支持的深度学习模型建设工作可以帮助承担前期成本并保持标准,以确保模型的可重用性。

挑战五:泛化问题。泛化性指的是一个在特定数据集上训练的深度学习模型在新数据上表现良好的程度,尤其是当新数据与训练数据的特征或模式不同时。为了展示泛化能力,人们会将深度学习模型应用于从不同细胞类型或显微镜获得的数据。为了应对由样本多样性或图像采集差异引起的泛化问题,正在通过数据增强、多任务学习、群体学习或与领域专家合作来进行解决。

机遇

随着新的人工智能引导方法的出现,这些方法能在延时摄影视频数据集中识别、追踪和分析对象,作者期待这些方法为药物发现、药物重新定位以及表型与基因组互动图构建工作带来大规模的细胞生物学应用新机遇。

机遇一:药物发现与药物重定位。在显微镜下基于药物开发或药物靶点识别的人工智能方法主要使用静态图像数据集,这些数据集是动态过程的快照。这种基于静态图像的药物筛选工作尚未完全利用可以通过高速活体成像显微镜可视化的细胞和亚细胞动态。通过时间展现动态变化可以解决细胞异质性、细胞周期阶段、细胞命运的不同、蛋白表达的变异、细胞或亚细胞尺寸的变化以及细胞内/细胞间信号传递带来的挑战。除了利用细胞动态原理外,人工智能引导的视频数据集方法还可以加速药物发现的多个步骤,包括细胞毒性检测、细胞周期分析和形态学分析。增加单细胞视频数据集以及深度学习模型标准的发展,可以将图像组学与其他捕捉动态信息的组学数据集整合,加速药物重新定位研究。投资于编制显微镜数据集的合作努力,可以推动强大的人工智能引导方法的发展。这将解锁研究和工程机会,从而促进循环学习过程,揭示前沿生物学和药物发现研究中未探索的细胞过渡状态。

机遇二:基因组-表型图谱。利用细胞生物学方法构建的遗传交互图正在改变作者对多种生物过程的理解,但它们的影响仅限于特定的模型系统或实验设置。作者才刚开始可靠地将不同细胞类型、荧光标记或成像系统的数据集联系起来。人工智能引导的图像分析方法非常适合从图像和视频数据集以及不同的数据库中提取信息,且形式公正,因为它们可以训练寻找模式(例如,可以在数百个细胞系或药物处理中收集多核、变形和双核等核型异常结构)。目前,各种细胞类型和模型的高通量基因组-表型映射图像数据集以非连贯的方式存放,因为缺乏统一它们的动力。人工智能引导的方法可能提供开发统一标准的可能性和价值,除了现有的全球努力命名和存储大型视频数据集之外。

机遇三:精准医疗。使用高通量细胞生物学方法对遗传变异进行解释和分类仍是一个新兴领域。生殖系变异指南已经建立得很好,体细胞变异指南也在建立中。在这两种情况下,作者预期单细胞成像、相关的图像数据集和图像分析方法将在区分变异的致病性中发挥关键作用。为了构建可扩展、可泛化且具有探询性(交叉检查)的分层方法,可以训练深度学习模型来检测和分类表型变化和隐藏模式。群体学习已被提议用于分散且保密的X射线图像分析和数字病理学,也可以扩展到细胞生物学图像和活细胞视频。随着人工智能方法被纳入临床预后框架,作者预测对评估癌症治疗、遗传性罕见病和传染病中分子靶点的临床可操作性的强大模型的需求将日益增长。

结语

深度学习方法在分析大规模和复杂显微镜数据方面的影响显著。深度学习技术已经彻底改变了静态图像分析,并开始通过最先进的性能改造延时视频分析,在诸如对象检测与跟踪、分割、以及无监督聚类和分类等广泛应用中表现出色。用于细胞分割和分类的深度学习方法开始在3D结构或时间序列数据中检测新的异常情况,识别特有的瞬态细胞转变,并揭示以前未被认识的复杂行为和运动模式。

自动化和数据驱动的工作流程与基于云的大规模解决方案显著提高了深度学习引导的图像分析任务的速度、效率和准确性,同时也增加了生物学家实施和分享人工智能工具的便利性。总体而言,深度学习方法在显微镜使用中使研究人员能够从大量的图像数据中提取宝贵信息,包括一些肉眼不明显的信息,为医学诊断和临床转化开辟了新的机会。

重要的是要认识到,深度学习方法依赖于丰富的、精确注释的数据和仔细的参数调整。评估它们的可靠性和可解释性可能具有挑战性,这可能限制了它们在某些领域的应用(参见未解决的问题)。建立普遍接受的标准和框架以存储和分享人工注释的图像数据集、深度学习模型和后处理流程是复杂的挑战,需要通过国际合作和联盟来关注。

编译 | 黄海涛

审稿 | 王建民

参考资料

Chai, B., Efstathiou, C., Yue, H., & Draviam, V. M. (2023). Opportunities and challenges for deep learning in cell dynamics research. Trends in Cell Biology.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档