前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Biotechnol. | 基于大规模数据标注和深度学习对组织图像进行具有人类水平性能的全细胞分割

Nat. Biotechnol. | 基于大规模数据标注和深度学习对组织图像进行具有人类水平性能的全细胞分割

作者头像
DrugAI
发布2021-12-22 14:35:09
6740
发布2021-12-22 14:35:09
举报
文章被收录于专栏:DrugAIDrugAI

编译|贺小龙 审稿|程思雨

今天给大家介绍的是由美国加州理工学院生物与生物工程系的David Van Valen、斯坦福大学病理学系的Michael Angelo等研究人员在《Nature Biotechnology》上发表的研究成果。组织成像数据的分析中一个主要挑战是细胞分割,即识别图像中每个细胞的精确边界的任务。在这篇文章中,为了解决这个问题,作者首先构建了一个用于训练分割模型的数据集TissueNet,这其中包括了一百多万个手动标记的细胞。然后作者用TisseNet训练了一种基于深度学习的分割算法Mesmer。通过实验表明,Mesmer比以往的方法更加准确,它能够概括TissueNet中组织类型和成像平台的全部多样性,并且达到了人类水平的表现。Mesmer还能够自动提取关键的细胞特征,如蛋白质信号的亚细胞定位。作者之后对Mesmer进行调整从而使其能够在高度复用的数据集中利用细胞谱系信息,并且还利用这个增强的版本量化了人类妊娠期间细胞形态的变化。

1.简介

理解组织中存在的结构和功能关系是基础研究和转化研究前沿的一个挑战。多重成像技术的最新进展扩大了可同时定量的转录物和蛋白质的数量,为大规模分析人体组织样本开辟了新的途径。但是,目前对于全面表征细胞在人体内的位置、功能和表型的工具或算法是缺乏的,特别是用于定位图像中单个细胞的通用算法。与流式细胞术或单细胞的RNA测序不同,组织成像是用完整的标本进行的。因此,要提取单细胞数据,必须在称为细胞分割的过程中将每个像素分配给一个细胞。实现精确、自动化细胞分割的困难在很大程度上是由于不同组织类型的细胞形状、大小和密度的差异。然而为应对这一挑战而开发的机器学习方法在组织成像数据方面存在不足,一个常见的缺陷是该方法需要执行手动的、特定于图像的调整从而产生有用的分割。计算机视觉的深度学习算法越来越多地被用于生物图像分析中的各种任务,其中包括细胞核和细胞分割。这些算法能够实现高精度,但是需要大量的带标注的训练数据。此外,大多数公开数据集标注的是细胞核的位置,而不是整个细胞的位置,这意味着在这些数据集上训练的模型只能执行细胞核分割,而不能进行细胞分割。因此,缺乏可用的数据和很难将预先训练好的模型部署到生命科学界这两点导致全细胞分割的进展受到了阻碍。

在这篇文章中,作者试图为细胞核和全细胞的分割创建一个自动化、简单且可扩展的算法,该算法可以在各种组织类型和成像平台上精确执行。作者认为开发这种算法需要两个创新:

(1)能生成大量像素级别训练数据的可扩展方法。

(2)一个集成的深度学习算法,它使用这些数据来达到人类水平的性能。

为了解决第一个挑战,如图1所示,该团队开发了一种众包的、“人在环路”的方法来分割细胞,其中人和算法协同工作以产生准确的标注,并就此算法创建了 TissueNet,这是一个包含超过 100万对全细胞与核注释的综合分割数据集。TissueNet 包含的核标签数量是之前发布的所有数据集总和的两倍,全细胞标签数量达其16 倍。为了解决第二个挑战,作者开发了Mesmer,这是一种基于深度学习的组织数据核和全细胞分割算法,它用于可扩展的、对用户友好的组织成像数据分割。为了让科学界广泛使用,作者所在团队还利用DeepCell创建一个使用Mesmer的web界面,以及ImageJ和QuPath的插件。

图1 | 一种“人在回路”的方法能够对大型图像集合进行可伸缩的像素级别的标注。

2.构建TissueNet的方法

现有的用于细胞分割的标注数据集在范围和规模上都是有限的(图1b)。这种限制主要是由于用于构建它们的线性、时间密集的方法,这需要手动标定图像中每个单元的边界。因此,作者运用了一种三阶段的方法来创建TissueNet(图1a)。第 1 阶段创建注释以训练模型;第2 阶段,新数据通过初步模型输入以生成预测、人工修改、图像校准、模型改进,直至第 3 阶段,无需人工校正即可运行准确的模型。

由于作者的 “人在环路” 数据标注方法的可扩展性,TissueNet大于以前所有发布的数据集的总和(图1b),具有130万个全细胞注释和120万个细胞核注释。TissueNet包含来自六个成像平台(图1c)、九个器官(图1d)的2D数据,并且包括组织学上正常的和患病的组织(例如,肿瘤切除)。建造组织网需要超过4000人/小时,相当于近2个人/年的全职工作量(图1e)。

3.Mesmer算法及其性能

为了满足细胞分割对准确性和速度的要求,团队创建了 Mesmer,这是一种基于深度学习的组织数据核和全细胞分割算法。如图2a所示,Mesmer 的模型由一个 ResNet50 主干和一个特征金字塔网络组成,该网络有四个预测头(两个用于核分割,两个用于全细胞分割),它们与金字塔顶部相连接。Mesmer 的输入是用于定义每个细胞核的核图像和胞膜或胞质图像,这些输入被标准化,平铺成固定大小的块后,被送入深度学习模型直到模型输出产生对图像中每个细胞核和细胞的质心和边界的预测。然后将质心和边界的预测作为分水岭算法的输入,为图像中的每个细胞核和每个细胞创建最终实例分割掩码。

将其与现有的 FeatureNet 和 Cellpose进行比较,Mesmer 可以更有效地捕获图像中每个细胞的真实大小(图2b)。该团队还检查了 Mesmer 对一系列组织类型的分割预测(图2f),可以对细胞进行均一分割,不会出现过大或过小的细胞。

图2 | Mesmer在组织的多重图像中提供精确的细胞核和全细胞分割

为了进一步评估Mesmer相对于人类的表现,作者招募了四位病理学家对来自人类和Mesmer的分割进行盲法评估。每个病理学家都看到了成对的图像,其中包含Mesmer的预测和人类的标注(图3e)。综合评估时,病理学家对 Mesmer 的预测和专家标注员的预测给予了同等的评价(图 3f)。按组织类型细分评估,病理学家评估中仅有微小差异,在某些组织中,Mesmer的表现略好于标注员,而在其他组织中,标注员的表现略好。综上所述,前面的分析表明,Mesmer执行的全细胞分割具有人类水平的性能,并且以前的细胞分割算法在组织数据方面没有达到与人类性能相当的水平。

图3 | Mesmer以人类水平的精确度跨组织类型和成像平台执行全细胞分割

细胞分类是分割后的一项常见任务。分割的不准确可能会导致图像中细胞的识别和计数产生实质性偏差。为了对Mesmer的预测如何影响这一过程进行基准测试,作者分析了Vectra平台生成的一组乳腺癌样本。每幅图像都用一组谱系定义标记(图4g)染色,用它来将每个细胞分类为T细胞、单核细胞、肿瘤细胞或非门控细胞。之后从三名患者中选择了两个不同的区域,并为图像中的所有细胞生成了预测分割和真实分割。使用相同的方案将来自预测(图4h)和真实(图4i)分割的所有细胞分类到这些类别中。然后,作者计算了患者中每种细胞类型的精确度和召回率。我们可以观察到两种标注之间有很强的一致性(图4j),表明Mesmer的分割预测能够准确地对这些图像中存在的细胞多样性进行分类。

图4 | Mesmer实现了多路成像数据的精确分析

作者还使用谱系感知的分割管道来量化蜕膜细胞随时间的形态变化。作者首先定义了一系列的形态度量来捕捉数据集中细胞形状的多样性(图5c)。然后人工检查证实了每个类别细胞的准确分配(图5d)。之后作者创建了一个自动管道,为图像中的每个单元计算这些指标。作者将这个管道应用于数据集中,发现这些度量捕捉了观察到的细胞形状中关键的形态特征(图5e)。然后,对细胞形态分布图进行k-means聚类,并确定了四个不同的聚类(图5f,g)。为了确定这些细胞形态在人类蜕膜中如何随时间变化,作者根据年龄将样本分为两组:孕早期(6-8周)和孕晚期(16-18周)。然后通过细胞簇对每个细胞着色来突出了两个胎龄组之间细胞形态的差异(图5h,i)。作者在早期时间点观察到大量的簇1细胞(细长的),在晚期时间点观察到大量的簇2细胞(大的和球状的)(图5j)。这种转变可能反映了母体基质细胞在蜕膜化过程中所经历的形态转变。通过分析表明,全细胞分割可以使细胞形态学成为一种定量的可观察的现象,将病理学家的历史知识与现代多重成像方法联系起来。

图5 | 谱系感知分割能够在人类怀孕期间对蜕膜中的细胞进行形态学分析

4.总结及未来工作

在这篇文章中,作者构建了数据集TissueNet和深度学习算法Mesmer。TisseNet包含来自9个器官和6个成像平台的100多万个细胞的成对细胞核和全细胞标注,比之前发布的所有分割训练数据集都多一个数量级。Mesmer以用户友好的方式为最广泛使用的荧光和质谱成像平台提供统一的细胞分割解决方案。在各种组织和成像模式中,Mesmer实现了人类水平的精度,并且不需要来自最终用户的手动调整参数。

未来的挑战包括建立一个标准化的cross-tissue antibody panel来进行细胞分割。建立这样一个panel将是一个重大进步,并将与这里介绍的工作产生协同作用。三维全细胞分割是另一个挑战,随着成像吞吐量的增加以允许对此类数据集进行常规收集,这个挑战将变得更加突出。作者的工作可以作为这些努力的起点,因为它在组织的二维切片中产生精确的预测。现在,社区可以获得精确的细胞分割,可以从当前生成的数据多样性中获得许多科学见解。

参考资料

Noah F. Greenwald,et al. Whole-cell segmentation of tissue images with human-level performance using large-scale data annotation and deep learning. Nature Biotechnology, 2021.

https://doi.org/10.1038/s41587-021-01094-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档