社区推动让医学进了一大步？社区医学竞赛，构建健康人体参考图谱

文章来源：企鹅号 - 那拉美李

近几年人类为了开发一个健康人体参考图谱，科学家们需要对来自不同样本准备的空间生物图像进行自动分割，以便获得多个器官的主要解剖结构。

但是对这些样本进行自动分割不是一件轻松的事情，因此在这众多科学家的冥思苦想下，创建了一个比赛，那就是“Hacking the Human Body”机器学习算法开发竞赛。

这个竞赛中核心是通过展示竞赛的设置和结果以便创建一个共同的数据集，用最简单的社区推动办法来解决切割样本需求量大的问题。

这场竞赛是由人类生物分子图谱和人类蛋白质图谱团队在卡格尔平台上举办的“Hacking the Human Body”机器学习算法开发竞赛。

这个竞赛的中文名叫“入侵人体”，意思就是采用多人或多团队共同的努力下共同入侵人体，以便达到切割里面众多组织系统的需求。

在这个竞赛里一共包含了880张组织学图像，这些图像其中有12,901个需要进行分割的结构，因此如今这种社区驱动的模式是最适合解决这个问题的方案。

由于这场比赛的特殊性质和高难度模式吸引了来自78个不同国家的1175支团队的积极参与，也是他们所有人的参与共同推动了社区驱动的机器学习模型的开发。

但是显然这些队伍低估了这个比赛的难度，因为这个数据集中的组织样本是存在较大的变异性的，这代表着这些参赛团队也即将迎来巨大的挑战。

这些队伍可谓是卧虎藏龙，很多队伍都率先想到了解决方案，他们为了克服这一问题，众多团队采用了颜色标准化技术，并将视觉转换器与卷积模型相结合，以提高分割准确度和效率。

也因为这个独特的技巧让这个团队一举成名，他们的模型也被称之为是最佳模型，而且这个最佳模型也将被用于产品化，会集成到HuBMAP门户中，用来支持在构建人体参考图谱的过程中，对大规模组织图像数据进行高效处理。

这个竞赛虽然范围和精力都很大，但是他最终的确达到了举办方的需求和问题，这个比赛不仅推动了机器学习领域的发展，也为人体生物学研究和医学进步提供了有力的工具。

上面的那个比赛主要就是为了让科学家们得到充足的实验数据和可分析的模型从而完成人体参考图谱的最终版。

而这种构建人体参考图谱是一项庞大的任务，它需要协调和分析大量的图像和其他数据，用来了解主要解剖结构和细胞类型的组织和功能组织。

这些分析数据任务中的核心任务就是要将主要解剖结构从整个身体到单个细胞水平进行分割，而功能组织单元作为一个连接器，有助于弥合这些尺度差异。

FTUs是指执行独特生理功能并在整个器官中多次复制的最小组织结构，并且FTUs的空间组织对器官的功能也会产生重要影响，而患有疾病的FTUs可能具有不同的细胞类型、不同的大小和形状，或者在器官内的数量或组织中发生改变。

由于这种特殊性，这个分割FTUs对于识别细胞类型及其基因/蛋白质表达模式至关重要，然而，高效地分割组织学切片中的解剖结构面临多重挑战，包括手动分割的繁重工作、观察者之间的差异、以及人眼无法察觉或可能被忽略的微妙差异和细节。

经过科学家们的大量实践，为了更好的支持高效和高质量的组织分割，他们已经采用了人机协作方法，将人类专业知识与机器智能相结合。

这也意味着一旦建立了高质量的机器学习（ML）训练数据集，就可以训练和优化ML算法以在大规模上分割图像数据，然后，新的数据集可以由人类专家进行验证和/或改进，从而进一步提高ML算法的性能。

尽管这项算法在过去的十年中已经进行了大量关于分割组织学图像的工作，但大多数工作侧重于单个细胞的分割或单一器官中目标结构的分割，而缺乏能够在来自不同实验室的多个器官中分割FTUs的ML算法。

于是为了解决这个问题，上述的那场机器学习竞赛也就产生了，这项比赛旨在开发能够正确分割不同形状和大小的FTUs的算法。

这个竞赛也吸引了1175支团队，他们在为期3个月的竞赛期间提交了39,568次代码，展示了竞赛的激烈竞争和不断改进的过程，下面将详细介绍竞赛的设计和突出的挑战，以及获胜团队采用的策略，同时还将分析模型失败情况、额外指标对表现的影响以及竞赛的动态和代码性能改进。

“入侵人体”竞赛的主要目标是开发机器学习算法，而这项算法会用于在五个不同人体器官中对功能组织单元（FTUs）进行分割，这个竞赛的设计旨在构建通用于多个器官、在图像分辨率、颜色、伪影、染色等数据集差异方面具有稳健性的算法。

在这项比赛中获得胜利，最终被采用的组织学图像来自两个不同的合作团队，分别是HuBMAP和HPA。

HPA团队参与这个竞赛的主要兴趣在于，能够通过分割组织切片中的FTUs的模型可以为HPA的组织图谱部分的数据提供更多定量分析的途径，例如了解FTUs内蛋白质表达模式在供体性别、种族或年龄变化等方面的差异，或者比较同一供体中不同蛋白质的表达模式。

而在HuBMAP和其他合作团队中，用于构建人体参考图谱的工作使用FTUs来描述局部细胞邻域的生理功能，他们对于在健康和疾病状态下不同供体人群的FTU数量、大小和形状的差异也感兴趣，因为能够在组织学图像中分割FTUs对于表征其形态、细胞类型和基因/蛋白质表达模式是至关重要的。

这个“入侵人体”竞赛的数据集包括五个不同器官中的五种FTUs，分别是肾脏中的肾小球、大肠中的隐窝、肺部中的肺泡、前列腺中的腺性小叶以及脾脏中的白髓。总共有880张图像组成的数据集，其中432张来自HPA，448张来自HuBMAP。

这些来自于两个团队共同努力下记录的数据集被分成了一个训练数据集和一个私人和公共测试数据集，以确保算法的公平性和可比性。

除了这些规则之外，竞赛允许参与者使用任何外部公开可用的数据，算法性能是通过测试数据集上的平均Dice系数来评估的，而在竞赛结束时，私人排行榜上排名前三的团队将获得性能奖励，还有科学奖和多样性奖等其他奖项供团队参与竞争。

针对这个比赛的难点就是需要构建的ML代码解决方案必须经过训练，因为这是适用于一种染色方法，这种方法也是HPA后来创造的，并且这种方法是能在推断期间能够泛化到涵盖其他类型的染色方法，也就是可以涵盖HuBMAP的方法。

除了这些困难以外，团队不仅要处理分辨率、颜色、组织厚度等方面的差异，还要为多个器官优化代码，因为性能较低的任何器官都会对总体评分产生负面影响，此外，还存在小训练集、不均匀的训练/测试分割和类别不平衡等挑战，这些挑战激励团队构建最佳解决方案，以从训练数据中提取最大的信息信号。

在这项“入侵人体”机器学习算法开发竞赛中，由人类生物分子图谱和人类蛋白质图谱团队的联合在卡格尔平台上主办了一场具有挑战性的竞赛，而这项竞赛的目的是通过众多科学家的共同努力，开发机器学习算法，以实现对来自不同样本准备的空间生物图像进行自动分割，从而获得多个人体器官的主要解剖结构。

这项竞赛的数据集包含了880张组织学图像，其中包含了12,901个需要进行分割的结构，这个社区驱动的竞赛吸引了来自78个不同国家的1175支团队的积极参与，他们共同致力于解决这一大规模分割任务，然而，这个竞赛的特殊性质和高难度使得参赛团队面临巨大的挑战。

他们为了克服这些挑战，参赛团队采用了颜色标准化技术和将视觉转换器与卷积模型相结合的方法，以提高分割准确度和效率，其中一支团队的模型表现出色，被认为是最佳模型，并将被用于产品化，以支持在构建人体参考图谱的过程中，对大规模组织图像数据进行高效处理，将为医学研究和人体生物学研究提供有力工具。

这场竞赛取得了最好的成绩和结果，不仅推动了机器学习领域的发展，还为构建健康人体参考图谱提供了重要的数据和方法。

这是一项庞大而重要的任务，需要协调和分析大量的图像和其他数据，以深入了解人体主要解剖结构和细胞类型的组织和功能，这个竞赛的成功为医学研究和医疗进步提供了宝贵的支持。

发表于: 2024-07-272024-07-27 10:49:40
原文链接：https://page.om.qq.com/page/OLMmhZV2vNyRpLy29C_3LOlw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

社区推动让医学进了一大步？社区医学竞赛，构建健康人体参考图谱

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐