前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >研究人员提出“LViT”,一种利用文本医学报告改进分割的语言视觉模型

研究人员提出“LViT”,一种利用文本医学报告改进分割的语言视觉模型

作者头像
代码医生工作室
发布2022-11-17 08:35:49
8600
发布2022-11-17 08:35:49
举报
文章被收录于专栏:相约机器人相约机器人

在深度学习在医疗保健领域的众多应用中,细分无疑是研究最多的领域之一,因为它可能带来广泛的优势。

然而分割并不是一项没有成本的任务:首先在医疗保健领域的大多数应用中,获得高质量的图像并非易事。其次标记阶段在时间和资源方面的成本非常高,特别是与任务是分类甚至对象检测时必须完成的标记相比。

训练一个也依赖于其他信息的分割模型将是医学分割的转折点。

这正是厦门大学、德克萨斯大学和赫尔大学的一个研究小组与阿里巴巴集团的想法,他们提出了 LViT,一种利用书面医疗记录的分割架构,这些医疗记录通常与患者一起生成,因此没有额外费用。

医学文本数据和图像数据自然互补,因此文本信息可以 1)弥补医学图像数据的不足并提高分割性能;2)允许使用未标记的图像。

LViT 模型由两个 U 形分支组成:一个 CNN 和一个 Transformer。第一个读取图像并预测分割,而第二个合并文本和嵌入以添加跨模态信息并帮助 CNN 分割图像。

更准确地说,CNN分支由下采样和上采样部分组成。每个下采样层的后续输出直接传递到 ViT 分支以合并文本和图像编码。PLAM(像素级注意模块)块用作跳跃连接,将下采样分支的中间表示和 ViT 上采样部分中的重构特征作为输入。PLAM 的配置如右上图所示:将 Global Average Pooling 和 Global Max Pooling 的两个并行分支的输出相加、连接并传递给 MLP。该技术旨在保留图像的局部特征并进一步融合文本中的语义特征。

另一方面,ViT 分支从医学注释的 BERT-Embed 接收文本嵌入。连同图像嵌入。

最后但同样重要的是,作者还介绍了一种非常有效的技术,用于处理基于指数移动平均线的伪标签(分配给未标记数据的标签),称为指数伪标签迭代 (EPI)。非常简单地说,在每一步,使用先前预测的分割图作为基本事实逐渐更新伪预测分割。

该网络使用骰子损失和交叉熵对标记数据进行训练,并与未标记数据的 LV(语言视觉)损失相加。在实践中计算相似性度量以找到与正在计算的文本最相似的文本。一旦找到就获取相应的分割图,并计算它与ground truth mask之间的相似性损失。

结果

在对不同组件、模型大小和超参数进行广泛的消融研究后,该方法已应用于两个不同的数据集,MoNuSeg 和 QaTa-COV19,并与许多最先进的模型进行比较,获得了出色的结果就 dice 和 mIoU(单位上的平均交集)而言。一些图形结果如下所示:

https://arxiv.org/pdf/2206.14718.pdf

https://github.com/HUANGLIZI/LViT

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-08-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档