自由操作的胎儿超声检查需要大量的临床技能。本文提出了Sonomate(超声医师的助手),一个在胎儿超声检查期间辅助用户的AI助手。Sonomate基于对齐来自超声视频的特征和来自转录音频的文本特征,以促进超声设备与用户之间的实时交互。该方法结合了粗粒度的视频-文本对齐和细粒度的图像-句子对齐,以构建一个能够理解胎儿超声视频的、稳健的视觉基础语言模型。
为了应对现实世界视频-音频对中存在的异构语言和异步内容带来的挑战,在细粒度对齐中设计了解剖结构感知对齐和上下文标签校正。Sonomate能够有效检测胎儿超声图像中的解剖结构,而无需在手动标注的数据上进行重新训练。此外,Sonomate在胎儿超声图像和视频的视觉问答任务中显示出有前景的性能。构建了安全防护栏以确保Sonomate在部署过程中的安全性。这一进展为AI辅助技术用于支持超声医师培训和增强诊断能力铺平了道路。
超声成像是一种重要的医学诊断技术,临床上用于可视化人体内的各种组织、血管、可疑病变和胎儿。相对于X射线和磁共振成像,超声因其无辐射、非侵入性、便携性和相对低成本等特性,非常适合作为基于成像的胎儿筛查和检查技术。
尽管有其优点,自由操作的超声检查虽然广泛应用,但需要高度的技能才能产生高质量的诊断图像。一名新获得资格的超声医师可能需要数年时间才能发展成为高技能超声医师。特别是,新获得资格的超声医师与经验丰富的专业人员之间的区别不仅在于熟练解读,还在于掌握复杂的扫描技能。这种专业技能壁垒是全球范围内高技能超声医师短缺的一个关键因素。
本研究探讨人工智能如何潜在地用于解决这种劳动力短缺问题。具体来说,描述了一个能够理解和解读超声数据的“智能”超声助手。这个AI超声助手通过文本促进超声设备与用户之间的实时交互和通信,以提供数字同伴支持并提高熟练度。
为了实现智能超声助手所需的理解和交互,利用了视觉-语言预训练。VLP对于从大规模图像-文本对中学习多模态表示至关重要,从而能够通过文本描述解释视觉数据。基于VLP学习到的表示已被证明可以改善下游任务的性能,如图像分类、图像检索和视觉问答。
许多现有的VLP工作使用对比语言-图像预训练模型来对齐视觉和语言特征空间,该模型因其良好的可扩展性和对未见任务的泛化能力而成为一种流行的模型。然而,CLIP不适合生物医学应用,因为生物医学图像及其相关的专业词汇与CLIP构建所基于的标准网络内容不同。特别是,同一个词根据上下文可能具有不同的含义。因此,CLIP在胎儿超声解剖检测任务中表现不令人满意。
为了解决这种领域差异,最近提出了几种专门在生物医学数据上训练的视觉-语言模型,例如图像-描述、图像-报告和图像-推文对。例如,BiomedCLIP是在PubMed图书馆文章中的大量图像-描述对集合上开发的,专注于使用对比学习学习这些跨模态数据的联合表示,实现了跨模态检索和分类,但缺乏生成或对话能力。诸如Med-Flamingo和LLaVA-Med等模型通过多模态指令微调将大型视觉-语言模型扩展到生物医学应用。Med-Flamingo强调少样本和上下文学习,而LLaVA-Med采用自指令微调方法,在学习开放式、遵循指令的行为之前对齐图像-描述数据。
尽管有其优势,但这些模型主要侧重于解释图像内容,而超声分析的实际应用需要强大的视频理解能力。此外,图像描述中的措辞与超声医师的口头语言不同。因此,为了使超声AI助手有效,必须根据超声扫描和超声医师的视角进行定制。这不仅应包括基于视频的分析,还应纳入超声成像或超声检查领域固有的特定沟通风格和领域知识。
鉴于这些挑战,本研究开发了一个名为Sonomate(超声医师的“助手”)的视觉基础语言模型,专门为胎儿超声视频理解而构建。该方法使用一个包含525个超声视频-音频对的大型多模态数据集构建,这些数据是在现实世界胎儿超声扫描过程中记录的。音频随后被转录成文本。随后将使用术语“视频-文本”来指代视频和转录音频的对,并在提及转录音频时使用“文本”。
为了有效对齐视频和文本特征空间,类似于现有的基于CLIP的研究,首先通过将配对的视频和文本特征“拉近”同时将未配对的“推远”来实现粗粒度的视频-文本对齐。考虑到在单个视频中,超声医师经常进行各种解剖检查或执行手动生物测量,然后提出了细粒度的图像-句子对齐来构建视觉基础语言模型。
在细粒度对齐中,面临两个主要挑战:
为了解决前者,提出了解剖结构感知对齐,首先定义了一个胎儿超声词汇集,其中包含许多与视觉相关的词。然后使用提取的词和简单模板重新组织每个句子,这些词与相应的帧特征对齐。为了处理时间异步性,提出了上下文标签校正,在将与相应句子对齐时考虑上下文图像。此外,设计了一种自适应标签校正算法,该算法在训练过程中基于深度模型最初学习正确的语义信息但由于其强大的记忆能力而逐渐记忆标签噪声这一观察,逐步修正对齐标签。
通过联合应用粗粒度和细粒度对齐,视觉和文本特征空间被自适应地对齐,确保了视觉基础语言模型的有效开发。
对视觉基础语言模型Sonomate进行了全面评估,以通过跨模态特征可视化评估其多模态对齐能力。专为超声视频理解而设计的Sonomate适用于各种下游任务。具体而言,评估了Sonomate在解剖检测和VQA任务中的性能,包括图像和视频级别。对于VQA,进一步构建了防护栏以确保Sonomate模型在部署期间的安全性。还表明,即使处理高密度数据,Sonomate也能保持实时性能,使其在高端和资源有限的硬件上都能实际应用。
值得注意的是,该方法通过首次在医学成像语言模型的背景下实现视频-文本对齐而区别于先前的工作。此外,Sonomate是首个报道的用于上下文感知胎儿超声视频理解的语言AI基础模型。除了这些进步之外,Sonomate具有实现超声设备与用户之间实时交互的功能,协助人类主导的胎儿超声检查,尤其有益于受训者和新获得资格的超声医师。
使用了来自PULSE研究的525个独特视频和音频对的集合,这些数据记录了从2019年1月21日到2023年2月9日期间由7名超声医师执行的全长胎儿超声扫描。数据收集在一家三级医院诊所进行,对前来就诊的妇女进行常规产科超声扫描,包括早孕期、中孕期和晚孕期检查,共525个独特的视频-音频对。
超声视频在跨模态对齐中提出了基本挑战,如图所示:
现有的医学多模态模型是在生物医学研究文章中的图像-描述对、来自Twitter的图像-文本对或图像-报告对上训练的。事实上,书面语言和超声医师语音之间的英语表达存在显著差异。此外,据我们所知,没有专门用于理解超声视频的语言模型。
鉴于这些差异以及缺乏专门的超声语言模型,本研究旨在开发一个超声医师的助手。通过训练一个能够从超声医师视角理解超声视频的视觉基础语言模型来实现这一目标。通过对齐视觉和文本特征空间,该模型能够在超声检查过程中实现有效的沟通和解读。
为了实现这一目标,一种简单的粗粒度方法是遵循CLIP模型的流程,这与最近现有模型中使用的方法一致。在我们的问题中,在粗粒度对齐中,将配对的视频和文本特征“拉近”,并将未配对的“推远”。单个超声视频可能包含超声医师进行的各种活动,例如解剖检查和生物测量。因此,需要在帧和句子的特征之间建立更细粒度的对齐。细粒度对齐涉及将句子特征拉向发生在句子开始和结束时间戳之间的相应帧特征,从而实现视觉和文本实体之间的特征空间对齐。
由于句子的时间戳是根据音频生成的,因此由于文本和视觉实体之间的时间差异,存在视频和音频内容之间的时间异步性挑战。因此,进一步提出了解剖结构感知对齐和alignment label correction策略以促进跨模态对齐。
通过在粗粒度视频-文本级别和细粒度帧-句子级别联合对齐视觉和文本特征空间,优化的文本编码器生成的文本特征分布与超声成像数据紧密相似,从而能够理解超声视频。在本节中,通过图像和文本特征可视化评估了方法在实现多模态对齐方面的有效性。
首先,显示了视觉图像嵌入和文本单词/短语嵌入之间的比较。例如,观察到八个顶点代表来自八个类别的图像嵌入,每个内部点表示相应文本特征嵌入相对于八个图像嵌入的分配概率。换句话说,每个内部点由八个图像特征顶点的凸组合确定,组合系数正是分配概率。图中的颜色编码代表不同的解剖类别。值得注意的是,将方法与基线模型BiomedCLIP进行比较时,可以观察到图像和文本特征之间存在明显差异。相比之下,模型显示出良好对齐的跨模态特征。这种视觉证据证明了方法在弥合图像和文本特征之间差距方面的有效性,促进了对超声数据的理解。此外,方法在生成针对不同解剖类别的有区分度的文本特征方面也表现更好。观察到不同解剖类别的特征表现出不同的分布,确认优化的文本编码器成功生成了捕捉各种解剖结构细微差别的文本表示。
接下来,显示了三个时间对齐的定性示例,即细粒度帧-句子对齐的相似性矩阵p。对齐标签源自每个句子的开始和结束时间戳。与BiomedCLIP相比,Sonomate模型展示了更清晰的时间对齐,更紧密地匹配对齐标签。希望强调结果中的两个关键观察:
图像编码器和优化的文本编码器可部署在广泛的超声应用中。在后续小节中,将展示如何利用Sonomate执行三个下游任务:知识增强的解剖检测,以及图像和视频级别的问答。
对Sonomate在胎儿解剖检测方面进行了系统评估。在此下游任务中,Sonomate从超声图像中识别胎儿解剖结构,无需在标注数据上重新训练的要求。在两个内部数据集和一个外部数据集上进行了评估:早孕期胎儿超声数据集、中孕期胎儿超声数据集和开源母胎US数据集。
与常用的基于CLIP的推理方法将标签转换为句子的文本嵌入不同,例如将“头围平面”转换为“头围平面的超声扫描”,提出了一种知识增强的解剖检测流程,其中设计了三种不同的方法,将解剖知识图谱纳入生成类别文本嵌入的过程中。使用召回率、精确率和F1分数指标,方法在包括CLIP、PubMedCLIP和BiomedCLIP在内的所有数据集上都表现出优于基线模型的性能。
在混淆矩阵中,展示了预测与真实标签之间的计算。虽然CLIP在一般领域取得了成功,但在此生物医学应用背景下似乎不太擅长,这可能是由于词汇和图像内容的差异。例如,在开源母胎US数据集中,所有测试图像都被预测为名为“其他”的类别。这一结果可能源于“其他”一词在标准网络内容中比胎儿超声成像中使用的专业术语(如“母体宫颈”类别)出现频率更高。尽管PubMedCLIP和BiomedCLIP都是在包含超声图像-描述对的多模态医学数据上训练的,但Sonomate在混淆矩阵中显示出明显更清晰的对角线模式。值得注意的是,在PubMedCLIP和BiomedCLIP中,腹部和头部等解剖结构之间的区别经常混淆。相比之下,方法可以准确区分这些可能混淆的解剖特征。
接下来,将Sonomate模型与其他完全监督的模型进行了比较。观察到模型优于SimCLR、SonoNet 16、32、64和PULSENet,特别是当标注训练数据包含少于1,000个超声扫描时。这展示了Sonomate在没有标注数据的环境中的稳健性和适应性。此外,完全监督的模型需要收集一组新的标注训练数据以在新场景中部署。这个过程不仅耗时,而且由于资源限制在许多实际应用中不切实际。相比之下,Sonomate提供了显著的灵活性。它可以轻松适应胎儿超声中的不同场景,而无需持续的数据收集和标注。
此外,有兴趣将模型的性能与人类参与者进行比较。为此,设计了一份包含100张胎儿超声图像的全面问卷。本研究参与者被要求将每张图像分类到特定的解剖类别。在“少样本人类”组中,参与者在完成问卷之前会看到每个类别的两个示例,允许他们熟悉分类任务。在“专家”组中,参与者在AI用于胎儿超声视频分析方面拥有丰富的研究经验。总共收集了八名参与者的回答,包括四名来自“少样本人类”组和四名来自“专家”组,其中包括经验丰富的临床医生。比较结果显示,模型优于“少样本人类”组。然而,与“专家”上限相比,性能仍存在显著差距,表明需要进一步改进和发展。分析每类召回分数提供了对模型优势和劣势的宝贵见解。它展示了在分类标准解剖平面(如“心脏”和“肾脏”特征)方面的熟练程度。然而,对于其他类别,性能落后于专家。例如,区分“股骨”和“脊柱”具有挑战性,因为它们外观相似且被分类为骨结构。同样,区分“HCP”和“SOB”很困难,因为两者都是经常连续评估的脑部解剖扫描,并共享共同子结构。
最后,进行了消融研究,全面调查了每个提出的组件,包括粗粒度视频-文本对齐、细粒度图像-句子对齐、解剖结构感知对齐、上下文标签校正、自适应标签校正和解剖知识图谱。通过将每个组件添加到基线模型BiomedCLIP中,整体性能逐渐提高,证明了架构组件的选择合理性。
特别是,还研究了如何有效地纳入解剖知识图谱,探索了三种方法:
将所有子结构词汇连接成一个句子的方法表现最佳,因为其他两种方法如果由于使用平均算子而导致任何子结构缺失,则可能导致预测偏差。
为了研究超声词汇集在解剖结构感知对齐中的有效性,根据其视觉基础得分逐步移除单词并测试性能。每个词汇术语根据ChatGPT的视觉-语义评估获得0到10的分数。按分数划分的单词频率分布显示在左侧。从视觉基础得分升序开始,逐步移除词汇单词,从2、5和6分开始,然后移除7分,继续移除8、9和10分。相应的性能显示在右侧,揭示了一个明显的趋势:消除弱基础单词仅导致轻微的性能下降,而移除高度基础的术语则导致显著下降。这表明视觉基础词汇术语对于超声图像和文本特征之间的准确对齐至关重要。
Sonomate具有通过提供视觉问答能力来简化超声扫描设备与用户之间交互的功能,该能力包括图像和视频级别的VQA任务,关键区别在于输入视觉数据:静态图像或动态视频。为此,在Sonomate中引入了一个多模态解码器。该解码器包含一个随机初始化的四层Transformer结构,它将视觉和问题特征连接起来作为输入以得出输出答案。此外,整合了外部知识源以增强答案预测。这些功能为推理过程提供了关键上下文,指导具体答案的选择。
为了优化多模态解码器以进行VQA任务,使用PULSE数据集中的转录音频数据和注释生成问答对并构建VQA数据集,产生了172,801个图像级VQA训练数据和196,858个视频级VQA训练数据。为了更深入地了解图像和视频级别的VQA数据集,在扩展数据表中提供了几个示例,包括真假问题和开放式查询。请注意,不同类型的问题同时训练但分开测试。
对于图像级VQA,Sonomate在5项任务中平均准确率达到84.15%。与基线相比,Sonomate在不同类型的问题中分别提高了6.30%、4.40%、6.55%、2.45%和15.69%。结果表明,专门在超声视频和文本上预训练的Sonomate中的视觉基础语言模型在图像级VQA任务中具有卓越性能。此外,外部知识的整合显著提升了模型在VQA方面的性能,特别是在开源母胎US数据集上,因为额外的信息为答案推理提供了关键上下文。
对于视频级VQA任务,利用F1分数、准确率和BLEU-1指标来评估预测句子中是否存在特定关键词。此外,计算了BLEU-2和最小编辑距离分数,以评估预测句子中单词序列的准确性。Sonomate优于以BiomedCLIP初始化的基线,导致BLEU-1分数分别提高了0.03、0.03、0.01、0.03和0.08。基线模型在技能评估方面表现相对较差,可能是因为头部视图非常相似,导致BiomedCLIP的图像编码器特征提取不佳。不同之处在于,方法在固定图像编码器之后引入了一个带有可学习线性投影层的残差块。通过联合粗粒度和细粒度对齐进行优化,Sonomate可以捕获针对超声数据的更具区分度的视觉和文本特征。关于序列预测任务,观察到在解剖检查和生物测量序列预测任务中,将预测和真实单词序列对齐所需的最小编辑次数分别减少了0.03和0.04。
除了性能指标,进一步分析了Sonomate对输入变化和答案分布的敏感性。具体来说,检查了当图像特征缺失时模型的行为,并探索了不同类别的预测答案的分布和准确性。
通常,防护栏旨在过滤训练过的语言模型的输入和输出,以防止模型提供不当或有害的响应。在现有的防护栏方法中,处理输入/输出提示的输入/输出工程方法已被探索。例如,Jain等人报告,使用大型语言模型过滤和重述输入提示是防御输入文本中对抗性攻击的简单而有前景的方法。Kumar等人提出了一个擦除-检查框架来防御对抗性输入提示。在临床实践中,超声医师可能会输入意想不到的查询。因此,研究了两种方法来确保Sonomate在部署期间的安全使用,即分布外问题检测和问题复述生成。
分布外问题:Sonomate专为超声检查设计,并在扩展数据图中列出的问题上进行训练。为了避免对分布外问题的不合理响应,开发了一种方法来过滤掉不在训练数据问题分布内的OOD问题。引入了一个OOD问题检测网络,该网络处理问题的文本并输出三种类型的概率:生物测量、孕期和解剖结构。文本编码器使用训练过的视觉基础语言模型初始化,而分类器是一个随机初始化的线性层。对于图像级VQA任务,文本问题被随机分为75%的训练问题和25%的测试问题。此外,引入了一组与生物测量、孕期或解剖结构无关但与胎儿超声检查相关的OOD问题。使用训练问题文本,通过交叉熵分类损失优化文本编码器和分类器。在测试阶段,如果预测的最大概率低于某个阈值,则输入被视为OOD;否则,它被分类为三个类别之一。通过将阈值在0.8到0.99之间调整,可以在广泛的阈值范围内平衡分布内和OOD数据之间的性能。例如,阈值为0.97时,模型可以拒绝图像级VQA中的所有OOD问题,并为每个OOD问题引发错误提醒“Sonomate无法回答此问题”。否则,问题由Sonomate回答。
问题复述生成:首先根据超声医师的建议和录制的音频内容,为每种类型手工制作了五个问题模板。为了确保Sonomate能够处理各种措辞的问题,对于每种类型,使用ChatGPT 3.5将五个问题模板扩展为200种不同的变体。这种扩展增加了训练集中问题的多样性,使其能够涵盖每种类型问题可能被问到的多种方式。因此,VQA模型可以学会识别和理解不同的措辞,提高其稳健性和灵活性。
在推理阶段,使用了问题复述生成策略。具体来说,将输入的测试问题与训练数据集中的问题进行比较。首先,使用先前训练的OOD问题检测模型来确定输入的测试问题是否属于训练问题的分布。如果分类为分布内,则通过识别训练集中最相似的问题来重述它。这种相似性是使用输入测试问题的特征向量与训练集中问题的特征向量之间的余弦相似度计算的,输入测试问题的特征向量由文本编码器生成。这确保了输入的测试问题被转换为Sonomate训练理解的形式,从而实现准确的答案预测。
为了经验性地验证对包括不同语言或文化背景用户典型的沟通风格在内的各种沟通风格的稳健性,创建了一个针对性的测试集,模拟反映现实世界可变性的边缘情况输入:
观察到OOD检测模型在区分分布内和OOD问题时实现了高精度。此外,复述机制通过将模糊或不寻常的问题转换为分布内训练模板,增强了模型的稳健性。这导致了对扰动输入的图像级VQA准确率的提升,接近模型在干净数据上的性能。这些发现强调了防护栏机制可以很好地处理沟通风格的变化,并加强了其在多样化用户群体中的可用性。
为了展示模型的计算需求,进行了两组实验评估:一组仅使用CPU,另一组同时使用GPU和CPU。结果总结在表中,报告了不同下游任务在两种硬件配置下的推理时间。
对于解剖检测,模型在两种配置中都表现出高效的性能。在仅CPU场景中,处理每张图像需要100.23毫秒,而在GPU+CPU设置中,时间显著减少到7.91毫秒。图像特征提取过程是总体推理时间的主要贡献者,在仅CPU场景中约占100毫秒,在GPU+CPU设置中约占7.7毫秒。利用GPU支持加速了这一过程,使其非常适合实时部署。此外,仅CPU场景中的100.23毫秒处理时间即使在资源受限的环境中也是可以接受的。
对于图像级VQA,模型非常高效。仅使用CPU处理时,回答每个问题需要100.37毫秒,而当使用GPU和CPU时,时间减少到每问题7.737毫秒。推理时间的主要贡献者仍然是图像特征提取。将问题与图像特征整合只需要很少的额外时间。这突显了模型针对基于图像的任务进行了优化,并且可以部署在高端和资源受限的硬件上。
对于视频级VQA,处理时间随着视频长度的增加而增加,因为需要处理更多的帧。仅使用CPU处理时,回答一个4分钟的视频问题大约需要2分钟。然而,使用GPU+CPU将时间大幅减少到9.3秒。值得注意的是,使用GPU+CPU时每帧的特征提取时间为7.7毫秒,仅CPU时为100毫秒。鉴于模型每秒处理5帧,特征提取时间与帧持续时间相比可以忽略不计。因此,图像特征提取可以在扫描过程中实现,使实时通信变得可行。对于视频级问题,响应时间在仅CPU时减少到290毫秒,在GPU+CPU设置时减少到15毫秒。模型在处理长视频输入方面的效率表明,即使在高密度数据下,它也能保持实时性能,使其在实际应用中具有实用性,无论是在高端还是资源受限的硬件上。
超声是一种高度依赖操作员的模式,新获得资格的超声医师和专家超声医师之间存在显著的技能差距。本研究提出了Sonomate,一个为实时胎儿超声视频理解而设计的视觉基础语言模型,旨在缩小这一技能差距。通过解决自由操作超声的固有挑战,Sonomate在实时扫描期间充当数字助手,提供交互式指导,如解剖检测、问答和即时反馈。据我们所知,这是首个集成视频-文本对齐的医学成像语言模型,超越了先前主要关注静态图像或事后报告的工作。Sonomate的核心创新在于提出的联合粗粒度和细粒度对齐策略,这些策略针对现实世界超声扫描的复杂性进行了定制,即使存在视觉无关内容和时间异步性。通过桥接超声视频流和超声医师语音模式,该模型实现了增强的多模态特征表示,直接提升了解剖检测、交互式图像和视频级别问答在实时任务中的性能。
除了性能指标,Sonomate为临床工作流程,特别是培训环境和早期职业超声检查实践带来了切实的好处。该系统通过提供上下文感知的实时辅助来解决超声的陡峭学习曲线,有助于减少错误、最大限度地减少不必要的重复扫描,并在独立检查期间建立用户信心。对于新获得资格的超声医师来说,这种支持尤其有价值。在没有经验丰富的同事即时帮助的情况下进行扫描可能令人望而生畏,常常导致犹豫不决和频繁寻求第二意见。Sonomate通过验证图像质量和确认是否已获取所有必需的解剖视图来帮助缓解这一问题,减少了对专家监督的依赖。例如,许多新获得资格的超声医师由于不确定性,即使第一张图像合格,也倾向于捕捉同一结构的多张图像。通过提供即时反馈,Sonomate鼓励更高效的扫描并防止不必要的重复。此外,Sonomate协助工作流程管理。新获得资格的超声医师可能会因超声检查的非线性特性而忘记捕捉所需的图像,有时仅在撰写报告时才意识到遗漏,有时需要重复扫描甚至重新召回患者。有了Sonomate,用户可以在结束检查之前主动实时检查是否所有必需的图像都已捕捉,有助于减轻认知负荷并避免工作流程中断。对于经验丰富的超声医师,Sonomate的好处可能更为有限,因为他们已经拥有广泛的图像采集和协议遵守方面的专业知识。重要的是,Sonomate并非旨在取代专家判断或做出临床诊断。相反,其主要效用在于教育和早期职业支持,它可以增强信心、支持决策制定、提高工作流程效率并减少对监督的需求。
尽管有这些优势,实际部署仍面临一些挑战。确定了五种类型的失败场景:
在VQA中整合外部知识的好处也带来了挑战,即当外部知识不完整或部分不正确时。调查了Sonomate如何处理噪声知识输入,发现如果模型仅在干净的知识输入上训练,则在测试时对噪声敏感。这是因为模型将噪声知识视为可靠的,并将其整合到预测中,导致性能下降。幸运的是,当在训练和测试中都暴露于噪声知识时,系统变得更加稳健,学会平衡视觉线索与文本输入,并降低冲突信息的权重。这种行为类似于正则化效应,模型隐式地学会不信任不可靠的外部知识,并在出现不一致时更多地依赖于基于图像的特征。这些发现表明,对于实际部署,训练策略应包括多样化和不完美的知识,以提高模型处理现实世界可变性的能力。
视频-文本对收集:所有超声扫描均使用配备标准曲线和3D/4D探头的超声机器进行,由7名超声医师执行。全长超声扫描以全高清分辨率记录。同时,使用麦克风捕捉超声医师的语音记录。
数据收集时间从2019年1月21日持续到2023年2月9日。系统部署在一家三级医院诊所,以捕捉妇女在早孕期、中孕期和晚孕期就诊期间的常规产科超声扫描数据,共产生525个独特的视频-音频对。根据时间线,525个独特的视频-音频对被划分为456个用于训练、14个用于验证和55个用于测试。
数据预处理:为了减少计算需求,通过每6帧选择1帧对视频帧进行下采样,保留每秒5帧的频率。使用WhisperX将录制的音频转换为文本,产生带有相应开始和结束时间戳的句子。此转录步骤优于使用原始音频,因为它选择性地捕捉与超声检查相关的语义内容,特别是超声医师的语音,同时忽略音频噪声。包含少于三个单词的句子被省略,留下63,847个句子。正如预期的那样,生成文本中的单词分布与一般领域存在显著差异。
解剖检测的验证数据集:为了评估Sonomate在解剖检测方面的性能,收集了三个数据集。这些用于解剖检测的验证数据集与之前提到的525个独特视频-音频对集合是分开且不同的。
图像级问答数据集:超声检查涵盖广泛的主题,导致在超声检查期间可能出现不同类型的问题,例如评估生物测量平面、识别图像中的特定解剖特征等。因此,策划了一个包含五种问题类型的数据集:生物测量检测、孕期预测、早孕期解剖检测、中孕期解剖检测和开放集解剖检测。问题的多样性使得QA任务具有挑战性,因为它包含超声检查知识的许多方面。这些问题包括各种格式,包括真假问题和以疑问词开头的开放式查询。对于每种问题类型,最初通过人工努力创建了5个问题模板,随后使用ChatGPT 3.5将其多样化为200个不同的问题模板。相应的答案源自实验室中手动标注的标签。数据集的详细示例见扩展数据表。
视频级问答数据集:为了处理超声检查过程中多样的交互情况,设计了五种视频级问题,包括解剖检查序列预测、生物测量序列预测、缺失检查解剖检测、找出在特定解剖之前或之后检查的解剖结构,以及超声医师技能评估。任务旨在协助快速总结检查的解剖结构。任务指导超声医师识别任何缺失的检查解剖结构,并为后续超声检查提供提醒。任务提供实时技能评估,帮助用户提高扫描熟练度。对于问题类型,答案真实值源自音频转录文本。超声医师技能评估的真实值通过阈值化内部模型提供的分数得出。较大的分数表示“良好”的头部视图,表明更好的超声扫描技能。每个VQA样本随机选择视频长度。数据集示例见扩展数据表。
为了获得一个能够从超声医师视角理解超声视频的视觉基础语言模型,一种直接而有效的方法是遵循CLIP模型的流程,该模型对齐视觉和语言的特征空间。因此,首先开发了一种粗粒度视频-文本对齐方法。网络架构由视觉编码器和文本编码器组成,两者均使用BiomedCLIP初始化。为了增强从超声数据中提取有区分度的视觉特征,在固定视觉编码器之后引入了一个带有可学习线性投影层的残差块。为简便起见,组合的残差块和视觉编码器统称为f。
给定一个超声视频片段,是包含M帧的视频,文本是从相应音频转录的N个句子的集合。通过获取图像特征,得到维数为C的特征向量。类似地,使用BERT文本编码器获取文本特征,该编码器考虑512个令牌的上下文以捕捉超声医师语音的内容,得到维数为C的特征向量。考虑到超声视频中某些帧可能与相应的文本特征视觉无关,将文本特征与全局平均的视频表示对齐是一个简单的解决方案。因此,利用的相似度分数作为权重系数,计算加权图像特征的总和,作为与文本查询最对齐的视频表示。对于一个包含B个示例的小批量,粗粒度视频-文本对齐的对比损失可以通过计算。
最小化确保了从视频和相应文本中提取的特征在特征空间中更接近。同时,它推开了不对应的特征。对比学习策略确保了文本和超声视频特征空间之间的粗粒度对齐。
考虑到单个超声视频可能包含各种检查,需要在帧和句子之间建立更细粒度的对齐。因此,提出了细粒度图像-句子对齐,该对齐将句子特征与发生在相应开始和结束时间戳之间的帧特征“拉近”,实现在细粒度级别上视觉和文本嵌入的同步。
形式上,对于超声视频片段,模型将视频片段内的帧和句子作为输入,并输出一个文本-视觉相似性矩阵。该矩阵表示每个句子与视频中所有帧之间的相似性。优化目标因此是优化细粒度的文本嵌入以与视觉嵌入对齐,并且鼓励句子与其相应视觉帧之间的相似性分数最大化。对应关系,即文本-视觉相似性矩阵的真实值,源自生成的时间戳。以句子为例,WhisperX生成其开始和结束时间戳,即和。如果每秒的帧频率为k,元素的值为1,而和的元素值为0。因此,细粒度图像-句子对齐的目标函数被公式化为方程。
正如“数据集和挑战”部分所分析的,异构语言以及视频和音频内容之间的时间异步性是跨模态对齐中的两个主要问题。具体来说,异构语言问题在于文本输入,它可能包含一些与超声检查无关的内容,并表现出超声医师之间不同的语言习惯。异步内容反映在文本-视觉相似性矩阵真实值中的噪声。这是因为超声医师可能在执行动作之前解释他们的动作,导致视频和音频内容之间的时间错位。
为了应对异构语言的挑战,提出了解剖结构感知对齐方法。方法首先建立一个超声词汇集,包含与超声视觉方面密切相关的单词。随后,利用词汇集从每个句子中提取关键词,从而将每个句子转换为一个简化的模板,并用提取的单词进行丰富。这些简化的句子也被鼓励与相应的视觉特征对齐,通过约束文本-视觉相似性矩阵与真实对齐标签来实现。这种策略避免了超声视频与无关语言内容对齐的情况。此外,它可以避免语言语法和异构语言风格带来的不必要的复杂性。
至于异步内容问题,旨在减轻文本-视觉相似性矩阵的标签噪声,并据此设计了alignment label correction方法。这种方法通过上下文标签校正和自适应标签校正两种方式有效缓解标签噪声。具体来说,上下文标签校正将后续几帧视为当前句子的正集,并且对齐标签y被修改为yclc,其中元素的值为1,而元素以及的值为0。随着超参数l的增加,更多的上下文帧嵌入与当前句子嵌入对齐,从而增加了口头词语与视频中正在发生的事情相关的机会。根据经验将l设置为2。
然而,基于深度学习模型最初学习正确的语义信息,但由于其强大的记忆能力随后可能记住标签噪声这一观察,提出了自适应标签校正方法。这种自适应标签校正方法强调了给定对齐的重要性。随着学习过程的进行,它逐渐将其依赖转向预测的文本-视觉相似性矩阵。形式上,以相似性矩阵p为例,自适应校正的标签yalc可以在给定对齐标签yclc和模型阈值化输出之间切换,INCOMPLETE
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。