首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ICCV 2023:CLIP 驱动的器官分割和肿瘤检测通用模型

这次要介绍的文章属于 CLIP 在医学图像上的一个应用,思路上不算是创新。CLIP(Contrastive Language-Image Pre-training)是一种多模态模型,这意味着它可以同时处理文本和图像数据。它的目标是将文本描述和图像内容关联起来,使得模型能够理解文本描述与图像之间的语义关系。它通过学习大量的文本和图像来获得对于语义理解的通用知识,这种通用知识可以在各种具体任务中进行微调,使得模型可以适应不同领域的任务。CLIP 使用对比学习的方法来训练模型。它要求模型将相关的文本描述和图像匹配在一起,而将不相关的文本描述和图像分开。这样,模型可以学习如何捕捉文本和图像之间的语义相似性。

08
您找到你想要的搜索结果了吗?
是的
没有找到

SEED:在大语言模型中播下一颗视觉的"种子"

近年来,在海量文本语料库上进行预训练的大语言模型已趋于成熟,表现出在理解、推理和生成各种开放式文本任务上的卓越能力。最近的研究聚焦于进一步利用大语言模型的强大通用性来提升视觉理解和视觉生成任务的效果,统称为多模态大语言模型。先前的工作通过将预先训练的图像编码器(例如CLIP-ViT)的视觉特征与大语言模型的输入嵌入空间对齐来执行开放式视觉QA。GILL通过将其输出嵌入空间与预训练的稳定扩散模型对齐,从而赋予大语言模型图像生成能力。虽然这些研究促进了技术进步,但在新兴能力方面,多模态大语言模型尚未取得像大预言模型那样的显著成功。

07

每日论文速递 | Embedding间的余弦相似度真的能反映相似性吗?

摘要:余弦相似度是两个向量之间角度的余弦值,或者说是两个向量归一化之间的点积。一种流行的应用是通过将余弦相似度应用于学习到的低维特征嵌入来量化高维对象之间的语义相似性。在实践中,这可能比嵌入向量之间的非归一化点积效果更好,但有时也会更糟。为了深入了解这一经验观察结果,我们研究了由正则化线性模型推导出的嵌入,其中的闭式解法有助于分析。我们通过分析推导出余弦相似性如何产生任意的、因此毫无意义的 "相似性"。对于某些线性模型,相似性甚至不是唯一的,而对于其他模型,相似性则受正则化的隐性控制。我们讨论了线性模型之外的影响:在学习深度模型时,我们采用了不同的正则化组合;在计算所得到的嵌入的余弦相似度时,这些正则化组合会产生隐含的、意想不到的影响,使结果变得不透明,甚至可能是任意的。基于这些见解,我们提醒大家不要盲目使用余弦相似度,并概述了替代方法。

01

【论文解读】针对生成任务的多模态图学习

多模态学习结合了多种数据模式,拓宽了模型可以利用的数据的类型和复杂性:例如,从纯文本到图像映射对。大多数多模态学习算法专注于建模来自两种模式的简单的一对一数据对,如图像-标题对,或音频文本对。然而,在大多数现实世界中,不同模式的实体以更复杂和多方面的方式相互作用,超越了一对一的映射。论文建议将这些复杂的关系表示为图,允许论文捕获任意数量模式的数据,并使用模式之间的复杂关系,这些关系可以在不同样本之间灵活变化。为了实现这一目标,论文提出了多模态图学习(MMGL),这是一个通用而又系统的、系统的框架,用于从多个具有关系结构的多模态邻域中捕获信息。特别是,论文关注用于生成任务的MMGL,建立在预先训练的语言模型(LMs)的基础上,旨在通过多模态邻域上下文来增强它们的文本生成。

02

SFFAI分享 | 张志鹏:SiamDW Real-Time Visual Tracking【附PPT与视频资料】

目标跟踪是计算机视觉的基本任务之一,近年来随着大量跟踪数据库如OTB,VOT,LASOT,GOT10K的提出,以及VOT比赛的推广,单目标跟踪领域迅速发展。而这其中siamese跟踪算法由于其在速度和精度之间很好的平衡而逐渐成为单目标跟踪研究中最火的方向。然而在今年之前,siamese跟踪算法仍然是只是基于浅层的AlexNet,深层网络不但没有帮助反而会使效果下降。在CVPR19中,我们通过对网络结构属性的分析,提出网络padding, 感受野, 特征输出大小,stride是影响加深网络的关键。进而我们提出了适用于跟踪siamese网络的crop-in-residual模块,通过堆积模块加深网络,使深层siamese网络在跟踪上效果有了显著提高。本次分享会上我们:

02
领券