首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ICCV 2023:CLIP 驱动的器官分割和肿瘤检测通用模型

这次要介绍的文章属于 CLIP 在医学图像上的一个应用,思路上不算是创新。CLIP(Contrastive Language-Image Pre-training)是一种多模态模型,这意味着它可以同时处理文本和图像数据。它的目标是将文本描述和图像内容关联起来,使得模型能够理解文本描述与图像之间的语义关系。它通过学习大量的文本和图像来获得对于语义理解的通用知识,这种通用知识可以在各种具体任务中进行微调,使得模型可以适应不同领域的任务。CLIP 使用对比学习的方法来训练模型。它要求模型将相关的文本描述和图像匹配在一起,而将不相关的文本描述和图像分开。这样,模型可以学习如何捕捉文本和图像之间的语义相似性。

08
您找到你想要的搜索结果了吗?
是的
没有找到

SFFAI分享 | 张志鹏:SiamDW Real-Time Visual Tracking【附PPT与视频资料】

目标跟踪是计算机视觉的基本任务之一,近年来随着大量跟踪数据库如OTB,VOT,LASOT,GOT10K的提出,以及VOT比赛的推广,单目标跟踪领域迅速发展。而这其中siamese跟踪算法由于其在速度和精度之间很好的平衡而逐渐成为单目标跟踪研究中最火的方向。然而在今年之前,siamese跟踪算法仍然是只是基于浅层的AlexNet,深层网络不但没有帮助反而会使效果下降。在CVPR19中,我们通过对网络结构属性的分析,提出网络padding, 感受野, 特征输出大小,stride是影响加深网络的关键。进而我们提出了适用于跟踪siamese网络的crop-in-residual模块,通过堆积模块加深网络,使深层siamese网络在跟踪上效果有了显著提高。本次分享会上我们:

02

用照片也能追踪手机?人脸识别迎来“终结者”

就像世界上没有两片相同的雪花,你用手机拍摄的每张照片也是独一无二的。布法罗大学的研究人员掌握了一种方法,可以通过分析照片来追踪拍摄的手机,这项研究为身份验证提供了另一种可能性——用手机拍摄的照片来识别身份。 照片噪点也能当手机的「身份证」 由于元件尺寸和衬底材料的不可控,即使是同一型号的相机也会在传感器上有细微的差别。当均匀的光线投射到传感器上时,每个像素输出的值并不完全相同,这会导致图像的某些像素或明或暗,产生噪点,这种成像缺陷被称为PRNU(光照响应不一致性)。 由于PRNU 是由传感器本身的物理特

05

预测细胞形态对干扰的响应

今天为大家介绍的是来自Fabian J. Theis和Mohammad Lotfollahi的一篇关于细胞形态学的论文。高通量筛选技术的进步使得我们能够探索富含表型信息的方法,例如高内容显微镜技术,从而加速药物靶点鉴定和作用机制研究。然而,将这些实验扩展到庞大的药物或基因干扰空间面临挑战,因为只有少数化合物在筛选中显示活性。尽管机器学习方法在各种应用中被广泛使用,但在预测涉及未知现象的场景时,特别是将未见过的控制细胞图像转换为所需的干扰现象,机器学习方法并未表现出可靠的能力。作者提出了一种生成模型,即图像干扰自编码器(IMPA),它利用未经处理的细胞图像作为输入,预测化学和基因干扰的细胞形态学效应。

03

AnyMAL:一种高效、可拓展的任意模态增强语言模型

大语言模型(LLMs)因其庞大的规模和复杂性而著名,显著增强了机器理解和表达人类语言的能力。LLMs的进步也推动了视觉-语言领域的显著进展,缩小了图像编码器与LLMs之间的差距,结合了它们的推理能力。之前的多模态LLM研究主要集中在结合文本和另一种模态的模型上,如文本和图像模型,或专注于未开源的专有语言模型。为了解决这些挑战,本文介绍了一种新的多模态增强语言模型(AnyMAL),它是一系列多模态编码器的集合,这些编码器被训练用于将来自不同模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换为LLM的文本嵌入空间。通过扩展先前的工作,AnyMAL采用更强大的指令调优LLMs、更大的预训练模态编码器和先进的投影层来处理变长输入。

01

SEED:在大语言模型中播下一颗视觉的"种子"

近年来,在海量文本语料库上进行预训练的大语言模型已趋于成熟,表现出在理解、推理和生成各种开放式文本任务上的卓越能力。最近的研究聚焦于进一步利用大语言模型的强大通用性来提升视觉理解和视觉生成任务的效果,统称为多模态大语言模型。先前的工作通过将预先训练的图像编码器(例如CLIP-ViT)的视觉特征与大语言模型的输入嵌入空间对齐来执行开放式视觉QA。GILL通过将其输出嵌入空间与预训练的稳定扩散模型对齐,从而赋予大语言模型图像生成能力。虽然这些研究促进了技术进步,但在新兴能力方面,多模态大语言模型尚未取得像大预言模型那样的显著成功。

07

每日论文速递 | Embedding间的余弦相似度真的能反映相似性吗?

摘要:余弦相似度是两个向量之间角度的余弦值,或者说是两个向量归一化之间的点积。一种流行的应用是通过将余弦相似度应用于学习到的低维特征嵌入来量化高维对象之间的语义相似性。在实践中,这可能比嵌入向量之间的非归一化点积效果更好,但有时也会更糟。为了深入了解这一经验观察结果,我们研究了由正则化线性模型推导出的嵌入,其中的闭式解法有助于分析。我们通过分析推导出余弦相似性如何产生任意的、因此毫无意义的 "相似性"。对于某些线性模型,相似性甚至不是唯一的,而对于其他模型,相似性则受正则化的隐性控制。我们讨论了线性模型之外的影响:在学习深度模型时,我们采用了不同的正则化组合;在计算所得到的嵌入的余弦相似度时,这些正则化组合会产生隐含的、意想不到的影响,使结果变得不透明,甚至可能是任意的。基于这些见解,我们提醒大家不要盲目使用余弦相似度,并概述了替代方法。

01
领券