1.PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization(ICCV 2023)

标题:PromptStyler:用于无源域泛化的提示驱动样式生成
作者:Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak
文章链接:https://arxiv.org/abs/2307.15199
项目代码:https://promptstyler.github.io/








摘要:
在联合视觉语言空间中,文本特征(例如,来自“狗的照片”)可以有效地表示其相关图像特征(例如,来自狗的照片)。受此启发,我们提出了 PromptStyler,它通过提示合成不同的样式来模拟关节空间中的各种分布变化,而不使用任何图像来处理无源域泛化。我们的方法学习通过伪词 S* 的可学习风格词向量生成各种风格特征(来自“a S* 风格”)。为了确保学习的样式不会扭曲内容信息,我们强制样式内容特征(来自“[class]”的 S* 样式)位于关节中其相应内容特征(来自“[class]”)附近视觉语言空间。学习风格词向量后,我们使用合成的风格内容特征训练线性分类器。PromptStyler 在 PACS、VLCS、OfficeHome 和 DomainNet 上实现了最先进的技术,尽管它不需要任何图像,并且使用单个 GPU 进行训练只需约 30 分钟。
2.Med-Flamingo: a Multimodal Medical Few-shot Learner

标题:Med-Flamingo:多模式医疗小样本学习器
作者:Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
文章链接:https://arxiv.org/abs/2307.15189






摘要:
就其本质而言,医学是一个多方面的领域,需要跨各种模式的信息综合。医学生成视觉语言模型(VLM)朝这个方向迈出了第一步,并有望带来许多令人兴奋的临床应用。然而,现有模型通常必须在相当大的下游数据集上进行微调,这造成了很大的限制,因为在许多医疗应用中数据稀缺,需要能够从少数示例中实时学习的模型。在这里,我们提出了 Med-Flamingo,一种适用于医学领域的多模式少样本学习器。基于 OpenFlamingo-9B,我们继续对来自出版物和教科书的配对和交错医学图像文本数据进行预训练。Med-Flamingo 解锁了小样本生成医学视觉问答 (VQA) 能力,我们在多个数据集上对其进行了评估,包括一个新颖的具有挑战性的视觉 USMLE 风格问题的开放式 VQA 数据集。此外,我们对生成医学 VQA 进行了首次人类评估,医生在交互式应用程序中审查问题并进行盲法生成。Med-Flamingo 在临床医生的评分中将生成医学 VQA 的性能提高了高达 20%,并且首先实现了多模式医学小样本适应,例如基本原理生成。我们在此 https URL 下发布我们的模型、代码和评估应用程序。
3.Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields(ICCV 2023)


标题:Seal-3D:神经辐射场的交互式像素级编辑
作者:Xiangyu Wang, Jingsen Zhu, Qi Ye, Yuchi Huo, Yunlong Ran, Zhihua Zhong, Jiming Chen
文章链接:https://arxiv.org/abs/2307.15131
项目代码:https://windingwind.github.io/seal-3d/




摘要:
随着隐式神经表示或神经辐射场 (NeRF) 的流行,迫切需要与隐式 3D 模型交互的编辑方法,以完成后处理重建场景和 3D 内容创建等任务。虽然之前的作品从不同角度探索了 NeRF 编辑,但它们在编辑灵活性、质量和速度方面受到限制,无法提供直接的编辑响应和即时预览。关键的挑战是构思一种本地可编辑的神经表示,它可以直接反映编辑指令并立即更新。为了弥补这一差距,我们提出了一种新的隐式表示交互式编辑方法和系统,称为 Seal-3D,它允许用户以像素级和自由的方式编辑 NeRF 模型,并具有广泛的类 NeRF 主干网,并预览立即编辑效果。为了实现这些效果,我们提出的代理函数将编辑指令映射到 NeRF 模型的原始空间,以及具有局部预训练和全局微调的师生训练策略来解决这些挑战。NeRF 编辑系统旨在展示各种编辑类型。我们的系统可以以约1秒的交互速度实现引人注目的编辑效果。
AI辅助代码神器Copilot大升级,80%代码秒生成!动嘴编码5年内成真


Attention机制竟有bug?Softmax是罪魁祸首,影响所有Transformer

