CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Object Recognition as Next Token Prediction
标题:对象识别作为下一个标记预测
作者:Kaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein, Ser-Nam Lim
文章链接:https://arxiv.org/abs/2312.02142
项目代码:https://github.com/kaiyuyue/nxtp
摘要:
我们提出了一种将对象识别作为下一个标记预测的方法。这个想法是应用一个语言解码器,从图像嵌入中自动回归预测文本标记以形成标签。为了使这种预测过程基于自回归,我们为解码器定制了一个非因果注意掩模,其中包含两个关键特征:将来自不同标签的标记建模为独立的,并将图像标记视为前缀。这种屏蔽机制激发了一种有效的方法——一次性采样——同时并行采样多个标签的标记,并在推理过程中根据生成的标签的概率对生成的标签进行排名。为了进一步提高效率,我们提出了一种简单的策略,通过简单地丢弃预训练语言模型的中间块来构建紧凑的解码器。这种方法产生的解码器与完整模型的性能相匹配,同时效率显着提高。
2.EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything
标题:EfficientSAM:利用蒙版图像预训练来有效分割任何内容
作者:Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra
文章链接:https://arxiv.org/abs/2312.00863
摘要:
分段任意模型 (SAM) 已成为众多视觉应用的强大工具。驱动零样本传输和高多功能性的令人印象深刻的性能的一个关键组件是在广泛的高质量 SA-1B 数据集上训练的超大型 Transformer 模型。SAM 模型虽然有益,但巨大的计算成本限制了其在更广泛的现实世界中的应用。为了解决这一限制,我们提出了 EfficientSAM,这是一种轻量级 SAM 模型,它表现出良好的性能,同时大大降低了复杂性。我们的想法基于利用蒙版图像预训练 SAMI,它学习从 SAM 图像编码器重建特征,以实现有效的视觉表示学习。此外,我们采用 SAMI 预训练的轻量级图像编码器和掩模解码器来构建 EfficientSAM,并微调 SA-1B 上的模型以分割任何任务。我们对图像分类、对象检测、实例分割和语义对象检测等多个视觉任务进行评估,发现我们提出的预训练方法 SAMI 始终优于其他掩模图像预训练方法。在分割任何任务(例如零样本实例分割)时,我们的 EfficientSAM 与 SAMI 预训练的轻量级图像编码器相比其他快速 SAM 模型表现良好,具有显着的增益(例如,COCO/LVIS 上的 ~4 AP)。
3.Identifying Spurious Correlations using Counterfactual Alignment
标题:使用反事实对齐识别虚假相关性
作者:Joseph Paul Cohen, Louis Blankemeier, Akshay Chaudhari
文章链接:https://arxiv.org/abs/2312.02186
摘要:
由虚假相关性驱动的模型通常会产生较差的泛化性能。我们提出了反事实对齐方法来检测和探索黑盒分类器的虚假相关性。可以将针对一个分类器生成的反事实图像输入到其他分类器中,以查看它们是否也引起这些分类器的输出的变化。这些响应之间的关系可以量化并用于识别存在虚假相关性的特定实例,并计算数据集的聚合统计数据。我们的工作展示了检测面部属性分类器中的虚假相关性的能力。这是通过观察面部属性分类器中的直观趋势以及制造虚假相关性并在视觉和定量上检测它们的存在来验证的。此外,利用 CF 对齐方法,我们证明我们可以纠正分类器中识别的虚假相关性。