贝叶斯跨模态对齐学习在少样本分布外泛化中的应用

CreateAMind

发布于 2026-03-11 17:40:21

800

文章被收录于专栏：CreateAMindCreateAMind

贝叶斯跨模态对齐学习在少样本分布外泛化中的应用

Bayesian Cross-Modal Alignment Learning for Few-Shot Out-of-Distribution Generalization

https://www.arxiv.org/pdf/2504.09448

论文概述

本文提出了一种新型的贝叶斯跨模态对齐学习方法（Bayes-CAL），旨在解决少样本（few-shot）学习中的分布外（Out-of-Distribution, OoD）泛化难题。传统大预训练模型在少样本场景下容易过拟合基类数据，导致在相关性偏移（correlation shift）和多样性偏移（diversity shift）等二维分布变化上的泛化能力不足。Bayes-CAL 通过贝叶斯框架避免过拟合，利用自然语言监督进行图像-文本对齐学习：引入专用损失函数分离图像特征的因果与非因果部分，实现域不变的表示学习；结合不变风险最小化（IRM）和梯度正交化损失，进一步提升鲁棒性。实验在多个基准数据集上验证，Bayes-CAL 在二维分布偏移下实现了最先进的 OoD 泛化性能，并在未见类上表现出更稳定的泛化效果。

推荐理由

创新性强：将贝叶斯方法与跨模态对齐结合，首次针对少样本 OoD 泛化引入因果分离机制，桥接了视觉-语言模型的表示学习与鲁棒优化，适用于 CLIP-like 模型的微调场景。
实用价值高：在真实世界应用中（如多模态数据处理），少样本 OoD 问题是常见瓶颈，本文方法通过简单正则化实现高效泛化，代码开源（GitHub: LinLLLL/BayesCAL），易于复现和扩展。
实验严谨：在二维分布偏移基准上超越 SOTA，强调稳定性，提供对预训练模型局限性的深入洞见，适合研究多模态学习、元学习和域泛化领域的学者。

摘要

近期，大型预训练模型在少样本学习中展现出令人鼓舞的成果。然而，这些模型在二维分布外（OoD）数据上的泛化能力——即相关性偏移和多样性偏移——尚未得到充分研究。已有研究表明，即使拥有大量训练数据，也很少有方法能在OoD泛化方面超越标准的经验风险最小化方法（ERM）。这种少样本OoD泛化困境已成为深度神经网络泛化研究中的一个挑战性方向，其性能受限于少样本示例上的过拟合以及OoD泛化误差。本文通过利用更广泛的监督信息源，探索了一种新颖的贝叶斯跨模态图像-文本对齐学习方法（Bayes-CAL）以应对该问题。具体而言，本模型设计为仅对文本表征进行微调，采用贝叶斯建模方法，并结合梯度正交化损失和不变风险最小化（IRM）损失。引入贝叶斯方法的核心目的是避免对训练期间观察到的基础类别过拟合，从而提升对更广泛未见类别的泛化能力。所设计的专用损失函数旨在通过解耦图像特征中的因果与非因果部分，实现更优的图像-文本对齐。数值实验表明，Bayes-CAL在二维分布偏移场景下实现了最先进的OoD泛化性能。此外，与CLIP类模型相比，Bayes-CAL在未见类别上展现出更稳定的泛化表现。我们的代码已开源，地址为：

https://github.com/LinLLLL/BayesCAL。

1 引言

少样本学习是一个新兴的研究课题，旨在仅从少量训练样本中实现泛化（Wang 等，2020）。尽管近期的少样本学习方法在独立同分布（I.I.D）设定下取得了成功（Finn、Abbeel 和 Levine，2017；Rusu 等，2018；Sung 等，2018；Vuorio 等，2019；Fan 等，2021），但当源数据集与目标数据集之间存在领域差异时，这些方法的性能会显著下降（Chen 等，2019；Guo 等，2020）。这种领域偏移问题在现实场景中普遍存在，尤其在少样本设定下更为突出。例如，对于稀有物种而言，很难构建大规模的训练数据集，由于少样本设定具有高度随机性，训练环境与测试环境之间可能存在巨大差异。

为解决这一领域偏移问题——即训练数据与测试数据来自不同的条件分布——已有大量方法被提出，旨在实现少样本学习场景下的领域泛化（Tseng 等，2020；Liu 等，2021；Liang 等，2021；Zhou 和 Tan，2021）。然而，大多数研究并未考虑训练域与测试域之间分布偏移的不同特性。本文关注一种更贴近实际的少样本分布外（OoD）泛化设定，聚焦于在两类主要分布偏移下进行泛化的少样本图像识别任务（如 OoD-Bench 所述（Ye 等，2021））。具体而言，模型通常可访问由多样性偏移或相关性偏移主导的多领域“K-shot N-way”OoD 训练样本。根据（Ye 等，2021），多样性偏移定义为潜在环境分布支持集之间的差异（例如图像风格的变化），而相关性偏移则定义为由虚假相关性引起的概率密度函数差异。在此条件下，模型需仅从已见领域中学习特征分布，并泛化至同一下游任务中的未见领域。

在近期的少样本学习方法中，基于大规模视觉-语言预训练模型的研究（Rahman、Khan 和 Barnes，2020；Zhou 等，2022b；Zhang 等，2021a；Zhu 等，2021）在各类下游任务中取得了显著性能。传统的视觉深度学习模型仅关注封闭集合的视觉概念，由于其监督信息来源有限，容易在预定义类别列表上发生过拟合（Zhou 等，2022a）。相比之下，视觉-语言模型利用了来自自然语言的更广泛监督信息源，已被证明在学习可迁移表征方面非常有效（Jia 等，2021；Radford 等，2021）。

视觉-语言预训练模型中广泛采用的一种方法是跨模态表征学习（Fang 等，2022；Li 等，2020；Wehrmann、Kolling 和 Barros，2020；Zheng 等，2020）。受跨模态对齐和贝叶斯方法（Lin 等，2022）在缓解过拟合方面优势的启发，我们并未专注于改进学习算法以学习具有OoD泛化能力的图像特征，而是提出了一种贝叶斯跨模态对齐学习方法（Bayes-CAL），以实现少样本OoD泛化。由于微调整个模型既不切实际，也可能破坏已良好学习的表征空间（Zhou 等，2022a），而调整文本表征更具灵活性，如图1(a)所示，我们将模型架构设计为：在每个特定下游任务中，仅微调文本特征提取器中的任务特定网络。

在本文中，我们通过三种方法具体实现 Bayes-CAL 的文本表征学习——提示学习（Ding 等，2021）、直接使用可学习向量，以及 Word2Vec（Mikolov 等，2013），以详细说明 Bayes-CAL 如何在少样本 OoD 泛化中发挥作用。我们的主要贡献如下：

我们提出了一种用于少样本 OoD 泛化的贝叶斯跨模态对齐学习方法。贝叶斯方法的优势体现在其在未见类别上具有稳定的泛化性能。我们还精心设计了实验，以深入理解图像-文本对齐学习的优越性。
在所提出的架构下（见图2），我们引入了梯度正交化损失，通过解耦图像特征以实现更优的对齐学习；同时，采用不变风险最小化（IRM）损失，进一步提升模型的 OoD 泛化能力。
Bayes-CAL 在同时包含多样性偏移和相关性偏移的 OoD-Bench 数据集上取得了最先进的性能，尤其相比 OoD-Bench 中的算法（Ye 等，2021）提升了 10%-20% 的性能。此外，在 I.I.D 和 OoD 未见类别上，其泛化性能比 CLIP 类强基线模型更稳定。

相关工作 基础模型

本文聚焦于大规模视觉-语言预训练的基础模型，这类模型近年来已兴起（Gu 等，2021；Dai 等，2021；Radford 等，2021），广泛应用于各类图像-文本检索任务。特别是在图像识别领域，提出了对比语言-图像预训练模型（CLIP，Radford 等，2021）。在 CLIP 中，图像和文本被编码到特征空间，模型通过优化使图像特征与文本特征之间的相似性最大化。此外，还有许多基于 CLIP 的高效模型，通过提示调优或图像特征适配器来增强泛化性能。提示调优是一种仅通过微调输入提示来实现更优视觉-语言对齐的方法，例如 CoOp（Zhou 等，2022b）、CoCoOp（Zhou 等，2022a）、DPLCLIP（Zhang 等，2021c）等。另一种路径是在视觉特征空间上通过图像特征适配器进行微调，如 CLIP-Adapter（Gao 等，2021）和 Tip-Adapter（Zhang 等，2021b）。本文主要关注在文本语义空间上进行微调的方法。例如，仅使用少样本样本进行学习时，CoOp 通过提示学习显著提升了泛化能力，超越了经过大量调优的人工提示。然而，CoOp 的一个关键问题是其学习到的上下文无法泛化至未见类别（Zhou 等，2022a）。受学习泛化提示的启发，CoCoOp 被提出，通过条件提示学习实现对未见类别的泛化。然而，CoCoOp 需要为每张图像单独进行实例特定提示的前向传播，显著降低了训练效率。另一种方法——领域提示学习（DPLCLIP），旨在通过以提示生成形式进行领域推断，引导 CLIP 进行领域迁移学习。它通过从图像特征中提取信息捕捉领域偏移，但这一方式在无法从少样本图像中高效提取信息的分布偏移场景下限制了其泛化能力。关于基础模型的更多信息，我们推荐读者参阅该综述（Du 等，2022）。

分布外泛化算法

近年来已提出大量用于分布外（OoD）泛化的算法。通常，这些方法可分为三类：1）基于不变学习的方法，例如不变风险最小化（IRM，Arjovsky 等，2019）、不变风险最小化博弈（IRM-Games，Ahuja 等，2020）等；2）领域泛化方法，例如拼图法（Jigsaw，Carlucci 等，2019）、表征自挑战法（RSC，Huang 等，2020）等。更多详细信息请参阅该综述（Wang 等，2022）；3）稳定学习方法，例如样本重加权法（Shen 等，2020）。

尽管这些方法在一定程度上提升了 OoD 泛化性能，但近期研究表明，它们很难系统性地超越标准的经验风险最小化（ERM）方法（Gulrajani 和 Lopez-Paz，2020；Ye 等，2021）。此外，由于少样本 OoD 样本具有高度随机性，从这类样本中学习更具挑战性，而针对两种主要分布偏移下的少样本 OoD 泛化问题，目前仍鲜有深入理解。

方法论

我们提出了一种新颖的贝叶斯跨模态对齐学习方法（Bayes-CAL），用于少样本 OoD 泛化。与 CoCoOp 和 DPLCLIP 通过从图像特征中提取条件信息来微调任务特定参数不同，我们在语义空间上进行微调，通过所提出的正则化项强制实现领域不变的对齐。此外，特别引入贝叶斯处理方式，以显著缓解过拟合问题。基于从图像特征中解耦出的领域不变信息，我们估计任务特定参数的分布。与 CoCoOp 每次运行都需要大量 GPU 显存不同，所提出的 Bayes-CAL 方法简单且高效，使得在少样本 OoD 设定下对少样本进行微调成为现实可行的方案。图2展示了 Bayes-CAL 的整体架构概览。

少样本跨模态对齐学习的预备知识

贝叶斯跨模态对齐学习

在以下内容中，为方便起见，我们省略了数学表达式中的任务索引 t。

实验结果

我们在以下三种设置中评估 Bayes-CAL： 1）首先，不失一般性，我们通过 CLIP 的提示学习方法实例化 Bayes-CAL 作为展示，并将其与 OoD-Bench（Ye 等，2021）中的 OoD 泛化算法以及若干强大的 CLIP 类模型进行比较。 2）然后，我们进行一系列消融研究，评估其从已见类别到新类别的泛化能力。 3）此外，为了验证其在少样本 OoD 泛化中的工作机制，我们将 Bayes-CAL 的文本分支与其他方法进行实例化对比。尽管两个文本分支均基于强大的基于 Transformer 的预训练模型，但我们直接用可学习向量（简称 LV）或来自 Word2Vec 的词嵌入（简称 W2V）替代它们。我们与传统的视觉深度网络在收敛速度和 OoD 泛化性能方面进行公平比较。

数据集 我们在涵盖多样性和相关性偏移的数据集上评估 Bayes-CAL：以相关性偏移为主的数据集（NICO（He, Shen, and Cui, 2021）和 ColoredCatsDogs），以及以多样性偏移为主的数据集（PACS（Li 等，2017）和 VLCS（Torralba 和 Efros, 2011））。ColoredCatsDogs（简称 CCD）具有与背景颜色（绿色或红色）之间的虚假相关性，其构建原理类似于 ColoredMNIST（Arjovsky 等，2019），但使用的是受高斯噪声干扰的猫和狗图像，以增加复杂性。

遵循 CLIP 的做法，我们在少量样本训练数据上训练模型，并在原始测试集上进行评估。由于任务难度较大且 OoD 数据具有高度随机性，对于每个类别，我们从每个域中随机采样一个 16-shot 训练集和一个 16-shot 验证集（NICO 使用 8-shot 训练集和 64-shot 验证集，因为验证集过小可能导致验证准确率高达 100%）。注意，16-shot 训练集是从每个域中等比例采样的。在所有实验中，除非另有说明，最大训练轮数设为 30，并使用三个不同的随机种子（1、2、3）进行三次独立实验，以排除随机性影响。

实验协议 基于 CoOp 的代码实现实验，我们首先将 Bayes-CAL 的超参数设置从 CoOp 中引入。在整个实验过程中，使用 ResNet-50 模型（He 等，2016）作为视觉主干网络。上下文 token 数量设为 16，类别 token 位置（CTP）是一个超参数，可设为“end”或“middle”，类别特定上下文（CSC）可设为“True”或“False”。我们方法引入了三个额外的超参数

，分别对应于三个正则化项的系数。为了公平比较，采用与 OoD-Bench 相同的模型评估协议——对每组权重初始化和训练-验证数据组合进行 20 次随机搜索。最后，我们在原始测试集上报告平均值和标准误差。

竞争方法 我们在 OoD-Bench 的四个数据集上，将 Bayes-CAL 与每个数据集的前三名算法进行比较。由于所提方法是基于 CLIP 大型预训练模型实例化的，我们主要评估基于文本表征微调的 CLIP 类对齐学习方法在 OoD 泛化上的表现，即 CLIP、CoOp、CoCoOp 和 DPLCLIP。这三种基于 CLIP 的方法在相同的实验设置下进行评估。请注意，OoD-Bench 在 CCD 和 VLCS 上的结果由我们自行复现。

二维分布偏移下的 OoD 泛化

相关性偏移数据集实验 NICO 和 CCD 是典型的具有相关性偏移的数据集。我们遵循 OoD-Bench 中针对 NICO 的 OoD 验证协议和针对 CCD 的测试域验证协议。如表1所示，Bayes-CAL 相较于 OoD-Bench 中的方法取得了显著更高的准确率，在 NICO 上提升超过 20%，在 CCD 上提升超过 15%，且具有统计显著性。这证明了 Bayes-CAL 结合大规模预训练视觉-语言模型的优越性。此外，Bayes-CAL 优于 CLIP 类模型，在具有强虚假相关性的 CCD 数据集上取得了更优结果。如图3(a)所示，随着训练轮次增加，Bayes-CAL 在 CCD 上的测试准确率保持稳定；而 CoOp 的结果则显示出明显的训练数据过拟合趋势，其测试准确率在训练过程中逐渐下降。

多样性偏移数据集实验 PACS 和 VLCS 是 OoD-Bench 所指出的、具有多样性偏移的两个常见领域泛化基准数据集。我们遵循 OoD-Bench 中相同的训练域验证实验协议。表2展示了四个不同领域测试结果的平均准确率。结果显示，我们的方法在 PACS 和 VLCS 上均优于 OoD-Bench 中的所有模型，尤其在 PACS 上提升约 10%；在 VLCS 上相比 CoOp 提升超过 5%。这进一步验证了 Bayes-CAL 在处理多样性偏移和相关性偏移方面的有效性。

消融研究

所提组件的有效性 在消融研究中，我们分别从框架中移除每一项正则化项，保持其他组件不变，以检验各组件对 OoD 泛化的作用。结果如表3所示。可见，Bayes-CAL 在四个数据集上的平均准确率最优，表明各项正则化项在学习不变对齐过程中具有协同增益作用。尤其在 CCD 和 VLCS 上，移除 LIRM 和 Lorth 后性能显著下降，说明通过解耦图像特征可实现更优对齐。需注意，Bayes-CAL 在 NICO 和 PACS 上的性能提升不如在 CCD 和 VLCS 上显著，我们已通过 Wilcoxon 检验验证了结果的统计显著性（见附录 F）。

基础类别到新类别的泛化性能 为评估贝叶斯方法的有效性，我们在 NICO 和 PACS 上的基础类别到新类别泛化设定中，比较了 Bayes-CAL、CAL（移除贝叶斯方法的版本）、CoOp、CoCoOp 和 DPLCLIP。本文中，我们将每个数据集随机划分为基础类别集和新类别集。参照 CoCoOp 设置，提示从基础类别（16-shot，CTP 设为“end”，CSC 设为“False”，4 个上下文 token）中学习，可学习上下文初始化为“a photo of a”。对 Bayes-CAL 和 CAL 的额外超参数，每组数据进行 3 次不同划分，每次划分进行 20 次随机搜索。在分布内（I.I.D）新类别和分布外（OoD）新类别上评估基础到新类别的泛化性能。我们还采用基于阈值的方法检测低置信度预测样本，阈值设定为使 95% 正确分类的验证样本被识别为高置信度样本。我们移除那些概率低于阈值且被错误分类的预测，然后重新计算测试准确率（记为 Acc*）。结果见表4。可见，Bayes-CAL 在新类别测试准确率上显著优于 CAL，尤其在 NICO 上。该结果有力证明了贝叶斯方法的泛化能力。此外，与专为提升未见类别泛化设计的 CoCoOp 相比，Bayes-CAL 在 I.I.D 和 OoD 基础到新类别泛化上表现更稳定。更多细节见附录 D。

对齐学习优越性的深入分析 我们在图2(c)中已说明对齐学习在少样本 OoD 数据上的工作机制。本节通过分析其收敛速度，进一步深入揭示对齐学习的优势。我们仍使用 CLIP 的图像编码器作为图像特征提取器，但将文本分支替换为两种方法：直接使用可学习向量（LV）和 Word2Vec 结合两层多层感知机（W2V）。我们将它们与基于提示学习实例化的 Bayes-CAL（记为 Bayes-CAL(PL)）以及传统视觉范式进行比较。基于相同的 CLIP 图像编码器预训练模型，传统视觉模型的任务特定层由三层多层感知机构成。由于 NICO 中的子类大多未在 CLIP 预训练数据中出现，我们将 Bayes-CAL 超参数设为 (0.1, 0, 0.1)，最大训练轮数设为 50，在 NICO 上进行 19-way 16-shot 训练（含 19 个子类和 4 个训练域环境）。我们在表5中报告了相应的训练性能（第50轮的最终训练损失）和测试准确率。结果表明：1）使用 LV 和 W2V 实例化的 Bayes-CAL 可实现更低的最终训练损失，表明即使没有预训练文本编码器，这两种实例仍能快速收敛完成对齐学习；2）通过 LV 和 W2V 重塑语义空间后，可达到更宽的极小值（更低的目标损失），也进一步证明了我们框架的通用性。

优化景观可视化 图3展示了 Bayes-CAL(LV) 与传统视觉模型的优化轨迹和损失景观。可观察到，即使没有预训练文本编码器，Bayes-CAL 实例在第50轮已接近局部最小值，而传统视觉模型仍远离目标局部最小值。值得注意的是，Bayes-CAL(LV) 待优化参数（0.04 百万）远少于传统模型（0.28 百万），因此其快速学习能力本质上源于对齐学习机制。

结论与讨论 本文提出了一种在贝叶斯框架下结合不变风险最小化与梯度正交化损失的 Bayes-CAL 方法，以应对少样本 OoD 泛化困境。数值实验结果不仅表明 Bayes-CAL 在二维分布偏移下实现了鲁棒的 OoD 泛化性能，而且在贝叶斯框架下对未见类别展现出更稳定的泛化能力。据我们所知，这是首个通过贝叶斯对齐学习研究少样本 OoD 泛化的工作，可为未来基础模型在少样本 OoD 泛化方向的研究提供立足点。

A. 模型选择方法与超参数搜索空间

在我们使用的三种模型选择方法中，训练域验证、测试域验证和分布外（OoD）验证简要描述如下：

训练域验证：该策略假设训练样本和测试样本遵循相似的分布。我们使用训练子集训练模型，并选择在验证子集联合上准确率最高的模型。
测试域验证：我们选择在遵循测试域分布的验证集上准确率最高的模型。对于每组超参数选择，我们允许一次查询（即最后一个检查点），不允许提前停止。
OoD 验证：该策略假设在 OoD 验证集上泛化良好的模型也能在测试集上良好泛化。我们选择在既不遵循训练域也不遵循测试域分布的验证集上准确率最高的模型。

除了论文中涉及的四个数据集外，我们还在 ColoredMNIST（Arjovsky 等，2019）和 OfficeHome（Venkateswara 等，2017）上进行了实验，以验证 Bayes-CAL 所得结果的统计显著性。对于 ColoredMNIST，我们采用测试域验证；对于 OfficeHome，则使用训练域验证。

超参数搜索空间如表6所示。在 16-shot 和 16 个上下文 token 的设置下，基于 CLIP 的竞争方法的搜索过程需对每组权重初始化和训练-验证数据组合进行至少 4 次实验，共 3 组。对于 CoOp 和 CoCoOp，类别 token 位置（CTP）设为“end”或“middle”，类别特定上下文（CSC）设为“True”或“False”。除非另有说明，DPLCLIP（Zhang 等，2021c）的超参数均采用其原始默认设置。此外，在所有从基础类到新类别的泛化实验中，CSC 设为“False”，CTP 设为“end”，与 CoCoOp（Zhou 等，2022a）一致。

B. Bayes-CAL 的框架及通过不同方法实例化的任务特定网络

Bayes-CAL 的通用框架如算法1所示。结合图4(a)–(c)，我们详细说明三种任务特定网络的实例：提示学习（Prompt Learning, PL）、可学习向量（Learnable Vectors, LV）和 word2vec（W2V），具体如下：

C. 视觉空间的可视化

D. 基础类别到新类别泛化的数据集与评估指标

我们提供关于基础类别到新类别泛化实验中数据划分和评估指标的详细信息。

NICO 和 PACS 的数据划分我们对每个数据集的类别进行随机划分，分为基础类别（base classes）和新类别（new classes）。具体的类别划分结果见表7。

基础类别到新类别泛化的评估指标

I.I.D_Acc：I.I.D_Acc 表示在来自与训练数据相同域的新类别上的文本准确率。
OoD_Acc：OoD_Acc 表示在来自文本域的新类别上的文本准确率。
I.I.D_Acc 和 OoD_Acc**：神经网络预测的置信度日益重要。基本神经网络通常输出归一化的预测向量，但缺乏不确定性估计，或存在过置信或欠置信问题。当处理 OoD 样本时，会引入域外不确定性，表示来自新域输入的相关不确定性。在实际应用中，检测某个样本是否以高置信度被识别至关重要，这有助于系统拒绝此类样本或提醒用户。量化模型预测的不确定性或检测低置信度预测是必要的，特别是在文本类别未在训练数据中出现的情况下。

本文中，我们使用输出概率（即归一化预测向量中的最大元素）作为预测置信度分数，并采用基于阈值的方法来检测低置信度预测样本。阈值的选择依据是：95% 正确分类的验证样本被识别为高置信度预测样本。也就是说，该阈值是这些正确分类验证样本输出概率的 0.95 分位数。基于该阈值，我们拒绝对输出概率低于阈值的样本进行分类，并重新计算测试准确率（Acc*），该值表示所有置信度得分高于阈值的预测中正确识别样本的比例。因此，我们分别得到 I.I.D_Acc* 和 OoD_Acc*。Acc* 越高，分类结果的安全性越高。

根据论文中的表4可知，Bayes-CAL 取得了最佳平均结果，证明了其在应对多样性偏移和相关性偏移下的少样本 OoD 泛化任务中对未见类别的有效性。特别是在 NICO 上，Bayes-CAL 相比 CAL 的显著提升，有力证明了通过变分近似学习提示能够嵌入更多信息，相比确定性估计能更好地避免在基础类别上过拟合，从而提升从基础类别到新类别的泛化能力。

E. 与基于图像特征适配器的其他 CLIP 模型的比较

除了微调语言特征外，另一种路径是在视觉分支中引入特征适配器。例如，CLIP-Adapter（Gao 等，2021）在 CLIP 的语言和视觉分支后附加少量额外的可学习瓶颈线性层，同时在少样本微调过程中保持原始 CLIP 主干网络冻结。

一种无需训练的适配方法 Tip-Adapter（Zhang 等，2021b）通过从少样本训练集中构建一个键值缓存模型来构造视觉特征适配器，并通过特征检索更新 CLIP 中编码的先验知识。此外，Tip-Adapter 的性能可通过仅对初始化良好的适配器进行少数几个 epoch 的微调进一步提升，具有超快的收敛速度。

我们在四个 OoD 数据集——NICO、CCD、PACS 和 VLCS 上评估了 Tip-Adapter 的少样本 OoD 泛化性能。在相同的实验协议下，我们将超参数 α和 β的搜索范围和步长分别设为 (20, 20) 和 (200, 20)，初始值分别设为 1 和 5。三次随机实验的平均文本准确率见表11。可以看出，我们的 Bayes-CAL 平均结果比 Tip-Adapter 高约 2%。

F. 成对比较的 Wilcoxon 检验结果

我们在 ColoredMNIST 和 OfficeHome 数据集上进行了实验，这两个数据集已在附录 A 中介绍。相应结果见表8和表9。Bayes-CAL 在 ColoredMNIST 上表现更优，进一步证明了其基于解耦图像特征实现更好对齐的能力。我们基于六个数据集的所有实验结果进行 Wilcoxon 检验，结果见表10。结果显示，所有等价假设均被拒绝，且 p 值极低，这验证了 Bayes-CAL 相比于 CLIP 基线模型及消融研究中其他方法的结果具有统计显著性。