TPAMI 2024 | MVEB：使用多视图熵瓶颈的自监督学习

小白学视觉

发布于 2024-09-25 14:56:45

780

发布于 2024-09-25 14:56:45

文章被收录于专栏：深度学习和计算机视觉

MVEB: Self-Supervised Learning With Multi-View Entropy Bottleneck

题目：MVEB：使用多视图熵瓶颈的自监督学习

作者：Liangjian Wen; Xiasi Wang; Jianzhuang Liu; Zenglin Xu

摘要

自监督学习旨在学习能够有效泛化到下游任务的表示。许多自监督方法将图像的两个视图视为输入和自监督信号，假设任一视图包含相同的任务相关信息，且共享信息（近似）足以预测下游任务。最近的研究表明，丢弃两个视图之间不共享的多余信息可以改善泛化。因此，理想的表示对下游任务是足够的，并且包含最小的多余信息，称为最小充分表示。可以通过最大化表示和监督视图之间的互信息的同时消除多余信息来学习这种表示。然而，互信息的计算是出了名的难以处理。在这项工作中，我们提出了一个目标，称为多视角熵瓶颈（MVEB），以有效地学习最小充分表示。MVEB简化了最小充分学习为最大化两个视图的嵌入之间的一致性以及嵌入分布的差分熵。我们的实验证实了MVEB显著提高了性能。例如，在ImageNet上，使用普通的ResNet-50主干进行线性评估，它达到了76.9%的top-1准确率。据我们所知，这是使用ResNet-50的新的最佳结果。

关键词

最小充分表示，表示学习，自监督学习

I. 引言

自监督学习（SSL）在泛化到广泛的下游任务方面取得了显著进展。许多最新的SSL方法最大化两个视图嵌入之间的一致性。这些工作基于暹罗网络，并采用不同的方法来处理表示学习中的坍塌问题。例如，对比学习[1]、[2]、[3]、[4]、[5]，使用负样本将不同图像的特征分开以避免坍塌。非对称网络方法[6]、[7]、[8]引入了一个预测网络和一个动量编码器（或一个停止梯度操作）来防止坍塌，而不需要负样本。此外，特征去相关方法[9]、[10]通过减少特征维度之间的冗余来避免坍塌。这些SSL工作的实证结果在多个视觉任务上显示出与监督学习方法相比具有竞争力的性能。

从多视角来看，自监督方法通常将两个图像视图视为彼此的输入和自监督信号。可以假设任一视图（近似）足以预测下游任务，并包含多视图学习[11]中的相同任务相关信息。这表明不同视图的图像不应影响下游任务的预测。类似于监督学习中标签的作用，两个视图作为相互的自监督信号，基于暹罗网络适应于提取任务相关信息。如果学习到的表示包含两个视图之间共享的任务相关信息，则其对下游任务是足够的。此外，多余信息被识别为不是由两个视图共享的信息。正如[12]和[13]所示，丢弃多余信息可以改善学习表示的泛化，以用于下游任务。因此，理想的表示对下游任务是足够的，并且包含最小的多余信息。根据信息瓶颈原理[14]，在无监督设置中定义了最小充分表示，如图1所示。可以通过最小化提取特征与其输入视图之间的互信息，同时最大化提取特征与监督视图之间的互信息来学习最小充分表示。这被称为多视图信息瓶颈[12]。然而，互信息的计算是出了名的难以处理。尽管变分方法[12]可以被引入来克服不可处理性，[15]表明与SimCLR[2]相比，这并不能显著提高下游任务的性能。在自监督表示学习中有效地学习最小充分表示仍然是一个挑战。

为了解决这个问题，我们提出了一个新的目标函数，多视图熵瓶颈（MVEB），以学习最小充分表示。我们的方法可以学习任务相关信息并消除多余信息，这与多视图信息瓶颈相关。MVEB简化了最小充分学习为最大化两个视图的图像嵌入之间的一致性以及嵌入分布的差分熵的过程。此外，它可以直接应用于暹罗网络，无需修改网络结构和其他复杂设计。

然而，由于嵌入分布未知，计算嵌入分布的差分熵是不可行的。我们提出了一个基于冯·米塞斯-费舍尔核的基于分数的熵估计器，以近似差分熵的梯度，以便我们可以直接使用模型参数的梯度近似进行反向传播，以最大化差分熵。它可以有效地增加嵌入的均匀性。此外，这种公式不需要大批量大小或记忆库。

我们通过实证演示了MVEB显著提高了学习表示对下游任务的泛化性。我们的主要贡献总结如下：

我们提出了MVEB来学习无监督多视图设置中的最小充分表示。它可以直接应用于暹罗网络，无需修改网络结构和其他复杂设计。
我们提出了一个基于冯·米塞斯-费舍尔核的基于分数的熵估计器，以近似嵌入分布的差分熵相对于模型参数的梯度。这个估计器可以用来最大化差分熵以增加均匀性。
我们首先分析了对比学习（例如，SimCLR和MOCO）、非对称网络方法（例如，BYOL和SimSiam）和特征去相关方法（例如，Barlow Twins和VICReg）从学习最小充分表示的角度。基于MVEB，我们认为这些方法也尝试通过优化对齐和均匀性来学习最小充分表示。
进行了全面的实验，展示了MVEB的优越性能。例如，它在ImageNet上使用普通的ResNet-50主干和单层分类器微调，达到了76.9%的top-1准确率。据我们所知，这是使用ResNet-50的新的最佳结果。

III. 预备知识：最小充分表示

表示学习的目标是将输入数据转换为低维表示，该表示包含了与预测任务相关的信息。这种信息在编码数据后被认为是不变的，这表明，其中表示互信息。因此，学习到的表示对预测任务是充分的[23]。

由于包含比更多的信息，的充分表示可能包含与预测任务无关的多余信息。多余信息可以表示为条件互信息。在所有充分表示中，最小充分表示包含最少的多余信息。

IV. 方法

我们概述了在多视图自监督设置中训练编码器和投影器以学习表示的一般设置，如图2所示。暹罗网络包括在线和目标分支。每个分支包括一个编码器和一个投影器。设和是输入样本的两个不同视图。我们可以通过确定性函数和参数从和获得归一化的表示和。设和分别是表示和的边缘分布，它们用于计算熵和。我们推导出一个新的目标来优化参数。

A. 多视图信息瓶颈

在无监督设置中，获得最小充分表示更具挑战性，因为没有下游任务就无法识别多余信息。为了克服这个问题，[12]将监督学习中的信息瓶颈理论扩展到多视图无监督设置中，称为多视图信息瓶颈（MVIB）。主要思想依赖于多视图假设，即任一视图（近似）足以预测下游任务并包含相同的任务相关信息。换句话说，一个样本的不同视图不应影响下游任务的预测。类似于监督学习中标签的作用，两个视图可以被视为彼此的相互自监督信号。因此，我们可以通过确保的表示对是充分的来获得下游任务的充分性。多余信息也可以被识别为条件互信息。减少可以实现多余信息的消除。

我们可以使用放松的拉格朗日乘数法来满足这些要求，学习最小充分表示：

尽管MVIB在学习最小充分表示方面具有吸引力，但互信息（MI）的计算是出了名的难以处理。为了克服MVIB中的不可处理性，[12]采用了与VAE相同的随机网络来获得高斯表示分布和，以近似优化，如图3所示。因此，我们得到了变分MVIB目标，如下所示：

其中表示Kullback-Leibler散度。具体来说，是的上界；是的下界，并且通过InfoNCE[24]、MINE[25]或MIGE[26]近似。

B. 多视图熵瓶颈

由于互信息的计算不可行，MVIB不能直接应用于暹罗网络。如第IV-A节所述，可以引入变分方法来优化MVIB。然而，这种近似优化需要额外的随机网络，并且在实践中对于视觉识别模型与SimCLR相比并不起作用，如[15]所示。对于暹罗网络，自监督表示学习中有效地学习最小充分表示仍然是一个挑战。

我们推导出了新的MVEB框架来解决学习最小充分表示的挑战。与MVIB相比，MVEB可以直接应用于暹罗网络，无需修改网络结构和其他复杂设计。

多余信息可以分解（见附录，在线可查）为：

其中条件熵不包含任何随机性（没有信息），因为在的条件下是确定性的。因此，最小化等同于最小化。我们也可以分解（见附录，在线可查）为：

基于上述推导和（1），我们得到了一般的MVEB目标：

其中。我们可以使用学习确定性编码器的最小充分表示。

条件熵是不可行的，因为分布是未知的。为了克服这个问题，我们引入了，这是的变分近似。由于，我们可以推导出的上界：

因此，定义了一个变分MVEB项（vMVEB）：

对于基于暹罗网络的自监督学习，例如SimCLR、BYOL和SimSiam，表示在超球空间中进行了归一化，以提高模型的性能。我们也在超球空间中对进行了归一化。冯·米塞斯-费舍尔（vMF）是超球空间的常见分布。因此，我们定义为vMF分布，即：

其中是均值方向，表示冯·米塞斯-费舍尔分布的集中参数，是的归一化函数。我们假设是一个常数，由参数化。如图2所示，我们使用目标分支对进行编码，并输出作为。因此，我们进一步得到

这使得我们重新制定（7）的目标如下：

其中是平衡因子。这个简化的目标最大化了和之间的一致性以及的差分熵，以学习确定性编码器的最小充分表示。

样本视图也可以被视为的自监督信号。类似地，我们推导出另一个优化目标。最终简化的训练目标如下：

。

然而，不幸的是，由于和的分布未知，计算和是不可行的。我们提出了一个基于冯·米塞斯-费舍尔核的基于分数的熵估计器来最大化和，这在第四节中描述。训练伪代码在算法1中给出。

C. 变分近似的分析

在我们的工作中，变分近似用于获得条件熵的上界以进行最小化，而不是估计真实的。然而，我们需要保证这个上界不是宽松的，以实现的最小化。

如果近似非常宽松，我们无法优化；换句话说，在优化过程中不能被减少。将分解如下：

由于（12）中的第一项是固定的，最小化等同于最小化，这使得界限紧密。

D. 基于冯·米塞斯-费舍尔核的分数熵估计

为了学习具有MVEB的最小充分表示，我们需要最大化。我们首先分析相对于的梯度，可以分解为：

其中没有下标的意味着梯度计算与无关。右侧的第二项可以进一步分解为：

因此我们有

然而，由于的非平凡性，因为关于的期望不是关于可微的。

为了克服这个问题，我们采用了[27]中提出的通用重参数化技巧，用于计算。具体来说，来自表示分布的样本可以通过编码数据样本获得，，其中是确定性函数（编码器和投影器）。因此，表示可以通过以下可微分变换重新参数化：

由于与模型参数无关，关于的期望可以通过上述重参数化重新书写，这使得期望关于可微。因此，熵梯度估计器得出如下：

其中是分数函数，可以通过使用黑盒函数的分数估计直接近似[28]。可以通过直接反向传播获得。只要我们能提供一个足够好的分数函数近似，这个熵梯度的估计就是近似无偏的。

附录中描述的Stein梯度估计器是分数函数的有效估计[28]。我们采用它来近似分数函数。由于表示是归一化的，我们提议使用以下冯·米塞斯-费舍尔核来计算：

其中是冯·米塞斯-费舍尔核的带宽。我们将其设置为批次中所有样本之间成对余弦距离的中位数。

V. 对齐和均匀性的再思考

对比学习（例如，SimCLR和MOCO）旨在将相似（正）样本更接近，不相似（负）样本更远。[20]将对比损失分解为对齐和均匀性。如[29]所示，非对称网络方法（例如，BYOL和SimSiam）和特征去相关方法（例如，Barlow Twins和VICReg）被视为基于梯度分析优化对齐和均匀性。非对称网络方法依赖于预测器来优化均匀性，特征去相关方法依赖于特征去相关来优化均匀性。

我们考虑图2中的多视图自监督设置，其中和分别是视图和的表示。如果我们将视为监督信息，最小化多余信息等同于最小化对于确定性编码器，如第IV-B节所示。此外，最大化对齐等同于最小化（见（9））。因此，最大化对齐可以消除多余信息。

我们发现，最大化互信息不仅保留了与相关的信息，还减少了多余信息。这是因为，并且对于确定性编码器最小化多余信息等同于最小化。由于均匀性偏好保留其最大熵的特征分布，我们可以将视为均匀性。因此，是对齐和均匀性的结合。从另一个角度看，最大化对齐和均匀性可以保持中与相关的信息。然而，由于多余信息不是最小的，最大化无法实现学习最小充分表示的目标。

在这项工作中，我们提出了一个新的目标函数：

来学习最小充分表示。旨在保留与相关的信息，并且旨在减少多余信息。由于最大化对齐等同于最小化，平衡最大化对齐和均匀性可以学习最小充分表示。具体来说，系数在（11）中用于平衡对齐和的优化。在（10）中，，其中是一个常数。如（1）所示，是用于平衡优化和的系数。增加以使小于阈值不会有效地消除多余信息，这会损害下游任务的性能。将减少到接近零意味着接近无穷大，暹罗网络会遭受模型坍塌，得到没有最大化均匀性的平凡恒定表示。从另一个角度看，当接近无穷大时，（1）中的优化目标只考虑最小化多余信息。因此，如果输出的恒定表示，则意味着表示不包含与和相关的信息。

关系与对比学习：对比损失，也称为InfoNCE，是的下界[13]。更多的负样本使这个下界更紧密。最大化对比损失旨在最大化。具体来说，当负样本数量时，归一化对比损失达到以下收敛：

其中表示的负样本，表示正样本对的分布。右边的第一项旨在最大化对齐。第二项推动不相似（负）样本分开。对比学习的性能对超参数的选择很敏感，因为用于平衡对齐和均匀性的优化，以学习最小充分表示。然而，也用于最大化均匀性，这限制了基于[29]中的梯度分析的对齐和均匀性之间的平衡。

对比学习依赖于大量的负样本来优化均匀性并保持的下界紧密。由于均匀性优化基于实例的分离，很难有效最大化全局均匀性。与对比学习不同，我们的MVEB直接最大化全局特征分布的差分熵，这在原则上更有效地实现均匀性最大化。

关系与非对称网络方法和特征去相关方法：如[29]中从梯度分析所示，非对称网络方法和特征去相关方法可以统一为相同的形式：

其中是特征的相关矩阵；是平衡因子。对于非对称网络方法，根据另一分支更新；对于特征去相关方法，根据每批特征计算。右边的第二项是以下条目的导数：

根据这个推导，（20）右边的第二项旨在最小化负样本之间的相似性以最大化均匀性。因此，非对称网络方法和特征去相关方法也实现了平衡对齐和均匀性的优化，以学习最小充分表示。

VI. 主要结果

我们首先在ImageNet数据集上通过自监督基准测试评估MVEB的表示，并在其他数据集和任务上进行评估，包括图像分类、目标检测和分割。

A. 预训练细节

我们在ImageNet上使用ResNet 50作为主干预训练我们的模型MVEB。投影器网络由三个线性层组成，每个输出维度设置为2048。我们在第一二层之后应用BN和ReLU。根据我们的实证研究，动量编码器被选为目标分支（见图2）。按照BYOL[6]的设置，我们使用余弦调度器将目标分支的参数从0.996增加到1。

我们遵循BYOL中使用的图像增强策略，包括随机裁剪、颜色抖动、转换为灰度、水平翻转、高斯模糊和太阳化。我们还采用多裁剪获得六个局部视图[8]的96×96。所有增强参数与DINO[8]中的设置相同。局部视图只通过在线分支传递。此外，每个局部视图的正样本仅来自同一样本的两个全局视图嵌入的平均值[8]。

我们使用LARS[31]优化器训练MVEB 800个周期。权重衰减和动量分别设置为1e-6和0.9。基础学习率设置为0.4，按批次大小缩放并除以256。我们在预热期10个周期后使用余弦衰减调度器将学习率降低到原来的千分之一。偏差和批量归一化参数不包括在LARS适配中。批次大小为4096，分布在32个NVIDIA V100 GPU上。损失函数中的系数根据我们的实证研究设置为0.01。

B. ImageNet上的线性评估

按照[2]、[6]、[38]和[3]中的ImageNet线性评估，我们在冻结的学习表示上训练一个线性分类器，以评估在ImageNet上的分类性能。训练周期数设置为50。其他线性评估的训练设置与[7]相同。

我们比较了MVEB与基于暹罗网络的其他流行的SSL方法。结果如表I所示。MVEB在top-1准确率上显著超过了以前最好的方法UniGrad，绝对提高了1.4%。与[2]中使用的监督基线相比，MVEB超过了76.5%的监督结果。据我们所知，MVEB是第一个使用普通ResNet-50主干超过这个监督学习结果的工作。

我们还将MVEB与基于掩码自编码器的方法进行了比较，包括MAE[36]和SimMM[37]。表II显示了结果。对于ImageNet上的线性评估，MVEB优于MAE和SimMM。此外，MVEB的参数数量最少。

C. ImageNet上的半监督分类

我们通过在ImageNet训练集的1%和10%子集上对预训练的MVEB进行微调，实施半监督学习，使用与SimCLR相同的分区。按照[10]中概述的半监督训练配置，我们训练一个线性分类器，并使用1%和10%的可用标签对表示进行微调。我们的训练采用SGD优化器，不使用权重衰减，批次大小为256，运行60个周期。对于使用1%标签的训练，我们对编码器使用0.002的学习率，对线性头部使用0.8的学习率。对于使用10%标签的训练，我们对编码器使用0.003的学习率，对线性头部使用0.4的学习率。我们采用余弦衰减来调整这两个学习率。对于使用1%标签的训练，我们采用SGD优化器，不使用权重衰减，批次大小为256，运行60个周期。对于使用10%标签的训练，我们同样采用SGD优化器，不使用权重衰减，批次大小为256，运行60个周期。学习率采用余弦衰减调整。

在表III中，我们展示了top-1和top-5准确率。我们的结果表明，MVEB在1%和10%设置中均一致性地优于先前的方法。此外，值得一提的是，所有自监督学习方法都显著优于监督基线[39]。

D. 迁移学习

为了评估我们学习到的表示是否能够跨不同领域泛化，我们将其迁移到其他分类任务的11个数据集上，包括FGVC-Aircraft [40]、Caltech-101 [41]、Stanford Cars [42]、CIFAR-10 [43]、CIFAR-100 [43]、DTD [44]、Oxford 102 Flowers [45]、Food-101 [46]、Oxford-IIIT Pets [47]、SUN397 [48] 和 Pascal VOC2007 [49]。对于每个数据集，我们进行(a)线性评估，即在冻结的ResNet-50主干上拟合一个正则化的多项式逻辑回归模型，以及(b)微调，允许更新背景和分类器的权重。我们在分割验证集上搜索最佳超参数（线性评估的正则化系数和微调的学习率和权重衰减），并在每个数据集的测试集上报告评估结果。

按照[2]和[6]中的常见实践，我们通过线性分类和微调评估11个数据集上的迁移性能。对于评估，我们使用这些数据集的论文中介绍的指标。具体来说，我们报告CIFAR-10、CIFAR-100、DTD、Food-101、Stanford Cars和SUN397的top-1准确率，Caltech-101、FGVC-Aircraft、Oxford-IIIT Pets和Oxford 102 Flowers的平均每类准确率，以及Pascal VOC 2007的11点mAP [49]。对于DTD和SUN397，它们包含由原始创建者定义的多个训练/测试拆分，我们只报告第一个训练/测试拆分的结果。对于Caltech-101，由于没有定义训练/测试拆分，我们随机选择每个类别的30张图片来形成训练集，其余的用于测试。DTD、FGVC-Aircraft、Pascal VOC 2007和Oxford 102 Flowers有自己的验证集，我们直接使用它们。对于其他数据集，我们通过随机选择训练集的20%来形成验证集。超参数是基于分割验证集上的指标选择的，最终结果在测试集上报告。

线性分类：我们在冻结的ResNet-50主干上拟合一个正则化的多项式逻辑回归模型。图片使用双三次重采样调整为较短边的224像素，然后进行224×224的中心裁剪。我们使用LBFGS [50]优化softmax交叉熵目标。每个数据集的正则化系数在验证集上选择，范围在10^-6到10^5之间的45个对数间隔值。

微调：我们用预训练模型的参数初始化模型，并调整整个网络。对于增强，我们只在训练时执行随机裁剪和调整大小以及翻转。批次大小为64，我们训练模型5000次迭代。优化器是具有0.9的Nesterov动量的SGD。学习率随着余弦退火调度而降低，没有重新开始。我们在验证集上搜索最佳的学习率和权重衰减。具体来说，初始学习率从0.0001到0.1之间的4个对数间隔值的网格中选择，权重衰减从10^-6到10^-3之间的4个对数间隔值的网格中选择，以及没有权重衰减。权重衰减的值除以学习率。

如表IV所示，对于线性评估，MVEB在所有数据集上都以较大的优势超越了其他方法，除了DTD和Pets，在这两个数据集上MVEB的结果仍然具有竞争力。在微调的情况下，MVEB在11个数据集中的9个上也取得了最佳或第二好的成绩，超过了所有数据集的平均评估指标的监督基线。与其他SSL方法相比，MVEB在跨不同图像领域的泛化方面显示出更多的优势。

E. 目标检测和分割

我们进一步评估了通过将学习到的嵌入迁移到除了分类之外的更多下游任务上，包括在MS COCO [54]上的目标检测和实例分割。我们采用带有特征金字塔网络（FPN）[54]和Mask RCNN [55]的ResNet-50 [32]进行检测和分割。ResNet-50主干由MVEB预训练了800个周期，如第VI-B节所述。对于实现，我们采用Detectron2 [56]并使用[57]中建议的超参数，没有搜索最佳超参数。模型在COCO 2017上使用1×训练计划[3]进行微调。

结果在表V中报告。结果表明，我们的MVEB在所有评估指标的目标检测和实例分割方面均一致性地优于其他方法。这表明MVEB的表示不仅在ImageNet分类任务上泛化良好。

VII. 实证研究

在本节中，我们探索了MVEB在暹罗网络中的自监督学习行为。在所有实证研究中，我们的基于ResNet-50 [32]主干的模型在ImageNet [30]上预训练了100个周期。我们报告了在ImageNet [7]上使用线性评估协议的所有结果。在预训练模型的冻结特征上训练一个监督线性分类器，训练周期数设置为50。其他线性评估的训练设置与[7]相同。

A. 批次大小

进行实证实验以评估我们方法在不同批次大小下的性能。我们比较了MVEB与SimCLR [2]、SimSiam [7]和VICReg [10]。我们使用对称暹罗网络，没有预测器网络、动量编码器和停止梯度操作。批次大小设置在128到4096的范围内。投影器网络由三个线性层组成，每个输出维度设置为8194。我们在第一二层之后应用BN和ReLU。SGD用作优化器。权重衰减和动量分别设置为1e-4和0.9。基础学习率设置为0.05，按批次大小缩放并除以256，损失函数系数设置为0.01。

结果在表VI中报告。MVEB在广泛的批次大小设置中表现良好。我们可以观察到，随着批次大小的增加，MVEB的top-1准确率增加。当批次大小从512变化到4096时，MVEB的准确率相似。与SimCLR、SimSiam和VICReg相比，我们的MVEB在不同批次大小下以较大的优势超越了它们。

B. 目标分支类型

暹罗网络中的自监督学习方法采用不同类型的目标分支。我们选择了两种常见类型进行研究：权重共享和动量更新。在SimCLR [2]中，两个分支共享相同的权重并同时更新，这被称为对称网络。MoCo [3]使用动量编码器作为目标分支，根据另一分支进行动量更新。

我们对权重共享和动量更新分支使用相同的投影器网络。具体来说，投影器网络由三个线性层组成，每个输出维度设置为8194。我们在第一二层之后应用BN和ReLU。没有在暹罗网络中使用预测器网络。

权重共享分支：批次大小设置为1024。其他配置与第VII-A节中的预训练设置相同。

动量更新分支：我们使用SGD优化器训练100个周期。权重衰减和动量分别设置为1e-4和0.9。基础学习率设置为0.1，按批次大小缩放并除以256。我们在预热期5个周期后使用余弦衰减调度器将学习率降低到原来的千分之一。损失函数系数设置为0.01。批次大小为1024。按照BYOL [6]的设置，我们使用余弦调度器将目标分支的参数从0.996增加到1。

我们实证研究了这两种类型对MVEB的影响。对于权重共享目标分支，ImageNet上的线性评估为68.9%。相比之下，动量编码器可以达到71.2%的线性评估。这表明MVEB在使用动量编码器时更有益。因此，在我们的实验中采用了它作为目标分支。

C. 损失平衡系数

MVEB的目标函数由两部分组成，每个部分都有不同的作用。第一项学习样本不同视图之间的不变表示。第二项的最大化增加了嵌入的均匀性。

我们研究了它的重要性，并在图4中报告了性能。

我们可以观察到，当为0.001时，所有表示都坍塌为一个常数向量。由于接近零，暹罗网络遭受模型坍塌，得到没有最大化均匀性的平凡恒定表示。在（10）中，，其中是一个常数。如（1）所示，是用于平衡优化和的系数。增加的值，即减少，目标更多地关注最大化以保留与相关的信息。然而，当大于0.01时，模型的性能会下降。这是因为增加以使小于阈值不会有效地消除多余信息，这会损害下游任务的性能。

D. 不同背景的泛化能力

本节中，我们评估了我们方法在不同背景（ViTs和ConvNets）上的泛化能力。我们遵循[58]中ImageNet上的实验设置，并比较了MVEB与基于暹罗网络的其他流行的SSL方法以及MAE [36]在ViTs和ConvNets上的性能（见表VII）。结果表明，MVEB在ViTs和ConvNets上都表现出了竞争性能。

E. 预训练效率

为了评估MVEB方法的预训练效率，我们对两种既定方法：BYOL和Barlow Twins进行了比较分析。为了确保公平评估，我们通过使用Resnet50架构作为底层背景，标准化了实验设置。我们评估了每种方法完成1000个周期所需的预训练时间，批次大小为4096，在ImageNet上进行。BYOL和Barlow Twins的实验配置与它们各自的开创性论文[6]和[9]中详细说明的参数相同。

MVEB在32个NVIDIA V100 GPU上大约需要81小时。BYOL和Barlow Twins的重新实现分别需要大约89小时和80小时在相同的硬件和相同设置下。因此，MVEB的预训练成本与BYOL和Barlow Twins相似。

F. MVEB与MVIB的比较

[15]在CIFAR10上进行了MVIB与SimCLR的分析实验。SimCLR的线性评估准确率为85.76%，而MVIB的线性评估准确率为86.2%。这表明MVIB与SimCLR相比并不能显著提高性能。我们遵循[15]在CIFAR10上的相同实验设置，比较了MVEB与MVIB。MVEB的线性评估准确率为90.42%，超过了MVIB的准确率。此外，MVEB可以直接应用于暹罗网络，但MVIB需要额外的随机网络来获得特征分布，如图3所示。

VIII. 讨论与结论

自监督学习的核心是学习到的表示能够很好地泛化到下游任务。最小充分表示可以改善泛化。我们提出了多视图熵瓶颈（MVEB），这是一种新的预文本任务，用于学习最小充分表示。它可以进一步简化为最大化两个视图的嵌入之间的一致性以及嵌入分布的差分熵。我们提出了基于冯·米塞斯-费舍尔核的基于分数的熵估计器，用于近似差分熵的梯度。这种估计器可以用来最大化差分熵，有效防止坍塌。广泛的实验表明，MVEB在各种下游任务中泛化良好，并建立了新的最先进结果。

限制

现有的基于暹罗网络的自监督方法基于多视图学习的共同假设：任一视图（近似）足以预测下游任务并包含相同的任务相关信息。因此，两个视图之间的非共享任务相关信息可以忽略。我们的实验结果也验证了最小充分表示可以改善下游任务的泛化。如果两个视图之间的差异太大，非共享任务相关信息不能被忽略。换句话说，任一视图对下游任务的预测都不充分。因此，任一视图都不能被视为提取任务相关信息和消除多余信息的监督信号。暹罗网络中的这种假设限制了方法的泛化能力。如何克服这个问题是未来的工作。