作者 | 彭儒@浙江大学 整理 | NewBeeNLP https://arxiv.org/abs/2401.12689
大家好,这里是 NewBeeNLP。
今天分享来自浙江大学ICLR 2024的关于自动模型评估AutoEval的最新工作:MDE。
机器学习模型的传统评估协议严重依赖于 带标签的 、 独立同分布 假设的测试数据集,而这在实际应用中并不常见。自动模型评估(
)展示了一种替代传统工作流的方法,通过形成一个近似预测流程来预测模型性能,而无需实际的标签。尽管
框架最近取得了成功,但仍然存在过度自信、存储需求大和计算成本高的问题。
对此,我们提出了一种新颖的措施 ——
,它使
框架更加高效和有效。
的核心是针对与各个样本相关的信息(能量分数)建立元分布统计,然后通过基于能量的学习提供更平滑的表示。
我们通过将
与分类损失联系起来,进一步提供我们的理论见解。我们提供了跨模态、数据集和不同网络架构的广泛实验,以验证
的有效性以及与先前方法相比的优越性。我们还通过展示
与大型模型的无缝集成以及轻松适应带有噪声或不平衡标签的学习场景来展示
的通用性。
随着机器学习技术的巨大进步,评估模型性能在研究和实践中变得越来越重要。标准评估需要使用带标注、并与训练集独立同分布的测试集。然而,这种传统的方法在现实部署中可能会失败,因为现实场景中经常会遇到分布偏移和缺乏真实标签的情况。在
的环境中,模型的性能可能会有明显下降,这使得利用分布内测试集的准确度衡量模型泛化性能变得不再可靠。此外,通常在
的真实应用场景中标注新的测试集的成本是非常昂贵且不切实际的。为了应对这些挑战,在不带标签的情况下预测模型在各种
数据集上的性能,即自动模型评估(
),已成为一种有前途的解决方案。
现有的
方法包括利用
数据集上模型输出的置信度、一致性分数、网络参数统计、引入辅助自监督任务等,但这些方法常常会遇到过度自信、计算/存储开销过大等问题,使得在现实部署中存在障碍。对此,我们希望建立一个简单,但更高效、更有效的
框架,而不需要借助太多外部资源。
我们从能量模型(
)提出的能量分数中获得启发,扩展得到了一个更强大的统计量
。该统计量基于单独表征每个样本的能量分数进行归一化,将整体样本的信息量转换为概率分布的统计量,与初始能量分数相比,提供了数据集分布的更平滑的表示。
本文的 主要贡献 如下:
为核心建立了一套简单但有效的
流程,具有即插即用的特性,并将
应用于现实生产。
的预测精度显著超越了之前的同类方法,并创造了新的
记录。此外,
的有效性得到了理论解释的支持。
同样优于现有的
方法。
对于一个给定的模型
,评估模型精度需要进行如下几步操作:
我们利用分布内测试集作为源数据集,施加不同强度的多种变换操作生成一系列合成数据集(
个),每个合成数据集相对于源数据集都有一定的分布偏移,变换操作的类型可以参考下图。以
为例,我们施加了 19 种变换,每种变换有 5 种强度,这样便得到了 95 个合成数据集
。
对每个合成数据集里的每个样本
,我们都可以计算得到一个能量分数,形式为:
,其中
为温控参数,
为类别数,
为模型针对第
个类输出的
。
之后我们对一个合成数据集里所有样本的能量分数施加
变换和取均值操作便可得到我们的评估指标
,形式为:
,其中
为数据集里的样本数。
因为每个合成数据集的标签都和源测试集的标签相同,模型经过推理便可获得该合成数据集上的精度
。
对所有合成数据集都施加如上操作便可得到一系列
的值对。
根据这些
对可以拟合得到一条回归直线(参照下图)。在真实场景中部署时只需计算出模型在新数据集上的
即可无监督地预测出模型的精度。
我们方法的完整流程可以参照以下算法框图。
我们通过理论分析给出了一个定理来展示
和交叉熵之间的关系。
定理 :给定一个良好分类、具有最佳交叉熵
的模型
, 对于每个样本点
,它的分类损失和
的差值,可以被下式描述:
其中
是标签空间,
是我们提出的能量元分布指示器,
是负对数似然损失函数,
是接近于
的温度常数。
(完整的证明参照原论文)
我们可以通过比较
和
来确定标签
是否对应于最大
,从而评估模型的准确性。
我们和当前的
方法在
、
、
、
等视觉和文本的数据集上进行了比较,衡量了相关系数
和平均绝对误差
。相关系数越高,
越低性能越好。
如上图所示,我们的
在跨模态、数据集和骨干网络的公平比较中超越了当前的
方法。实验结果表明,
的性能显著优于常见的免训练方法,这些增益可能受益于
重新校准置信度时的温度缩放。同时,
也优于需要训练模型的方法,这一优势方案既提高了性能,又降低了成本,并无缝满足了流行的大语言模型的评估需求。这一系列的结果证实了
是一种具有广泛适用性的有竞争力的技术。
(完整的实验结果请参照原论文)
当我们采用基于
的
框架时,我们想知道其性能对超参数的敏感性。因此,我们研究温度参数和随机种子的变化对性能的影响。
如图7(a)所示,我们发现随着温度参数的增加,性能在下降,最好的性能在
时取得。
如图7(b)所示,我们选择不同的随机种子进行训练,发现不同随机种子对于结果的影响非常小,这说明我们框架的性能对随机性具有鲁棒性。
强噪声
在之前的分析中,我们在自然偏移的测试集上测试了我们的方法。考虑到现实世界的场景可能更复杂,我们通过在自然转移的测试集上应用新的转换,在更真实的测试环境中测试
和
的稳健性。根据图3左侧图我们观察到如下结果:首先,偏移强度越大,两种方法预测准确性就越困难。重新转换的测试集(-A/B)中的准确率预测结果比未转换的状态更差。此外,与其他数据集相比,具有较大偏移的
和
的性能下降幅度更大。其次,在经过新变换的噪声数据下,我们的方法始终取得比
更优异的结果(
)
类别不平衡
考虑到现实世界的数据通常不像我们的工作那样是类平衡的,一些类被欠采样或过采样,导致标签偏移。为了研究类别不平衡的影响,我们从合成数据集创建长尾不平衡测试集。具体来说,我们应用指数衰减来控制不同类别的比例。它由不平衡比率 (
) 表示,即最不常见类别和最常见类别的样本量之间的比率,范围为
。如图 3 右侧所示,我们的方法在中等不平衡(
)下比
更稳健。当然,当存在严重的类别不平衡(
)时,我们的方法也会受到标签移位的严重影响,但它仍然领先于
。此时,考虑额外的技术,例如标签移位估计可能是解决这个问题的一个潜在想法。
在这项工作中,我们引入了一种新颖的措施,即
,以提高
框架的效率和有效性。我们的
通过建立单个样本能量的元分布统计来解决过度自信、高存储要求和计算成本的挑战,并得到了理论分析的支持。通过跨模态、数据集和网络骨干的广泛实验,我们通过微观结果、超参数敏感性、压力测试和深入的可视化分析展示了
的卓越性能和多功能性。
备注:作者们还有一篇自动模型评估的相关工作 CAME: Contrastive Automated Model Evaluation[2] 发表在 ICCV2023 上,欢迎大家关注~