Google AI 最新博文：模型的不确定性是否可信？

AI研习社

发布于 2020-02-21 08:22:23

9740

发布于 2020-02-21 08:22:23

在实际应用中，机器学习模型遇到的数据并不总是具有相同的分布。在这种情况下，模型的精度会如何变化？近日，Google AI 发布了一篇博文，讨论了这个问题，他们认为，在数据集转移的情况下，不确定性的质量会下降，但是一些有希望的研究方法可以缓解这种情况。原文大意如下：

在理想情况下，机器学习方法（如深度学习）被用来对与训练数据分布相同的数据进行预测。但实际情况可能大不相同：相机镜头变得模糊，传感器退化等问题，都可能导致训练模型与应用模型数据分布之间的差异，从而导致所谓的协变量偏移。例如，最近有人观察到，接受过胸部 x 光检查肺炎训练的深度学习模型，在根据以前没遇到过的医院数据进行评估时，其精确度水平将大不相同，部分原因是图像采集和处理方面的细微差异。

在 NeurIPS 2019 上，我们的论文「Can you trust your model’s uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift（https://arxiv.org/abs/1906.02530）」对最先进的深度学习模型的不确定性进行了基准测试，因为它们暴露于不断变化的数据分布和分布外的数据。在这项工作中，我们考虑各种输入模式，包括图像、文本和在线广告数据，将这些深度学习模型用于不断变化的测试数据中，同时仔细分析其预测概率的行为。我们还比较了各种不同的方法来提高模型的不确定性，看看哪些策略表现最好。

什么是分布外数据？

深度学习模型为每个预测提供一个概率，这个概率表示模型的可信度或不确定性。因此，当数据不在原始训练数据集的范围内时，它们可以表达它们不知道的内容，避免预测。在协变量移位的情况下，不确定性理想情况下会随着精度的任何降低而成比例增加。一个更极端的情况是，数据不在分布范围内（OOD）。例如，你可以设想一下，当一个猫狗图像分类器遇到飞机图像时会发生什么。这个模型是自信地预测错误，还是根据概率进行分类？在此前的文章中，我们最近讨论了我们开发的识别此类 OOD 示例的方法（https://ai.googleblog.com/2019/12/improving-out-of-distribution-detection.html）。在这项工作中，我们分析了分布外模型的预测不确定性，并转移了实例，以查看模型预测概率是否反映了它们对此类数据的预测能力。

量化不确定度的质量

一个模型比另一个模型更能反映其不确定性意味着什么？虽然这可能是一个细致入微的问题，通常是由下游任务定义的，但有一些方法可以定量评估概率预测的总体质量。例如，气象界仔细考虑了这一问题，并制定了一套适当的评分规则，天气预报的概率比较函数应满足这些规则，以便能够很好地进行校准，同时也有利于提高准确度。我们应用了一些适当的评分规则，如 Brier 评分和负对数似然（NLL），以及更直观的启发式方法，如预期校准误差（ECE），来了解不同的 ML 模型如何处理数据集移位情况下的不确定性。

实验

我们分析了数据集移位对各种数据模式（包括图像、文本、在线广告数据和基因组学数据等）不确定性的影响。举个例子，我们演示了数据集移位对 ImageNet 数据集的影响。ImageNet 将 100 多万张图像分为 1000 个不同的类别。一些人现在认为这一挑战已经基本解决，并且已经开发出更难的变体，例如损坏的 Imagenet（或 Imagenet-C），其中数据有 16 种不同的损坏，每种损坏的强度分为 5 种。

我们探讨了在数据分布变化时，模型不确定性如何变化

我们使用这些损坏的图像作为移位数据的例子，并检查深度学习模型在处理损坏强度增加的移位数据时的预测概率。下面我们展示了每一级损坏（包括未损坏的测试数据）的准确度和 ECE 的方框图，其中每个方框图综合了 ImageNet-C 中所有损坏类型，每个颜色代表不同类型的模型。

增加 ImageNet-C 上数据集偏移强度的精度（上）和预期校准误差（下）。我们观察到，精度的降低并不是由模型不确定度的增加反映的，这表明精度和 ECE 都在变差。

随着损坏强度的增加，每个模型的各个损坏方法的精度偏差如预期的那样增加，并且总精度降低。理想情况下，这将反映在模型的不确定性增加，并且保持预期校准误差（ECE）不变。然而，从 ECE 的较低曲线图来看，情况并非如此，而且校准通常也会受到影响。我们观察到 Brier 分数和 NLL 的类似恶化趋势，这表明模型并没有随着数据损坏的增加而变得越来越具有不确定性，而是自信地进行错误的判断。

改进校准的一种常用方法是温度标度法，它是 Platt 标度法的一种变体，它涉及到在训练后使用在有效数据集上的性能来平滑预测。我们观察到，虽然这改进了标准测试数据的校准，但它常常损坏数据的情况更糟！因此，应用这一技术的实践者应该警惕分布的变化。

幸运的是，有一种方法在不确定性方面的退化比其他方法要优雅得多。Deep-ensembles（图中绿色部分）是一种简单的策略，它对一系列模型的预测进行平均化，显著提高了对移位的鲁棒性，并优于所有其他测试方法。

总结和建议的最佳做法

在本文中，我们探索了在跨图像、文本、在线广告数据和基因组学的数据集转移下，最新模型的行为。在这些不同类型的数据中，我们的发现基本一致。在数据集转移的情况下，不确定性的质量会下降，但是一些有希望的研究方法可以缓解这种情况。我们希望深度学习的用户从我们的研究中获得以下信息：

数据集转移下的不确定性是训练模型时需要考虑的一个现实问题。
在分布内的测试集上提高校准和精度，通常不能转化为对移位数据的改进校准。
在我们考虑的所有方法中，Deep-ensembles 对数据集转移来说最具有稳健性，相对较小的集合大小（如 5）就足够了。其有效性为改进其他方法提供了有趣的途径。

提高深度学习模型的预测不确定性仍然是 ML 研究的一个活跃领域，我们已经发布了该基准的所有代码和模型预测，希望对社区推动和评估未来这一重要课题的工作有帮助。

代码和模型网址：https://github.com/google-research/google-research/tree/master/uq_benchmark_2019

via：https://ai.googleblog.com/2020/01/can-you-trust-your-models-uncertainty.html

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-01-20，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

https

网络安全

本文分享自 AI研习社微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

深度学习

https

网络安全

登录后参与评论

0 条评论

热度

Google AI 最新博文：模型的不确定性是否可信？

Google AI 最新博文：模型的不确定性是否可信？

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐