首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google AI 最新博文:模型的不确定性是否可信?

Google AI 最新博文:模型的不确定性是否可信?

作者头像
AI研习社
发布2020-02-21 08:22:23
9450
发布2020-02-21 08:22:23
举报
文章被收录于专栏:AI研习社AI研习社
在实际应用中,机器学习模型遇到的数据并不总是具有相同的分布。在这种情况下,模型的精度会如何变化?近日,Google AI 发布了一篇博文,讨论了这个问题,他们认为,在数据集转移的情况下,不确定性的质量会下降,但是一些有希望的研究方法可以缓解这种情况。原文大意如下:

在理想情况下,机器学习方法(如深度学习)被用来对与训练数据分布相同的数据进行预测。但实际情况可能大不相同:相机镜头变得模糊,传感器退化等问题,都可能导致训练模型与应用模型数据分布之间的差异,从而导致所谓的协变量偏移。例如,最近有人观察到,接受过胸部 x 光检查肺炎训练的深度学习模型,在根据以前没遇到过的医院数据进行评估时,其精确度水平将大不相同,部分原因是图像采集和处理方面的细微差异。

在 NeurIPS 2019 上,我们的论文「Can you trust your model’s uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift(https://arxiv.org/abs/1906.02530)」对最先进的深度学习模型的不确定性进行了基准测试,因为它们暴露于不断变化的数据分布和分布外的数据。在这项工作中,我们考虑各种输入模式,包括图像、文本和在线广告数据,将这些深度学习模型用于不断变化的测试数据中,同时仔细分析其预测概率的行为。我们还比较了各种不同的方法来提高模型的不确定性,看看哪些策略表现最好。

什么是分布外数据?


深度学习模型为每个预测提供一个概率,这个概率表示模型的可信度或不确定性。因此,当数据不在原始训练数据集的范围内时,它们可以表达它们不知道的内容,避免预测。在协变量移位的情况下,不确定性理想情况下会随着精度的任何降低而成比例增加。一个更极端的情况是,数据不在分布范围内(OOD)。例如,你可以设想一下,当一个猫狗图像分类器遇到飞机图像时会发生什么。这个模型是自信地预测错误,还是根据概率进行分类?在此前的文章中,我们最近讨论了我们开发的识别此类 OOD 示例的方法(https://ai.googleblog.com/2019/12/improving-out-of-distribution-detection.html)。在这项工作中,我们分析了分布外模型的预测不确定性,并转移了实例,以查看模型预测概率是否反映了它们对此类数据的预测能力。

量化不确定度的质量


一个模型比另一个模型更能反映其不确定性意味着什么?虽然这可能是一个细致入微的问题,通常是由下游任务定义的,但有一些方法可以定量评估概率预测的总体质量。例如,气象界仔细考虑了这一问题,并制定了一套适当的评分规则,天气预报的概率比较函数应满足这些规则,以便能够很好地进行校准,同时也有利于提高准确度。我们应用了一些适当的评分规则,如 Brier 评分和负对数似然(NLL),以及更直观的启发式方法,如预期校准误差(ECE),来了解不同的 ML 模型如何处理数据集移位情况下的不确定性。

实验


我们分析了数据集移位对各种数据模式(包括图像、文本、在线广告数据和基因组学数据等)不确定性的影响。举个例子,我们演示了数据集移位对 ImageNet 数据集的影响。ImageNet 将 100 多万张图像分为 1000 个不同的类别。一些人现在认为这一挑战已经基本解决,并且已经开发出更难的变体,例如损坏的 Imagenet(或 Imagenet-C),其中数据有 16 种不同的损坏,每种损坏的强度分为 5 种。

我们探讨了在数据分布变化时,模型不确定性如何变化

我们使用这些损坏的图像作为移位数据的例子,并检查深度学习模型在处理损坏强度增加的移位数据时的预测概率。下面我们展示了每一级损坏(包括未损坏的测试数据)的准确度和 ECE 的方框图,其中每个方框图综合了 ImageNet-C 中所有损坏类型,每个颜色代表不同类型的模型。

增加 ImageNet-C 上数据集偏移强度的精度(上)和预期校准误差(下)。我们观察到,精度的降低并不是由模型不确定度的增加反映的,这表明精度和 ECE 都在变差。

随着损坏强度的增加,每个模型的各个损坏方法的精度偏差如预期的那样增加,并且总精度降低。理想情况下,这将反映在模型的不确定性增加,并且保持预期校准误差(ECE)不变。然而,从 ECE 的较低曲线图来看,情况并非如此,而且校准通常也会受到影响。我们观察到 Brier 分数和 NLL 的类似恶化趋势,这表明模型并没有随着数据损坏的增加而变得越来越具有不确定性,而是自信地进行错误的判断。

改进校准的一种常用方法是温度标度法,它是 Platt 标度法的一种变体,它涉及到在训练后使用在有效数据集上的性能来平滑预测。我们观察到,虽然这改进了标准测试数据的校准,但它常常损坏数据的情况更糟!因此,应用这一技术的实践者应该警惕分布的变化。

幸运的是,有一种方法在不确定性方面的退化比其他方法要优雅得多。Deep-ensembles(图中绿色部分)是一种简单的策略,它对一系列模型的预测进行平均化,显著提高了对移位的鲁棒性,并优于所有其他测试方法。

总结和建议的最佳做法


在本文中,我们探索了在跨图像、文本、在线广告数据和基因组学的数据集转移下,最新模型的行为。在这些不同类型的数据中,我们的发现基本一致。在数据集转移的情况下,不确定性的质量会下降,但是一些有希望的研究方法可以缓解这种情况。我们希望深度学习的用户从我们的研究中获得以下信息:

  1. 数据集转移下的不确定性是训练模型时需要考虑的一个现实问题。
  2. 在分布内的测试集上提高校准和精度,通常不能转化为对移位数据的改进校准。
  3. 在我们考虑的所有方法中,Deep-ensembles 对数据集转移来说最具有稳健性,相对较小的集合大小(如 5)就足够了。其有效性为改进其他方法提供了有趣的途径。

提高深度学习模型的预测不确定性仍然是 ML 研究的一个活跃领域,我们已经发布了该基准的所有代码和模型预测,希望对社区推动和评估未来这一重要课题的工作有帮助。

代码和模型网址:https://github.com/google-research/google-research/tree/master/uq_benchmark_2019

via:https://ai.googleblog.com/2020/01/can-you-trust-your-models-uncertainty.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-01-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档