前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >字段级概率校准,助力推荐算法更精准!

字段级概率校准,助力推荐算法更精准!

作者头像
腾讯大数据
发布2020-05-13 12:40:30
1.9K0
发布2020-05-13 12:40:30
举报

丨导语

一年一度的国际顶级学术会议万维网大会 (The Web Conference, 即 WWW-2020) 于 4 月 20 日至 4 月 24 日在线上成功召开。WWW-2020 收到来自全球五十多个国家和地区的超过 1500 篇论文投稿,仅录用长文 219 篇,录用率 19%。其中,由腾讯TEG数据平台部,与中科院计算所、清华大学合作研究的成果《Field-aware Calibration: A simple and empirically strong method for reliable probabilistic predictions》被大会收录为长文。文中针对概率预估模型提出了一种新的校准方法,可以大幅改善深度学习模型在概率预测任务中存在偏差,以及欠校准的问题,使预估模型变得更为可靠。

现如今,利用各类机器学习模型进行决策,已经成为了工业界的标配。其中的核心要素,在于提供准确的概率预估值。以天气预报为例,预测第二天是否会下雨。这时不仅需要做二分类,还需要给出预测的置信度,也就是概率预测:例如“明天下雨的概率是80%”。那么,如何评估天气预测结果是否可信呢?一种简单的思路是,把一段时期内模型预测降雨概率为80%的日子都列出来,统计其中真实存在降雨的天数。如果真实下雨的日期数占比也是80%,那这个预测模型就被认为“已经校准” (well-calibrated),比较可信。否则,就存在着欠校准 (mis-calibration) 的问题。类似的,在线广告、电商等推荐平台每天都在处理大量的概率预测任务,例如点击/转化率预估。由于这些数值通常与平台收入直接挂钩,其准确性自然是备受关注的。

近些年,凭借着优异的效果表现,人工神经网络在实际生产环境中得到了大范围的落地。很自然的,大家会关心深度学习模型是否已经很好地完成了校准?遗憾的是,通常并没有。2017年康奈尔大学的Guo等人发现[1],图像分类模型的置信度预估值,与真实准确率之间存在很大落差:例如模型给出了80%的置信概率,然而真实的分类准确率可能不到50%。这类欠校准问题在互联网、金融等领域的真实应用场景中也是普遍存在的——深度学习模型对特定群体的预测值可能会失准。比如,一个离线验证AUC水平正常的广告转化率预估模型,上线后可能出现严重的低估或高估,直接影响平台收益与广告主满意度。总而言之,欠校准的模型会导致决策系统不公平、不可靠,是亟需解决的重要问题。

为此我们考虑以下两个问题:应该如何评估一个模型的欠校准水平?同时又该如何对模型进行校准?

首先来看评估指标。考虑简单的二分类问题——给定输入,需要预测它发生正向行为/获得正回报的概率。为了评估这类概率预估的好坏,以往人们通常使用样本级别的指标,例如负对数似然 (Negative Log-Likelihood, 即Log-Loss) 和Brier score,或者概率区间级别的指标比如期望校准误差 (ECE)。然而,这些指标都无法衡量概率预估在数据的子集上的偏差。AUC也常被用来评价预估模型;但由于AUC只与结果的序有关,对于在线广告等对于预估值本身准确性有要求的场合,是不足以用来衡量模型欠校准程度的。

我们提出了一类新的指标“字段级校准误差”(Field-level Calibration Error),用来衡量由特定字段所引出的子集上概率预估的偏差。比如在广告转化率预估场景中,可以定义“广告ID”的字段级期望校准误差 (Field-level Expected Calibration Error, 简称 Field-ECE):对每个广告计算真实转化率与预估值的算数差,然后将这些误差按照各广告的点击量加权求和。同理,也可以定义字段级相对校准误差 (Field-level Relative Calibration Error, 简称 Field-RCE),它是各广告预估值与真实值之间相对误差的加权求和。利用字段级指标,我们可以针对特定的兴趣维度观察模型的预估偏差,从而更准确地评估模型。下图为 Field-ECE 和 Field-RCE 的具体定义。图中右边部分的例子,是一个简单的推荐系统,分别针对 user ID 和 item ID 字段计算偏差,进而得到模型在用户和商品级别上的预估质量。

我们尝试用这类新指标来评估当前常用的深度模型表现。我们选取了一个关于信贷违约预估的公开数据集,按年份划分为训练、验证、测试三个子集。在训练集上训练一个简单的神经网络 (记作 Model-1),在测试集进行测试,得到了超过 0.9 的 AUC。然而,如果我们关注“address state”这一字段,这个模型的字段级相对校准误差 Field-RCE 超过了 50%,这意味着对于很多州的居民来说它的违约预估值很可能被大幅高估或低估。幸运的是,使用传统方法如 Platt Scaling[2,3] 和 Isotonic Regression[4,5] 利用验证集进行校准之后,Field-RCE会大幅降低至不到 20%。这些方法的做法是在验证集训练一个新的校准函数,其输入是未校准模型的预估值,而输出是校准后的概率,如下图橙色箭头所示:

      然而,这些传统校准方法包含一个显著的缺点:它们使用的校准函数通常设置了保序的限制条件,导致验证集只能被用来帮助降低校准误差,无法进一步发掘用来协助提升 AUC。注意到,如果利用验证集对 Model-1 进行 fine-tune,有可能进一步提升 AUC 等指标,我们称 fine-tune 后的模型为 Model-2。在上述违约预测数据的实验结果表明,Model-2 确实能达到更高的 AUC,但其概率预估的欠校准情况可能更为严重。

      我们在许多数据中都观察到了类似的实验结果:在 Criteo 的 CTR 预测数据中,我们也发现 Model-2 能达到更高的 AUC,却有着较大的校准误差。传统校准方法能有效减小欠校准误差,却在 AUC 性能上逊色于 Model-2.

       那么问题来了。我们能否在达到较高 AUC 的同时降低校准误差?答案是可行的。我们提出了一种新的校准方式——字段级校准 (Field-aware Calibration)。其做法非常易于实现:在验证集上训练一个校准模型,对于每条样本,将未校准的模型预测以及这条样本的所有特征作为输入,输出其校准后的概率。下图展示了其训练过程以及与传统校准方式的差异。

      具体来说,我们给出了一种称为神经校准(Neural Calibration) 的实现方案,如下图所示。它的模型结构包括两个部分:一部分为单变量的校准函数,用于将未校准的模型预估进行校准;另一部分为一个神经网络,用于学习从特征到输出之间的映射关系。整个校准模型使用随机梯度下降进行训练。

我们在 5 个大规模真实数据集进行了实验,效果如下图所示。Neural Calibration 可以做到在 AUC 与 Model-2 持平的情况下,大幅降低校准相关指标如 Log-Loss 和 Field-RCE。

      此外,我们也针对字段级校准中各个部分的作用,进行了大量的实验测试。验证了其面对数据分布偏移时的鲁棒性。相关实验和数据可参考原文。

      小结一下,我们在这篇论文中,阐述并论证了下面三个观点:第一,对于深度模型预估值的准确性衡量,可以尝试使用字段级校准误差作为评价指标;第二,相较于传统的单变量校准方式,考虑了全部输入特征的字段级校准可能更为实用;第三,作为一种字段级校准的简单方案,文中提出的神经校准方法能在抑制预估误差的同时,兼顾模型AUC的进一步提升。对论文感兴趣的读者可以从下面的链接获取论文原文。如果喜欢的话请点击右下角的“在看”让更多朋友看到这篇文章~

论文下载链接:https://arxiv.org/abs/1905.10713

参考文献

[1] Chuan Guo, Geoff Pleiss, Yu Sun, and Kilian Q Weinberger. 2017. On calibration of modern neural networks. In Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 1321–1330.

[2] Thore Graepel, Joaquin Quinonero Candela, Thomas Borchert, and Ralf Herbrich. 2010. Web-scale bayesian click-through rate prediction for sponsored search advertising in Microsoft’s bing search engine. Omnipress.

[3] H Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner, Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, et al . 2013. Ad click prediction: a view from the trenches. In Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 1222–1230.

[4] Alexey Borisov, Julia Kiseleva, Ilya Markov, and Maarten de Rijke. 2018. Calibration: A Simple Way to Improve Click Models. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 1503–1506.

[5] Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu, Tao Xu, Yanxin Shi, Antoine Atallah, Ralf Herbrich, Stuart Bowers, et al. 2014. Practical lessons from predicting clicks on ads at facebook. In Proceedings of the Eighth International Workshop on Data Mining for Online Advertising. ACM, 1–9.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档