SafePredict:使用拒绝机制保证正确率的机器学习元算法

选自arXiv

机器之心编译

参与:路雪、刘晓坤

SafePredict 是一种新型元算法,可以使用拒绝机制保证正确率,其错误界限不依赖于任何关于数据分布或基础预测器的假设。该算法与顶尖的基于置信度的拒绝机制相比更有优势,可以更鲁棒地保证正确率,并减少拒绝的数量。

论文:SafePredict: A Meta-Algorithm for Machine Learning That Uses Refusals to Guarantee Correctness

论文链接:https://arxiv.org/abs/1708.06425

摘要:SafePredict 是一种新型元算法,它可以和任意基础预测算法一起处理在线数据,通过拒绝来保证任意选择的正确率 1−ϵ。允许拒绝表示元算法有时可拒绝基础算法生成的预测,以使非拒绝预测的错误率不超过 ϵ。SafePredict 的错误界限不依赖于任何关于数据分布或基础预测器的假设。如果基础预测器未超过目标错误率ϵ,则 SafePredict 只能拒绝有限次。如果基础预测器的错误率随着时间发生改变,则 SafePredict 利用重心转移的启发式算法在无需了解变化时间的情况下适应这些变化,同时保证准确率。实证研究表明:(1)SafePredict 与顶尖的基于置信度的拒绝机制相比更有优势,后者无法提供鲁棒的错误率保证;(2)SafePredict 和此类拒绝机制的组合可以在多种情况下进一步减少拒绝的数量。我们的软件(目前是 Python 程序)在补充材料中。

表 1:符号表示

图 1:M 代表元算法,其预测等同于基础预测器 P 的推荐,或者元算法为了保证目标正确率(target rate)ε 拒绝对数据点 t 进行预测。

图 2:基于合成数据的效率实验:SafePredict 的效率 (T∗/T) 随着α增加的变化趋势(上方图)。如果基础预测器的错误率是恒定的,且高于目标错误率,则 SafePredict 几乎一直在拒绝。这种情况下预测的数量随着α的增加而增加(下方图)。另一方面,当基础预测器的错误率在目标错误率上下波动时,SafePredict 的效率随着α的增加而上升,达到几乎与 oracle(当且仅当ε_t ≤ ε时,才会进行预测)等同的效率。在任何情况下,都确保渐近有效性(asymptotic validity)。

图 3:合成数据,效率进化:注意α = 0 对应初始 SafePredict,不具备适应性。对于α > 0 的情况,SafePredict 可以跟踪变异点,提升效率。α越大表示跟踪效果越好。随着变异点数量的增加,SafePredict 对基础预测器的性能跟踪效果越差,造成效率下降。图中所有预测器都是有效的。

图4. MNIST数据集:基础预测器的效率是1.0,但多种拒绝元算法的效率低于1.0。有效性作为目标错误率的一部分进行评估。因此,基础预测器的错误率很糟糕(超过ε)。尽管错误率在变异点位于t = 5000时增加,所有的SafePredict变体快速达到正常的错误率1。基于置信度的竞争无法确保渐近有效性。两种形式的适应性帮助减少拒绝的数量:重心转移(特别是α值很大的时候)和遗忘适应性(amnesic adaptivity)。把二者结合起来使得在保留有效性的同时实现最高的效率。

本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

本文来自企鹅号 - 轻芒媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏奇点大数据

机器学习工程师必知的十大算法

作者 James Le ,译者 尚剑 毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者...

3474
来自专栏AI科技评论

DeepMind和剑桥、普朗克研究所共同论文:基于模型加速的连续深度Q-learning方法

摘要 模型无关的强化学习被成功应用于许多难题,最近还被用于处理大型神经网络策略和价值函数。然而,模型无关的算法的样本复杂度往往限制了它们在硬件系统中的应用,尤其...

3948
来自专栏AI科技大本营的专栏

CCAI 2017 | 日本理化学研究所杉山将:弱监督机器学习的研究进展

日本理化学研究所先进智能研究中心主任杉山将 记者 | JayZhang 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、...

36111
来自专栏新智元

十年机器学习结果不可靠?伯克利MIT研究质疑了30个经典模型

943
来自专栏PPV课数据科学社区

练功 | 机器学习应补充哪些数学基础?

编者按:很多同学开始学习机器学习时候遇到的最大障碍就是数学基础,机器学习到底需要学习哪些数据知识?要掌握到什么程度呢?希望这篇文章对于大家学习大数据和机器学习有...

35210
来自专栏AI科技评论

动态 | 商汤 37 篇论文入选 ECCV 2018,开源 mm-detection 检测库

AI 科技评论消息,9 月 8 日-14 日,2018 欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开,ECCV 每两年举办一次,与 CVPR、ICC...

1192
来自专栏新智元

目标检测竞赛利器:中星微一步法模型获国际算法竞赛第一名!

【新智元导读】近日,在国际计算机视觉竞赛PASCAL VOC,中星微以89.0分的总成绩位列第一,获得目标检测单模型第一名。获胜的模型是一步法的目标检测模型,本...

580
来自专栏机器之心

演讲 | 技术讲解概率机器学习——深度学习革命之后AI道路

Zoubin Ghahramani 是英国皇家学会会士,剑桥大学信息工程系教授,Uber 首席科学家,英国国家数据科学研究所图灵研究所剑桥主任。Zoubin G...

914
来自专栏数据派THU

悉尼大学陶大程:遗传对抗生成网络有效解决GAN两大痛点

悉尼大学教授、澳大利亚科学院院士、优必选人工智能首席科学家陶大程博士在9月20日的AI WORLD 2018世界人工智能峰会上发表《AI破晓:机遇与挑战》的主题...

1385
来自专栏BestSDK

机器学习精华,10问10答

给新人的学习建议 1. 你建议其他领域的人(比如机械工程)来学习机器学习吗? Ian Goodfellow:当然了!我最崇拜的Geoffrey Hinton在...

3546

扫码关注云+社区