机器学习的稳健算法

机器学习通常被认为是解决困难问题的一个魔法解决方案,它将使我们从单纯的人类中解脱出来。但事实上,对于数据科学家和机器学习工程师来说,有很多问题比带有限规则集的图像或棋盘游戏中的简单对象识别要困难得多。

对于大多数问题,有多种方法可以帮助您减少噪音和异常情况,因此您可以专注于更易处理的事情。一种方法是设计出测试误差与训练误差一或者在向数据集添加噪声之后性能稳定的稳健算法。

任何传统(非贝叶斯)统计检验的想法都是一样的:我们从数据中计算一个数字(称为“统计量”),并使用该数字的已知分布来回答这个问题:“这种偶然发生的几率是多少?“ 这个数字是p值。

这种方法的问题在于该数字的“已知分布”取决于数据的分布。这种依赖性可能是温和的,如学生的t检验或F检验的情况,也可能非常严重,使得这个价值在统计上毫无意义。皮尔逊的“r”(在线性回归问题中表现为r平方)属于后一类,因为它对数据的基本分布非常敏感,在大多数实际情况下它不能转化为有意义的p值。因此,即使传统的统计分析标准相当宽松,也几乎没有用。例如,用“r”作为低对比度图像配准相似性度量,可以产生意味着0.998的“接近统一”和意味着0.98的“远距离统一”,并且由于所涉及的像素值的极非高斯分布,所以无法计算p值。

这种统计有时被称为“参数”统计,因为它们依赖于基础分布的参数。例如,学生的t检验取决于具有相同方差的被比较的分布。

稳健统计也称为非参数,因为基础数据几乎可以有任何分布,并且仍然会产生一个可以与p值关联的数字。

诀窍是找到一个不依赖于底层分布细节的数据属性。特别是将基数数据转换为序数,可以让我们提出一些非常有力的问题。

以曼恩 - 惠特尼U检验为例。实际上,在曼·惠特尼、威尔克森或古斯塔夫·杜克勒(Gustav Deuchler)出现在现场的三十年以前,这也被称为Wilcoxon U检验,虽然符合博耶定律(数学定理通常不是以创造它们的人的名字命名的)。

不管是谁创造的,两类问题的检验统计量(U)是一个类别的总和减去相同分布情况下的期望值的修正系数。U的值(近似)是正态分布的,与数据的基本分布无关,这就是鲁棒或非参数统计的功率。

在一个与这个完全不同的假想世界里,这些都不重要,因为数据会很好的表现出来。在我们居住的世界里,由于噪音,离群值和异常,这个问题非常重要。

即使在理论上表现良好的数据,如像核光谱学这样的领域中所看到的那样,大数定律也会给我们带来完美的高斯峰形,如背景事件、探测器非线性以及只是简单的怪异干扰了事情。

强大的算法会丢弃信息,在现实世界中,它们经常会丢弃与信号一样多或更多的噪音。所以虽然丢失信号信息会降低方法的统计功效,但是在存在噪声的情况下优雅地降级是非常好的特性,特别是在将方法部署到生产中时。

在学习系统中,即使在我们对纯统计分析不感兴趣的情况下,我们也可以运用稳健性原则。将稳健的估计量输入深度学习者可以保护他们免受不相关的和潜在的误导性信息的影响。大多数学习者希望浮点数在0和1之间,或者在-1和+1之间作为输入,所以对于排名数据,可能需要重新归一化为更适合学习者的规模。

使用鲁棒的输入也是非常棘手的,因为它们的值分布可能相当粗糙,最坏的情况是由较小数量的整数值组成。看到在为这种输入而优化的学习系统上所做的工作,而不是我们的学习者今天倾向于建立的准连续的价值观,这将是有趣的。对于这样粗糙的数据来说,训练变得困难,因为它们将我们试图下降的平滑梯度有效地转变成梯田的山坡,没有什么太多的事情发生,直到输入跨过堤防并猛烈地跳入下一层。

对于所有的局限性,稳健的方法对于数据科学家的方法是一个有价值的补充,当噪声和异常正在为更多的传统工具带来麻烦时应该考虑。

本文的版权归 FLYMOTH 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

精选机器学习开源项目Top10

【导读】过去一个月里,我们对近 250 个机器学习开源项目进行了排名,并挑选出热度前 10 的项目。这份清单的平均 github star 数量高达919,涵盖...

1542
来自专栏人工智能头条

关于数据科学,书上不曾提及的三点经验

1302
来自专栏数据魔术师

机器学习|刘博士谈机器学习--起手式

1738
来自专栏机器之心

关系推理水平超越人类:DeepMind展示全新神经网络推理预测技术

选自DeepMind 作者:Adam Santoro等 机器之心编译 参与:机器之心编辑部 想象一下在阿加莎·克里斯蒂(《东方快车谋杀案》作者)的侦探小说里收...

2776
来自专栏人工智能

机器学习的基本概念

我发现,查阅和掌握机器学习基本概念的最佳方法是,回顾机器学习教科书的介绍章节,并观看典型的在线课程视频。

48710
来自专栏大数据文摘

职场 | 备好数据后,数据科学家还要做什么?

1507
来自专栏机器学习之旅

应用:基于自然语言识别下的流失用户预警

update: 17.12.20 : 关于IDF处描述,经@余海跃同学提醒,细化了解释内容,感谢! 更新内容参见:基于自然语言识别下的流失用户预警

971
来自专栏人工智能头条

Google研究员Ilya Sutskever:成功训练LDNN的13点建议

1346
来自专栏数据科学与人工智能

【陆勤阅读】三个你在书中无法学到的数据分析知识

在大数据特别热门的今天,出现了各种培训课程。但我发现这些课程的重点都放在算法的学习上。如何理解logistic回归或深度学习的确很酷,但一旦你开始处理数据,你会...

2007
来自专栏AI研习社

现在 tensorflow 和 mxnet 很火,是否还有必要学习 scikit-learn 等框架?

原题如下: 现在 tensorflow 和 mxnet 很火,那么对于深度学习(机器学习)准备入门的学生还有必要学习 scikit-learning,caffe...

43610

扫码关注云+社区

领取腾讯云代金券