机器学习的稳健算法

FLYMOTH

发布于 2018-01-29 19:00:15

1.1K0

发布于 2018-01-29 19:00:15

机器学习通常被认为是解决困难问题的一个魔法解决方案，它将使我们从单纯的人类中解脱出来。但事实上，对于数据科学家和机器学习工程师来说，有很多问题比带有限规则集的图像或棋盘游戏中的简单对象识别要困难得多。

对于大多数问题，有多种方法可以帮助您减少噪音和异常情况，因此您可以专注于更易处理的事情。一种方法是设计出测试误差与训练误差一或者在向数据集添加噪声之后性能稳定的稳健算法。

任何传统（非贝叶斯）统计检验的想法都是一样的：我们从数据中计算一个数字（称为“统计量”），并使用该数字的已知分布来回答这个问题：“这种偶然发生的几率是多少？“ 这个数字是p值。

这种方法的问题在于该数字的“已知分布”取决于数据的分布。这种依赖性可能是温和的，如学生的t检验或F检验的情况，也可能非常严重，使得这个价值在统计上毫无意义。皮尔逊的“r”（在线性回归问题中表现为r平方）属于后一类，因为它对数据的基本分布非常敏感，在大多数实际情况下它不能转化为有意义的p值。因此，即使传统的统计分析标准相当宽松，也几乎没有用。例如，用“r”作为低对比度图像配准相似性度量，可以产生意味着0.998的“接近统一”和意味着0.98的“远距离统一”，并且由于所涉及的像素值的极非高斯分布，所以无法计算p值。

这种统计有时被称为“参数”统计，因为它们依赖于基础分布的参数。例如，学生的t检验取决于具有相同方差的被比较的分布。

稳健统计也称为非参数，因为基础数据几乎可以有任何分布，并且仍然会产生一个可以与p值关联的数字。

诀窍是找到一个不依赖于底层分布细节的数据属性。特别是将基数数据转换为序数，可以让我们提出一些非常有力的问题。

以曼恩 - 惠特尼U检验为例。实际上，在曼·惠特尼、威尔克森或古斯塔夫·杜克勒（Gustav Deuchler）出现在现场的三十年以前，这也被称为Wilcoxon U检验，虽然符合博耶定律（数学定理通常不是以创造它们的人的名字命名的）。

不管是谁创造的，两类问题的检验统计量（U）是一个类别的总和减去相同分布情况下的期望值的修正系数。U的值（近似）是正态分布的，与数据的基本分布无关，这就是鲁棒或非参数统计的功率。

在一个与这个完全不同的假想世界里，这些都不重要，因为数据会很好的表现出来。在我们居住的世界里，由于噪音，离群值和异常，这个问题非常重要。

即使在理论上表现良好的数据，如像核光谱学这样的领域中所看到的那样，大数定律也会给我们带来完美的高斯峰形，如背景事件、探测器非线性以及只是简单的怪异干扰了事情。

强大的算法会丢弃信息，在现实世界中，它们经常会丢弃与信号一样多或更多的噪音。所以虽然丢失信号信息会降低方法的统计功效，但是在存在噪声的情况下优雅地降级是非常好的特性，特别是在将方法部署到生产中时。

在学习系统中，即使在我们对纯统计分析不感兴趣的情况下，我们也可以运用稳健性原则。将稳健的估计量输入深度学习者可以保护他们免受不相关的和潜在的误导性信息的影响。大多数学习者希望浮点数在0和1之间，或者在-1和+1之间作为输入，所以对于排名数据，可能需要重新归一化为更适合学习者的规模。

使用鲁棒的输入也是非常棘手的，因为它们的值分布可能相当粗糙，最坏的情况是由较小数量的整数值组成。看到在为这种输入而优化的学习系统上所做的工作，而不是我们的学习者今天倾向于建立的准连续的价值观，这将是有趣的。对于这样粗糙的数据来说，训练变得困难，因为它们将我们试图下降的平滑梯度有效地转变成梯田的山坡，没有什么太多的事情发生，直到输入跨过堤防并猛烈地跳入下一层。

对于所有的局限性，稳健的方法对于数据科学家的方法是一个有价值的补充，当噪声和异常正在为更多的传统工具带来麻烦时应该考虑。

机器学习