专栏首页机器学习的稳健算法

机器学习的稳健算法

机器学习通常被认为是解决困难问题的一个魔法解决方案,它将使我们从单纯的人类中解脱出来。但事实上,对于数据科学家和机器学习工程师来说,有很多问题比带有限规则集的图像或棋盘游戏中的简单对象识别要困难得多。

对于大多数问题,有多种方法可以帮助您减少噪音和异常情况,因此您可以专注于更易处理的事情。一种方法是设计出测试误差与训练误差一或者在向数据集添加噪声之后性能稳定的稳健算法。

任何传统(非贝叶斯)统计检验的想法都是一样的:我们从数据中计算一个数字(称为“统计量”),并使用该数字的已知分布来回答这个问题:“这种偶然发生的几率是多少?“ 这个数字是p值。

这种方法的问题在于该数字的“已知分布”取决于数据的分布。这种依赖性可能是温和的,如学生的t检验或F检验的情况,也可能非常严重,使得这个价值在统计上毫无意义。皮尔逊的“r”(在线性回归问题中表现为r平方)属于后一类,因为它对数据的基本分布非常敏感,在大多数实际情况下它不能转化为有意义的p值。因此,即使传统的统计分析标准相当宽松,也几乎没有用。例如,用“r”作为低对比度图像配准相似性度量,可以产生意味着0.998的“接近统一”和意味着0.98的“远距离统一”,并且由于所涉及的像素值的极非高斯分布,所以无法计算p值。

这种统计有时被称为“参数”统计,因为它们依赖于基础分布的参数。例如,学生的t检验取决于具有相同方差的被比较的分布。

稳健统计也称为非参数,因为基础数据几乎可以有任何分布,并且仍然会产生一个可以与p值关联的数字。

诀窍是找到一个不依赖于底层分布细节的数据属性。特别是将基数数据转换为序数,可以让我们提出一些非常有力的问题。

以曼恩 - 惠特尼U检验为例。实际上,在曼·惠特尼、威尔克森或古斯塔夫·杜克勒(Gustav Deuchler)出现在现场的三十年以前,这也被称为Wilcoxon U检验,虽然符合博耶定律(数学定理通常不是以创造它们的人的名字命名的)。

不管是谁创造的,两类问题的检验统计量(U)是一个类别的总和减去相同分布情况下的期望值的修正系数。U的值(近似)是正态分布的,与数据的基本分布无关,这就是鲁棒或非参数统计的功率。

在一个与这个完全不同的假想世界里,这些都不重要,因为数据会很好的表现出来。在我们居住的世界里,由于噪音,离群值和异常,这个问题非常重要。

即使在理论上表现良好的数据,如像核光谱学这样的领域中所看到的那样,大数定律也会给我们带来完美的高斯峰形,如背景事件、探测器非线性以及只是简单的怪异干扰了事情。

强大的算法会丢弃信息,在现实世界中,它们经常会丢弃与信号一样多或更多的噪音。所以虽然丢失信号信息会降低方法的统计功效,但是在存在噪声的情况下优雅地降级是非常好的特性,特别是在将方法部署到生产中时。

在学习系统中,即使在我们对纯统计分析不感兴趣的情况下,我们也可以运用稳健性原则。将稳健的估计量输入深度学习者可以保护他们免受不相关的和潜在的误导性信息的影响。大多数学习者希望浮点数在0和1之间,或者在-1和+1之间作为输入,所以对于排名数据,可能需要重新归一化为更适合学习者的规模。

使用鲁棒的输入也是非常棘手的,因为它们的值分布可能相当粗糙,最坏的情况是由较小数量的整数值组成。看到在为这种输入而优化的学习系统上所做的工作,而不是我们的学习者今天倾向于建立的准连续的价值观,这将是有趣的。对于这样粗糙的数据来说,训练变得困难,因为它们将我们试图下降的平滑梯度有效地转变成梯田的山坡,没有什么太多的事情发生,直到输入跨过堤防并猛烈地跳入下一层。

对于所有的局限性,稳健的方法对于数据科学家的方法是一个有价值的补充,当噪声和异常正在为更多的传统工具带来麻烦时应该考虑。

本文的版权归 FLYMOTH 所有,如需转载请联系作者。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 将Spring Boot应用程序部署到Bluemix

    在之前的博客文章中,我介绍了如何通过Swagger在Spring Boot应用程序中记录REST API。下面我将介绍如何将这些应用程序作为Docker容器部署...

    FLYMOTH
  • 机器学习法则:(谷歌)机器学习工程最佳实践

    机器学习(ML)最优实践方法,浓缩了其多年技术积累与经验,尤其是YouTube、Google Play和Google+ 等平台背后的ML算法开发、维护经历。谷歌...

    机器学习AI算法工程
  • 特征工程的黑色艺术

    想象一下,当今社会备受瞩目的人工智能和数据挖掘算法工程师每天大部分时间都在做什么呢?是花大量时间手推公式,还是思考各种trick对算法调参,还是一遍遍清洗数据和...

    小萌哥
  • 喜讯 | 用DevOps理念改变运维行业的优维科技再获B1轮数千万级融资

    2018年7月,国内领先的一站式DevOps及运维解决方案提供商优维科技(UWinTech)完成数千万级人民币的B1轮融资,本轮融资由斯道资本领投,老股东祥峰资...

    赵成
  • Nature:读博体验逐年下降,1/3博士表示焦虑抑郁

    在Nature的第五次博士调查中,他们收集了超过6300位生涯早期研究者的自报告数据,这是规模最大的一次。

    大数据文摘
  • 【机器学习】特征工程

    作者:JasonDing1354 引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,...

    陆勤_数据人网
  • 十问机器学习

    本文中的问题精选自上期【你问我答】——深度学习专题中读者的提问。【你问我答】是由美团点评技术团队推出的线上问答服务,你在工作学习中遇到的各种技术问题,都可以通过...

    美团技术团队
  • Java虚拟机--虚拟机发展史

    贾博岩
  • (cljs/run-at (->JSVM :browser) "语言基础")

    前言  两年多前知道cljs的存在时十分兴奋,但因为工作中根本用不上,国内也没有专门的职位于是搁置了对其的探索。而近一两年来又刮起了函数式编程的风潮,恰逢有幸主...

    ^_^肥仔John
  • 前沿 | DeepMind于Nature子刊发文提出非对称博弈的降维方法

    机器之心

扫码关注云+社区

领取腾讯云代金券