专栏首页AI科技大本营的专栏AI 技术讲座精选:数据科学的缺陷

AI 技术讲座精选:数据科学的缺陷

业内人士都知道,数据科学有很多缺陷。

模型是未知的

建立机器学习模型的目的是为了应用,而不是理解。

能解释清楚的也只有那些最简单的模型。线性模型第一眼看起来的确是最佳方案,但是在重视准确性的实际生产中,往往不选用此类模型。

你怎么解释树状模型或集成模型背后的原理呢?任何能采集特征交互的模型都是无法解释的。神经网路是由数百万的系数定义的,但是这些系数却不能用来描述神经网络。特征工程甚至也能隐藏未知角落。

我们能从黑箱中逃脱吗?

我从不喜欢把任何东西称为黑箱。我感觉逻辑回归是 k-nn 分类器,同时也是黑箱。k-nn 分类器仅仅是灵敏度分析不那么直接明了。作为一名数据科学家,我所受的培训使我相信支持向量机(SVM)或随机森林是可知的。这是理所当然的吗?

事实上,建立内部可以理解的模型在我看来是一个错误的方向。如今,通过建模理解【1】已被通过特征工程理解取代。我们可以将这表达为“我们信任交叉验证”【2】。

问题是尽管我可以试着使用我在几何学、数学或常识上的直觉改进我的模型,但我从未真正理解为什么这些模型会作出那样的行为。我必须承认所有模型都是黑箱:

之前的模型未采集而改进后的模型能采集的是什么数据?为什么该模型作出这种决定?它是怎样“看待”这些数据的?我还能得到更好的结果吗?我的调节在哪里作用以及为什么会作用?

在模型上做文章没有前景

近几年来,我们看到更加复杂的模型越来越流行【3】。以前是随机森林。现在流行的则是 Boosted Tree。多数人仅仅在缺省下使用 XGBM,他们是正确的,因为这样做简单易行。许多人开始将模型计算出的特征加入常规特征中。并且混合 tSNE 得出的结果【4】。尽管深度学习已有明显特征,仍要从第一天起开始思考它。

这些结果是否得到很大的改进?不见得:我们在这个过程中提升了几个百分点而已。在读过 Kaggle 竞赛获胜者的评论后,我的印象是他们大部分的优势来源于特征【5】、 小心控制过度拟合、集成以及更好的模型。更复杂的模型提供的只是小幅增量的改进。

这并不应该成为意外。数据不合理的有效性超出模型限制,如果不是模型的有用性,只是是它们特有的优势。当下更大的数据集实现了机器学习如今获得的大部分改进。

我们正在错过什么

深度学习在最近几年开始崛起。我们十分幸运,因为通过神经网络提供的简单方法,我们得以了解它们在各层网络学到的内容。通过生成激活上层网络的图像,我们可对实际计算出的结果产生深刻的了解。

神经网络的衍生能力总是能给我们带来惊奇,从“deep dreams”到 由字符生成文本。它们能学习特殊的线性嵌入, 甚至应用于可视化图像分类模型和显著图。

但是,最近在对抗训练、 持续性轻微误差或通用对抗扰动方面的发现表明我们在探究——甚至是基本——模型是如何理解数据方面还有很多未知。

我们需要某些启示来理解模型是如何思考的。

一些研究人员放弃尝试解释模型的“结构”——它们的内部——转而致力于解释它们的“行为”【6】。我在很长一段时间内痴迷于 Ayasdi 的著作:他们利用拓扑数据分析工具解释数据的形状。

我们不久将发表有关模型调试的建议。

模型内部可视化在什么时候成为主流?

我们每年都能有幸获得更好的工具。这看起来熟悉吗?

from sklearn import *

标准化起着很好的推动作用。现在,数据科学家在所有数据平台上都能正常使用所有常见算法。大部分科学家已不再担忧应用的正确性。为了能构建复杂渠道:分散的、实时的……,科学家们正投入大量努力。

但是,用于模型调试的自动工具却并不常见。我们将需要这些工具:

机器学习的力量可没有摩尔定律。

我们将不断获得更多的数据。但是大部分情况下大数据将仍仅仅是未集合数据。“大数据科学”将不会成为灵丹妙药。它甚至可能是一个误导。

我们需要的工具

  • 理解我们模型的失败模式。这仍是最具启发性的调试工具。
  • 便于使用灵敏度分析。
  • 便于使用维数减小可视化。
  • 可以像神经网络那样通过生成(数据、特定类别)样本实现模型内部可视化。
  • 也许使适用于特定算法的可视化工具能轻易获得【7】。

如果您想要了解我们的模型内部可视化项目,请通过:

[1] 历史上,建模通常在获得有实证支持的“发现”上进展缓慢。例如,开普勒(Kepler)曾使用第谷·布拉赫(Tycho Brahe )的天文数据制定他的定律。他的第三定律可能被看作为 一个盲性线性回归的早期成功案例。

[2] 我们的客户和经理认为,我们使用(经常)正式的统计学培训处理统计学上的偶然事件。

[3] 有些技巧可能使你感到惊奇,但是我并不把它们视为复杂技巧。例如,学习如何 用梯度下降法完成梯度下降在我的书中几乎是理所当然的。使用深度卷积对抗生成网络(DCGAN)进行对抗训练是个很好的想法,我很乐意为您解释它“复杂”的细节。对我而言,这种方法符合去参数化的方向。

[4] 使用 tSNE 实际上是个想法,查看例如Kaggle的奥托挑战(Otto challenge on Kaggle)。不要错过学习tSNE的内部

[5] 神经网络的前提不是能够学习特征的层次结构吗?那么对我而言,所有的诀窍,如RNN 魔法等,在这方面都不那么相关。查看深度学习不合理的效率。

[6] 使用视觉分析解释预测性机器学习模型 ——JosuaKrause 等人。

[7] AirBnB 在随机森林解释方面大获成功,他们在研究中成功减小变量。

本文作者 Arthur Flam 是一名企业家,数据科学家,是三星的算法工程师。

本文由 AI100 编译,转载需得到本公众号同意。


编译:AI100

原文链接:https://shapescience.xyz/blog/the-shortcomings-of-data-science/


本文分享自微信公众号 - AI科技大本营(rgznai100)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 华为发力AI,到底瞄准的是何方?答:云侧、手机、芯片,协同并进才是正经事!

    我们知道,智能手机行业,苹果、Google都在积极布局人工智能。而身为国内领头羊的华为,却很少显山露水。 大家一定很好奇,华为是怎么来理解人工智能的? 今天...

    AI科技大本营
  • 降低预测过程计算成本,这些NLP模型压缩方法要知道

    近年来,基于谷歌Transformer的语言模型在神经机器翻译,自然语言推理和其他自然语言理解任务上取得了长足进展。

    AI科技大本营
  • 乘风破浪的PTM:两年来预训练模型的技术进展

    Bert模型自18年10月推出,到目前为止快两年了。它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PTM)与应用...

    AI科技大本营
  • 生成式模型 vs 判别式模型

    生成式模型和判别式模型的概念是机器学习领域非常重要的基础知识,但能准确区分开二者并不是一件非常容易的事情,笔者经常是看一遍忘一遍,为了巩固下知识点,我将从以下几...

    Datawhale
  • 一个完整的机器学习项目在Python中的演练(三)

    磐创AI
  • 华为发力AI,到底瞄准的是何方?答:云侧、手机、芯片,协同并进才是正经事!

    我们知道,智能手机行业,苹果、Google都在积极布局人工智能。而身为国内领头羊的华为,却很少显山露水。 大家一定很好奇,华为是怎么来理解人工智能的? 今天...

    AI科技大本营
  • Scikit-Learn 与 TensorFlow 机器学习实用指南学习笔记2 — 机器学习的主要挑战

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

    红色石头
  • 图灵奖得主 LeCun 用来怼 Google 的乳腺癌 AI 论文,有何过人之处?

    LeCun怼谷歌是有底气的,毕竟这篇3个月前就发表的论文,比现在的谷歌模型准确率还要高出10%。

    AI掘金志
  • 使用神经网络驱动的基于模型的强化学习

    图1.经过学习的神经网络动态模型能使一个六足机器人学会遵循既定的轨迹运行,并且只需要17分钟的实际经验。

    五条
  • 降低预测过程计算成本,这些NLP模型压缩方法要知道

    近年来,基于谷歌Transformer的语言模型在神经机器翻译,自然语言推理和其他自然语言理解任务上取得了长足进展。

    AI科技大本营

扫码关注云+社区

领取腾讯云代金券