AI 技术讲座精选:数据科学的缺陷

业内人士都知道,数据科学有很多缺陷。

模型是未知的

建立机器学习模型的目的是为了应用,而不是理解。

能解释清楚的也只有那些最简单的模型。线性模型第一眼看起来的确是最佳方案,但是在重视准确性的实际生产中,往往不选用此类模型。

你怎么解释树状模型或集成模型背后的原理呢?任何能采集特征交互的模型都是无法解释的。神经网路是由数百万的系数定义的,但是这些系数却不能用来描述神经网络。特征工程甚至也能隐藏未知角落。

我们能从黑箱中逃脱吗?

我从不喜欢把任何东西称为黑箱。我感觉逻辑回归是 k-nn 分类器,同时也是黑箱。k-nn 分类器仅仅是灵敏度分析不那么直接明了。作为一名数据科学家,我所受的培训使我相信支持向量机(SVM)或随机森林是可知的。这是理所当然的吗?

事实上,建立内部可以理解的模型在我看来是一个错误的方向。如今,通过建模理解【1】已被通过特征工程理解取代。我们可以将这表达为“我们信任交叉验证”【2】。

问题是尽管我可以试着使用我在几何学、数学或常识上的直觉改进我的模型,但我从未真正理解为什么这些模型会作出那样的行为。我必须承认所有模型都是黑箱:

之前的模型未采集而改进后的模型能采集的是什么数据?为什么该模型作出这种决定?它是怎样“看待”这些数据的?我还能得到更好的结果吗?我的调节在哪里作用以及为什么会作用?

在模型上做文章没有前景

近几年来,我们看到更加复杂的模型越来越流行【3】。以前是随机森林。现在流行的则是 Boosted Tree。多数人仅仅在缺省下使用 XGBM,他们是正确的,因为这样做简单易行。许多人开始将模型计算出的特征加入常规特征中。并且混合 tSNE 得出的结果【4】。尽管深度学习已有明显特征,仍要从第一天起开始思考它。

这些结果是否得到很大的改进?不见得:我们在这个过程中提升了几个百分点而已。在读过 Kaggle 竞赛获胜者的评论后,我的印象是他们大部分的优势来源于特征【5】、 小心控制过度拟合、集成以及更好的模型。更复杂的模型提供的只是小幅增量的改进。

这并不应该成为意外。数据不合理的有效性超出模型限制,如果不是模型的有用性,只是是它们特有的优势。当下更大的数据集实现了机器学习如今获得的大部分改进。

我们正在错过什么

深度学习在最近几年开始崛起。我们十分幸运,因为通过神经网络提供的简单方法,我们得以了解它们在各层网络学到的内容。通过生成激活上层网络的图像,我们可对实际计算出的结果产生深刻的了解。

神经网络的衍生能力总是能给我们带来惊奇,从“deep dreams”到 由字符生成文本。它们能学习特殊的线性嵌入, 甚至应用于可视化图像分类模型和显著图。

但是,最近在对抗训练、 持续性轻微误差或通用对抗扰动方面的发现表明我们在探究——甚至是基本——模型是如何理解数据方面还有很多未知。

我们需要某些启示来理解模型是如何思考的。

一些研究人员放弃尝试解释模型的“结构”——它们的内部——转而致力于解释它们的“行为”【6】。我在很长一段时间内痴迷于 Ayasdi 的著作:他们利用拓扑数据分析工具解释数据的形状。

我们不久将发表有关模型调试的建议。

模型内部可视化在什么时候成为主流?

我们每年都能有幸获得更好的工具。这看起来熟悉吗?

from sklearn import *

标准化起着很好的推动作用。现在,数据科学家在所有数据平台上都能正常使用所有常见算法。大部分科学家已不再担忧应用的正确性。为了能构建复杂渠道:分散的、实时的……,科学家们正投入大量努力。

但是,用于模型调试的自动工具却并不常见。我们将需要这些工具:

机器学习的力量可没有摩尔定律。

我们将不断获得更多的数据。但是大部分情况下大数据将仍仅仅是未集合数据。“大数据科学”将不会成为灵丹妙药。它甚至可能是一个误导。

我们需要的工具

  • 理解我们模型的失败模式。这仍是最具启发性的调试工具。
  • 便于使用灵敏度分析。
  • 便于使用维数减小可视化。
  • 可以像神经网络那样通过生成(数据、特定类别)样本实现模型内部可视化。
  • 也许使适用于特定算法的可视化工具能轻易获得【7】。

如果您想要了解我们的模型内部可视化项目,请通过:

[1] 历史上,建模通常在获得有实证支持的“发现”上进展缓慢。例如,开普勒(Kepler)曾使用第谷·布拉赫(Tycho Brahe )的天文数据制定他的定律。他的第三定律可能被看作为 一个盲性线性回归的早期成功案例。

[2] 我们的客户和经理认为,我们使用(经常)正式的统计学培训处理统计学上的偶然事件。

[3] 有些技巧可能使你感到惊奇,但是我并不把它们视为复杂技巧。例如,学习如何 用梯度下降法完成梯度下降在我的书中几乎是理所当然的。使用深度卷积对抗生成网络(DCGAN)进行对抗训练是个很好的想法,我很乐意为您解释它“复杂”的细节。对我而言,这种方法符合去参数化的方向。

[4] 使用 tSNE 实际上是个想法,查看例如Kaggle的奥托挑战(Otto challenge on Kaggle)。不要错过学习tSNE的内部

[5] 神经网络的前提不是能够学习特征的层次结构吗?那么对我而言,所有的诀窍,如RNN 魔法等,在这方面都不那么相关。查看深度学习不合理的效率。

[6] 使用视觉分析解释预测性机器学习模型 ——JosuaKrause 等人。

[7] AirBnB 在随机森林解释方面大获成功,他们在研究中成功减小变量。

本文作者 Arthur Flam 是一名企业家,数据科学家,是三星的算法工程师。

本文由 AI100 编译,转载需得到本公众号同意。


编译:AI100

原文链接:https://shapescience.xyz/blog/the-shortcomings-of-data-science/


原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

CV 届的金鸡百花奖:盘点我心中的 CVPR 2018 创意 TOP10

2018 计算机视觉与模式识别会议 (CVPR) 上周在美国盐湖城举行,它是世界计算机视觉领域的顶级会议。今年,CVPR 收到了主要会议论文投稿 3300 份,...

1633
来自专栏机器之心

学界 | 批训练、注意力模型及其声纹分割应用,谷歌三篇论文揭示其声纹识别技术原理

5216
来自专栏大数据文摘

擂台:灵异视频辨真伪

27615
来自专栏EAWorld

拥抱人工智能,从机器学习开始

自“阿尔法狗”(AlphaGo)完胜人类围棋顶尖高手后,有关人工智能(AI)的讨论就从未停歇。工业4.0方兴未艾,人工智能引领的工业5.0时代却已悄然苏醒。人工...

1463
来自专栏机器之心

CoNLL 2018 | 最佳论文揭晓:词嵌入获得的信息远比我们想象中的要多得多

昨日,CoNLL 公布了最佳论文,由来自西班牙巴斯克大学 IXA NLP 组的 Mikel Artetxe 等人获得。该论文展示了词嵌入模型能够捕获不同层面的信...

891
来自专栏华章科技

揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

一个称为「信息瓶颈」的新想法有助于解释当今人工智能算法的黑箱问题——以及人类大脑的工作原理。

953
来自专栏AI科技评论

预热 | 英特尔通过预测变量实现策略性强化学习,夺冠 Doom 游戏竞赛(ICLR 2017)

AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,AI科技评...

3689
来自专栏数据科学与人工智能

【大规模机器学习】从NIPS2014大会看机器学习新趋势

编者按:John Platt是微软的杰出科学家,也是微软在机器学习领域的领军人物。加入微软17年,一直在机器学习领域埋首耕耘。Platt也是SVM最快的加速算法...

2615
来自专栏AI科技评论

学界 | 殊途同归还是渐行渐远?MIT神经科学教授James DiCarlo谈如何通过人类神经理解神经网络

AI 科技评论按:国际计算机视觉与模式识别顶级会议CVPR 2017于 7 月 21 日至7 月 26 日在美国夏威夷召开。我们的记者团也特赴夏威夷为大家带来一...

3369
来自专栏机器学习算法与Python学习

CVPR 2018,盘点我心中的创意 TOP10

2018 计算机视觉与模式识别会议 (CVPR) 上周在美国盐湖城举行,它是世界计算机视觉领域的顶级会议。今年,CVPR 收到了主要会议论文投稿 3300 份,...

1100

扫码关注云+社区

领取腾讯云代金券