微软数据科学负责人:数据不是现实,“数据驱动”会导致很多问题

编者按:数据已经成为我们个人生活、业务和工作中越来越重要的一个部分。那些需要花时间解决棘手问题的人将依靠数据来帮助他们理解这个世界,并有所创新。本文作者 Bill Pardi  负责微软数据科学方面工作,他提出数据不应该是驱动我们,数据只是来自更广阔世界的一个信号,我们利用这一信号来回答问题,并提出新的问题。见解必须是来自于我们人类。他在本文中探讨了为什么将数据作为驱动力依赖并不是一个好主意的原因,同时就如何将信息转化为创意提出了三点建议。

任何数据都没有什么内在价值,因为所有的信息自身都毫无意义。为什么这么说?因为信息不会告诉你该怎么做。 — Beau Lotto

我是坐在办公室大楼二楼的一个小会议室里来写的这篇文章。窗外能看到一楼的露天庭院,庭院里有一些桌椅,植被景观能看到精心修剪的痕迹。外面阳光明媚,看上去是美妙的一天。那根据这些数据,我应该去户外工作吗?你可以先想一下你的答案,我们稍后再探讨这个问题。

如果你是一名设计师、工程师或者是任何创建产品的岗位,你可能听过很多关于“大数据”和“数据驱动”的内容。这些内容似乎让人产生这样一种感觉:数据等同于洞察力和方向,但事实确实如此吗?数据,无论是什么数据,无论是多少数量的数据都存在一定的问题,这也使得单纯依赖数据是非常危险的一件事情。毕竟数据只是信息,数据代表不了客观现实。再者,无论你拥有什么数据,它永远不可能是完整的。而且即便获得更多的数据也并不一定就意味着所得出的规律和结论更为确凿。下面让我们来详细探讨这个问题。

数据不是现实

人类善于根据自己的背景和经历去作出决定,但是我们却很难超越这些的束缚,看到其他的可能性。下图就是一个例子,你可以大声读出图中的句子:

如果你读的是“你在读什么?(What are you reading now?)”那你可能就同本文许多的英文读者一样,对这“数据”做出了相同的解释。即便这句话中并没有一个完整的单词,但你也做出了自己的解释。你可以根据这篇文章的语境和你对英语语言的掌握,添加上空缺的单词,形成一句能表意的话。还要注意的一点是,因为我前文说了让你“读”出这个句子,所以你透过不完整的单词会看到隐藏的“读”。这种启动有助于形成相应的结果,也就是类似启动效应(由于之前受某一刺激的影响而使得之后对同一刺激的知觉和加工变得容易的心理现象)。当然,并不是每一个人读出的都是这句话。如果你正在吃东西或者正坐在一家餐厅里,那你更有可能会读出的是,“你在吃什么?(What are you eating now?)”而对于不懂英文的人来说,图中的内容就是它们单纯呈现出来的样子,没有什么意义。从这就能看出,我们会如何处理数据在很大程度上受到个人背景经历和情境化的高度影响。有时候,我们会出于同样的经历和情境得出相同的结论,但有时候,对于完全相同的数据,我们也能得出不同的结论。

所有的数据都缺少一些东西

无论是大数据,还是小数据,无一例外。所有的数据在一定程度上都是不完整的。便于理解,你可以想象这样一种场景,你必须要创建一款软件产品,并且你认为最佳方式就是先创建一个目标客户的档案。你的期望是,这个档案将为你提供一些洞察力,让你了解该去创建些什么东西。你从收集的数据中创建起了一个名为 Linda 的“角色”。

Linda 是:

一位女士

31岁

单身

心直口快

聪明

哲学专业

非常关注歧视和社会正义问题

学生时期参加过反核游行示威

虽然这些数据从个人资料角度看有用,但应该没人会将这些看作是一个人的完整视图,更不必说是一个群体了。那根据给出的这些数据,你认为 Linda 更有可能是下列哪种情景?

Linda 是一名银行出纳员

Linda 是一名积极维护女性权利的银行出纳员

面对这一问题,有 80% 的人会说情景 2 更有可能。但是这种回答违反了概率逻辑。如果问题是哪个更有可能,那在情景 1 与情景 2 之间选择答案必须是情景 1,因为银行出纳员这一集合包含了女权主义银行出纳员,但反之却并非如此。所以,Linda 更有可能是银行出纳员,而不是女权主义银行出纳员。我们为什么会犯这种错误?抛开行为心理学不谈,最基本的原因可能在于情景 2 讲述了一个更好的故事,所以我们会更喜欢这个选项。换句话说,这个数据集中缺失了很多内容,所以我们的大脑会自动提取出信息,填补缺失的部分。其中一种明显的特异性信息能够让我们构建起一个似乎最说得过去的故事,但逻辑事实却恰恰相反。在这种情况下,大多数人会忽略一个明显的逻辑错误,而只是想象出关于 Linda 的更多数据,例如她的穿着打扮,在哪里住,与谁交往等等,而这些想象出来的数据也会引导你去创建一个更加完整的 Linda 资料库。但其实,这个资料库总是缺失一些信息,并且可能在提供给你真正的客户究竟需要什么样的产品这一问题的答案参考时完全错误。

数据更多,但清晰度更低?

数据本身也有可能会对我们找到创造性解决方案的能力产生负面影响,即便是最简单的问题。德国心理学家 Karl Duncker 设计的一个非常经典的实验便能证明这一点:受试者需要将蜡烛粘贴到墙(软木板)上,并且点燃蜡烛后,蜡油不能直接滴到正下方的桌子上。

道具除蜡烛之外,还包括:

一盒图钉

一盒火柴

有想法了吗?让我来为你提供更多的数据,可以称之为这一问题的“大数据”版本,看看是否对你有所帮助:

这个实验,名为“蜡烛实验”(Duncker’s candle problem),已经在世界各地就不同主题方面进行了测试,虽然产生了许多有创意的想法,但大多数想法却无法解决问题。也有少数解决方案非常复杂,效率非常低下的解决方案。

最好、也是最简单的解决方案是将图钉从盒子中倒出,将盒子用图钉固定在墙上,然后让蜡烛站在盒子里。非常简单,对吧?但这个方法并不是大多数人想出来的方法,至少不是马上就想出来的方法。这个问题的描述信息非常有限,外加的一副图片似乎也没有提供更多的帮助,甚至还可能降低受试者找到解决方案的能力。为什么这么说?首先,问题的表述是我们必须要把蜡烛粘到墙上,同时我们又有一个事先就形成的观点,那就是图钉是用来把东西粘到墙上的。此外,无论是说明,还是图片,展示出来的都是盒子是装图钉的容器。这些描述就导致大多数人对于这些对象产生了不容易克服的偏见,他们很难再看到这些道具其它的使用方式。

多年来,研究人员尝试了不同的方法,想要提高受试者解决问题的机会,让他们更快的找到解决方案。其中,改变可用道具的描述方式是一种有效的方法之一:

一盒火柴

一个盒子

图钉

相应地,图片也换成如下的样子:

这些变化非常微妙,但其实很重要,因为它会带来很大的变化,提高受试者找到解决方案的机会,或者是能让他们更快地找到解决方案。本质上来说,它提高了创造力。原因何在?第二种描述和图片有助于消除上文所提到的那种偏见,并且能让我们更清楚地看到这个盒子可以用作承载蜡烛的架子。相比一盒图钉来说,将盒子和图钉分开放是一种完全不同的数据传达方式。

从这我们可看出,数据本身其实是毫无意义的,更糟糕的是,这些数据还有可能产生误导性。大多数情况下,对于该怎么去做你只能从数据中获取很少的信息,甚至一点都获取不到。但不幸的是,许多专业人士对待数据却不是这个样子。我经常听到同事在讨论设计或业务决策的时候,会问“数据让我们去做些什么?”真正的答案是:数据没有那么大的神通。

如果我们的讨论就此打住,那对于日渐看重数据的未来来说可能不太好,但在数据方面,也并不是毫无对策。这里有三种数据处理的方法,能够丰富你的创造力,并且可以让你十分有效的利用所获得的信息。

1、发挥创造力—提问和实验

我所在的公司创建的产品用户数大约是 5 亿人,我负责公司的数据科学团队,关于获取与业务相关的数据要求也越来越多。根据我的经验,在数据处理过程中有一个关键的因素,这个因素会让我们手头掌握的所有数据以及未来将会继续收集的数据,有用。这个部分就是你和你的创造力。

只有在我们期望从数据中获得客观真相,不受我们的观念和设想影响,并且能做到用创造力来超越观念和设想的束缚时,数据才有意义。在这里我所说的创造力是指提问和试验的过程。创造力能够让我们真正理解我们所拥有的数据,质疑我们自己由数据得出的初始假设,并且进行实验,直到我们得到有用的信息为止。本文标题是不要被数据所驱动,“驱动”是其中的关键词。

这也就是说,我们应该将数据看作是信息,而不是见解。换言之,问题不在于原料,在厨师。只有原料无法成就一桌大餐(至少,不是一桌美味佳肴)。即便是最优秀的食谱,如果没有厨师的大量试验,没有经过失败的尝试,恐怕也无法成就这一桌美食。同样,对于数据领域来说,人力部分才是最有价值的一环,对于我们处于创造性或者创新领域的人来说尤其如此。对于能够支持真正的创造性或创新性成果的数据,我们必须从中提炼事实,通过提出问题,并尝试用“临近可能”(adjacent possible)原则来发掘原始数据没有展现出来的见解和潜力。这样做的原因如下:

实验会出现很多可能性

实验者期望,甚至欢迎失败和不确定性情况的存在

实验流程可以改变,为有所发现而适时调整

实验是一个冷冰冰的词汇,但你也可以利用实验来探索,甚至把它当作是一个游戏。实验支持的结果不受先入为主、事先假设的看法影响,并且会探索出诸多的可能性。要做到这一点,我们必须首先要让自己清楚,“成功”的到来会有很多形式,或者根本没有形式。这就意味着,当你根据食谱即兴发挥的时候,你可能完全做不出一个像样的菜,也或者你可能会发明出一种新的美食。

2、提出问题,能想到的所有问题

实验和游戏是探索新的可能性的两条途径。将探索付诸实践的最好方法是从问题开始。为了将上述的一些想法付诸实践,我们再回到蜡烛问题,来看一下你可能会如何处理数据,如何对其提出质疑来找到新的可能性。举例来说,看到蜡烛、墙壁、盒子和图钉,我可能会提出以下几个问题:

如果我从列表中删除一项道具会怎样,那样会对我有所帮助吗?

如果我把所有的东西都翻转倒置,会有什么不同?

如果我把火柴盒里的所有火柴都拿出来,会有什么发现?

如果我把图钉从盒子里拿出来会有什么发现?

如果我尝试用图钉把所有的东西都固定到墙上会怎样?

这只是一小组问题,关于蜡烛问题实验数据,我可能会提出一大堆的问题。我们可以看到,上述列表中最后两个问题已经开始趋近一个可能的解决方案,因为我已经改变了盒子只是用于装大头针,而只用大头针去实现预期目标这一想法。这可以说是在试图发现蜡烛问题解决方案的思考过程中一个神奇的转变。这也是我独自一人可以实现的转变,当有更多的人一起参与时,还会有更多这样的神奇时刻。

3、包容性思考

我上文曾提到过“临近可能”这一词。对于我们大多数人来说,我们的创造力并不能探索出所有可能的结果,而只是其中一小部分可能性结果,因为这会受到我们自己的经历、偏见和观点的限制。我们的大脑就是这样发展演变的,当我们需要对于未来(短期或长期)的问题做出决策时,我们会根据我们的生活创造记忆,并从这些记忆或者“经历”中提取内容。也正是因为如此,我们对于数据才有不同的解释方式。我们只能从自己的储备库中去提取,而每个人的经历及储备都各有不同。一个人的经历越是多元化,他所能得到的临近可能性就更多,但是可能性的数量仍然有限,因为一个人的大脑只能承载这么多。

进入多元化团队。团队成员背景、观点、文化、教育以及专业技能越是多元化,对于任何给定的问题或者信息也就能得到更加多元化的临近可能。与其说数据能够驱动创造力,倒不如说数据能够赋予不同的观念、想法和问题各种不同的机会。一个团队的成员越是同类化,效率可能就越高,但可以肯定的是,他们的创造力会更低,而在解决难题时,团队所迫切需要的正是创造力。

虽然多元化并不是什么灵丹妙药,并且要求团队成员必须有走出舒适区,接受差异的主观意愿,但多元化团队通常比同类化团队更加聪明。

总结

数据正在成为我们个人生活、业务和工作中越来越重要的一个部分。那些需要花时间解决棘手问题的人将依靠数据来帮助他们理解这个世界,并有所创新。但数据不应该驱动我们,数据只是来自更广阔世界的一个信号,我们利用这一信号来回答问题,并提出新的问题。见解必须是来自于我们人类。

在本文中,我们探讨了为什么将数据作为驱动力依赖并不是一个好主意的原因,同时我们也探讨了如何将信息转化为创意:

承认我们,以及与我们共事的人,在处理数据时,会受自己的经历或经验影响,让我们的判断力发生偏差。

通过问题来对数据进行实验和探索。

对于问题要带来尽可能多不同的看法和独特的观点,产生尽可能多的“临近可能”。

因此,如果你以后遇到“数据驱动”的情况时,请执行以下操作:不要寻找数据提供的答案,寻找数据产生的问题。

回到文章最开始的那个问题,我是否决定要去庭院里工作?我想,有一个重要的数据我没有提。我位于太平洋西北部,而现在正值早春。虽然阳光很诱人,但我做决定之前会想知道外边会有多冷,这绝对是一个值得提出的问题。

编译组出品。编辑:郝鹏程

本文来自企鹅号 - 36氪媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏灯塔大数据

数据分析的5个坑,你踩过几个?

数据虽然客观,有时也是会骗人的。在与数据打交道的过程中,我们可能经常会犯一些错误,导致分析的结论出现较大的偏颇。因此,在做数据分析时,我们需要警惕这5个常见误区...

3267
来自专栏申龙斌的程序人生

读书笔记:新生--七年就是一辈子

有关GTD的文章主要都是上周休假时准备的,可惜微信上每天只让群发一条,这周有关GTD的文章更新放慢,先把博客上的一篇笔记放出来。 看到微信公众号(周叶的再别康桥...

3578
来自专栏华章科技

译见:从无处看世界:大数据的文化意识形态

“无论什么历史年代里,科学的走向取决于我们如何理解科学”—SandraHarding,《谁的科学?谁的知识?》(1991)

673
来自专栏腾讯社交用户体验设计

新互动儿童教育品牌设定

1042
来自专栏PPV课数据科学社区

吐槽版评《大数据时代》一点笔记和一些琐碎的感想

? 我觉得维克多的“相关关系比因果关系更重要”指的应该是以数据预测为目的的时候,不应该过于看重去通过找寻数据产生的关联性的原因然后去推测规律,而是直接把相关性...

2405
来自专栏大数据文摘

大数据搜索与挖掘:知著-见微-晓意【大数据100分】

2687
来自专栏数据科学与人工智能

【应用】信用评分卡:简介

这次事件发生在2009年左右的一个朋友聚会上,这是该地球长期以来最严重的金融危机。街上的乔意识到抵押支持证券(MBS),次级贷款和信贷危机等因素是他困境原因。 ...

672
来自专栏华章科技

大数据:更多的数据还是更好的算法?

我知道很多人自始至终都认为数据是越多越好,Google甚至直言:更多的数据胜过更好的算法,而过去很多侦探剧中崇尚“信息越多,就越靠近真相”的刑侦金句也似乎佐证这...

450
来自专栏DT数据侠

有了这些创意美学,城市数据的趣味性超乎你的想象

你访问过政府开放数据网站吗?虽然开放的数据越来越多,但“可用性有待改善”仍是不少公众对这类网站的共同看法。如何才能让开放数据更好用,并打通公共数据到普通公众的“...

750
来自专栏人工智能

日益复杂的路径选择算法下将你的快递送到家

如果你现在需要亲手寄送20个快递包裹,你将如何计划最佳的投递路线?

19410

扫码关注云+社区