TED演讲 | 盲目信仰大数据的时代必须结束

编者按:这几天看到某公号转发的一篇文章《大数据将“误导”产业发展》,标题震撼但内容苍白。同样是讨论大数据不完美的一面,国外学者则提供了更丰富的案例。数据科学家凯西•奥尼尔不久撰写一本著作,名为“数字破坏武器:大数据如何增加不平等和威胁民主”。她担心的是,在急于利用大数据的情况下,可能会因为内置偏差使得结论不准确,并且可能具有相当的破坏性。她与高级技术编辑瓦勒瑞•斯威特一起探讨数据科学领域的偏见,以及为什么企业需要制定数据科学伦理政策。希望大家能通过凯西•奥尼尔在TED上的演讲了解关于大数据和算法另外的一面。

注:为方便阅读,编者另标注了小标题。

正文:

算法无处不在

算法无处不在。他们把成功者和失败者分开来。成功者得到工作或是一个很好的信用卡优惠计划,失败者甚至连面试机会都没有,或者要为保险付更多的钱。我们被不理解的秘密公式打分,却并没有上诉的渠道。这引出了一个问题:如果算法是错误的怎么办?

构建一个算法需要两个要素:数据和成功的定义(注:指算法的正确性是如何定义)。你可以通过观察,理解来训练算法。这种算法能找出与成功相关的因素。什么意味着成功?其实,每个人都使用算法。他们只是没有把它们写成书面代码,举个例子,我每天都用一种算法来为我的家人做饭。我使用的数据就是我厨房里的原料,我拥有的时间,我的热情,然后我整理了这些数据。我不把那种小包拉面算作食物。我对成功的定义是:如果我的孩子们肯吃蔬菜,这顿饭就是成功的。这和我最小的儿子负责做饭的情况有所不同。他说,如果他能吃很多nutella巧克力榛子酱就是成功。但我可以选择成功的标准和定义,我的意见就很重要,这就是算法的第一个规则。

算法可能会出错

我认为算法只不过是嵌入在代码中的观点。这和你认为大多数人对算法的看法是不同的,他们认为算法是客观的、真实和科学的,但那只是一种营销技巧,是一种用算法来恐吓你的营销手段,目的是为了让你信任和恐惧算法,因为你信任并害怕数学。当我们盲目信任大数据时,很多人都可能犯错。

这是凯丽.索尔斯,她是布鲁克林的一名高中校长。2011年,她告诉我,她学校的老师们正在被一个复杂并且隐秘的算法进行打分,这个算法被称为“增值模型”。我告诉她,“先弄清楚这个公式是什么,然后给我看看,我来给你解释一下。”她说,“我寻求过这个公式,但是教育部的负责人告诉我这是数学,给我也看不懂。” 更糟的还在后面,纽约邮报提出了“信息自由法”的要求,来得到所有老师的名字与他们的分数,并且他们以羞辱老师的方式发表了这些数据。当我试图用同样的方法来获取公式、源代码的时候,我被告知我没有权力这么做,我被拒绝了。后来我发现,纽约市压根儿没有人能接触到这个公式,没有人能看懂,然后,一个非常聪明的人参与了,加里.鲁宾斯坦,他从纽约邮报的数据中找到了665名教师,实际上他们只有两个分数,如果他们都是教七年级与八年级的数学,就会得到两个评分,他决定把这些数据绘成图表,每个点代表一个教师,这个图就是下面这个样子:

偶滴神,这是什么图?我认为它永远不应该被用于个人评估,它几乎是一个随机数生成器,但它确实被使用了。

这是莎拉.维索斯基,她连同另外205名教师被解雇了,都是来自华盛顿特区的学区,尽管她的校长还有学生的,父母都非常推荐她。我知道你们很多人在想什么,尤其是这里的数据科学家,人工智能专家,做饭在想“我可永远不会做出这样前后矛盾的算法。”但是算法可能会出错,即使有良好的意图,也会产生毁灭性的影响。每个人都能看到一架设计的很糟糕的飞机会坠毁在地,而一个设计糟糕的算法,可能持续很长一段时间,并无声地造成破坏。

这是罗杰.艾尔斯,他在1996年创办了福克斯新闻,公司有超过20多名女性曾抱怨过性骚扰, 她们说她们不被允许在福克斯新闻有所成就。他去年被赶下台,但我们最近看到,问题依然存在。这引出一个问题:福克斯新闻应该做些什么改变?如果他们用机器学习算法取代传统的招聘流程呢?听起来不错,对吧?想想看,数据,这些数据到底是什么?福克斯新闻在过去21年的申请函是一个合理的选择。很合理。那么成功的定义呢?合理的选择将是谁在福克斯新闻取得了成功?我猜的是,比如在那里呆了四年,至少得到过一次晋升的人。听起来很合理,然后这个算法将会被训练,它会被训练去向人们学习是什么造就了成功。现在想想如果我们把它应用到目前的申请者中会发生什么。它会过滤掉女性,因为她们看起来不像在过去取得成功的人。算法不会让事情变得公平,如果你中介轻率地,盲目地应用算法,它们不会让事情变得公平。它们只是重复我们过去的做法,我们的规律,它们使现状自动化。如果我们有一个完美的世界那就太好了,但是我们没有。

偏见可以被注入到算法中

我们都有偏见,这意味着他们可以编纂性别歧视或者任何其它的偏见。可以做一个思维实验:一个完全隔离的社会---种族隔离存在于所有的城镇,所有的社区,我们把警察只送到少数族裔的社区去寻找犯罪。毫无疑问这种情况下,逮捕数据将会是十分有偏见的。此时如果我们寻找数据科学家并付钱给他们来预测下一起犯罪会发生在哪里,毫无疑问结果将会是少数族裔的社区。亦或者预测下一个罪犯是谁?结果也会是少数族裔。这些数据科学家们会吹嘘他们的模型有多好,多准确,当然他们有可能是对的,不过现实并没有那么理想。我们有大量的证据表明警察和司法系统的数据存有偏见,例子如下:

新闻机构“人民(propublica)调查了一个称为“累犯风险“的算法。这个算法在佛罗里达州的写着期间被法官采用。伯纲德,左边的那个黑人,10分中得了满分;右边迪伦,10分中得了3分。10分代表高风险,3分代表低风险,但事实是他们都因为持有毒品而被带进了监狱,他们都有犯罪记录,迪伦曾有一个重罪,伯纳德没有。为什么会发生结果会出现偏差?我将它定义未:数据洗钱,这是一个技术人员把丑陋真相隐藏在算法黑盒子中的过程 ,并称之为客观,称之为精英模式。当它们是秘密的,重要的并具有破坏性的,我为这些算法创造了一个术语:”杀伤性数学武器“。它们无处不在,也不是一个错误,这些是私有公司为了私人目的建立的私有算法。

我上述谈到的教师与公共警察使用的(算法),也都是由私人公司所打造的,然后卖给政府机构。他们称之为”秘密配方(来源)“---这就是他们不能告诉我们的原因。这也是私人权力。他们利用神秘莫测的权威来获利,你可能会想,既然所有这些都是私有的,而且会有竞争,也许自由市场会解决这个问题。然而并不会。在不公平的情况下,有很多钱可以赚,而且,我们不是经济理性的代理人,我们都是有偏见的。我们都是固执的种族主义者,虽然我们希望我们不是,虽然我们甚至没有意识到。

总的来说,我们知道这一点,因为社会学家会一直通过这些实验来证明这一点,他们发送了大量的工作申请,都是有同样资格的候选人,有些用白人人名,有些用黑人人名,然而结果总是令人失望的。所以我们是有偏见的,我们还通过选择收集到的数据来把偏见注入到算法中,就像我们不选择去想拉面一样---我自认为这无关紧要。但是,通过信任那些在过去的实践中获得的数据以及通过选择成功的定义,我们怎么能指望算法会是毫无瑕疵的呢?我们不能,我们必须检查。我们必须检查它们是否公平,好消息是,我们可以做到这一点。

算法应该被审计

算法是可以被审问的,而且每次都能告诉我们真相。然后我们可以修复它们,我们可以让他们变得更好。我把它叫做算法审计,接下来我会为你们解释。

首先,数据的完整性检查。对于刚才提到过的累犯风险算法,数据的完整性检查将意味着我们不得不接受这个事实,在美国,白人和黑人吸毒的比例是一样的,但是黑人更有可能被逮捕---取决于区域,可能性是白人的4到5倍。这种偏见在其他犯罪类别中是什么样子的,我们又该如何解释呢?其次,我们应该考虑成功的定义,审计它。还记得我们谈论的雇佣算法吗?那个呆了四年的人,然后被提升一次?这的确是一个成功的员工,但这也是一名受到公司文化员工。也就是说,这可能会有很大的偏差。我们需要把这两件事分开。我们应该去看一下乐团盲选试奏,举个例子,这就是人们在幕后选拔乐手的地方,我想要考虑的是倾听的人已经决定了什么是重要的,同时他们已经决定了什么是不重要的,他们也不会因此而分心。当乐园盲选开始时,在管弦乐队中,女性的数量上升了5倍。

其次,我们必须考虑准确性。这就是针对教师的增值模型立刻失效的地方,当然,没有一个算法是完美的,所以我们要考虑每一个算法的误差。出现错误的频率有多高,让这个模型失败的对象是谁?失败的代价是什么?

算法创造者的责任

最后,我们必须考虑这个算法的长期的效果,与正在产生的反馈循环。这听起来很抽象,但是想象一下如果脸书的工程师们之前考虑过,并决定只向我们展示我们朋友所发布的东西。

我还有两条建议,一条是给数据科学家的,数据科学家们:我们不应该成为真相的仲裁者。我们应该成为大社会中所发生的道德讨论的翻译者。然后剩下的人,非数据科学家们:这不是一个数学测试,这是一场政治斗争,我们应该要求我们的算法霸主承担问责。盲目信仰大数据的时候必须结束 ,非常感谢。

以下是作者TED视频:

视频内容

翻译:网易公开课

编辑和整理:PPV课数据科学社区

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-10-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

清华马少平教授详解:人工智能能做什么?

原文刊载于 明略数据(Minglamp_BigData) 量子位 | QbitAI 已获授权编辑转载 这是7月下旬,马少平老师在明略数据内部做的一个分享,基于此...

39260
来自专栏CreateAMind

AI Insight:放弃幻想,搞 AI 必须过数学关

从2012年“大数据”概念兴起到2016年人工智能大热,已经四五年时间了,该看的热闹看到了,该爆炒的话题炒够了,该沉淀的也沉下来了。现在越来越多的人已经放下质疑...

16630
来自专栏数据猿

2017年十本必读的大数据&人工智能领域书籍,你都读过吗?

【数据猿导读】年关将至,回顾2017,小编记得自己曾在年初的时候给自己定下一个小目标——就是读30本书。然而随着春节的临近,小目标却成了遥不可及的梦。不知道在过...

991130
来自专栏PPV课数据科学社区

如何看待和学习人工智能?这是五位哈佛博士生的AMA

最近,五位哈佛的在读博士生集体来到著名社区reddit,展开一场围绕人工智能和认知科学的AMA(Ask Me Anything)。 简单介绍一下这几位博士生:R...

36050
来自专栏人工智能快报

企业竞相布局人工智能

如今,很多大公司都会利用神经网络来完成一些模拟人类思维的任务。 最初实现的任务是语音识别,但是现在IBM的超级电脑沃森(Watson)及其他各种各样的神经网络正...

34940
来自专栏数据科学与人工智能

【应用】信用评分卡:高级分析

当一位年轻的商业分析师向我们讲述他最近回家的事件时,充满分析师的房间爆发出一阵响亮的笑声。 一位遥远的阿姨询问了他的新职业。 他的回答 - 我正在进行建模。 她...

13620
来自专栏VRPinea

NextVR——原来你是这样的VR直播公司!

28360
来自专栏AI科技大本营的专栏

实战案例 | 美团如何用NLP完成5大应用场景

王兴在最近一篇刷屏的专访当中说,“很多人只关心边界,不关心核心”。这话放在人工智能领域当中也适用,今天很多人关心人工智能的前沿论文,但是对于它如何在企业业务中发...

839110
来自专栏数据派THU

数据蒋堂 | 人工智能中的“人工”

27050
来自专栏新智元

Ian Goodfellow:我最大的失败是用无监督解决计算机视觉的监督学习问题

18740

扫码关注云+社区

领取腾讯云代金券