首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据真的值得盲目崇拜吗?新研究表明大数据预估算法大有问题!

基于大数据的预判算法确实有大多数法官认为的那么可靠吗?

导语:累犯,就是被判有罪的人受罚之后再次犯罪的情况。目前,有关部门通常利用一些预测算法来估算这个比率。这个算法的结果对犯人来说很重要,它既可能影响最终判决,又可能决定能否假释,不过这种基于大数据的预判算法确实有大多数法官认为的那么可靠吗?

为了检测算法在实际中的准确程度,由达特茅斯学院的研究人员Julia Dressel和Hany Farid领导的一个研究小组对一款广泛使用的商业风险评估软件(COMPAS)开展了研究,该软件又被称为“罪犯改造管理分析”。

这款软件是用来预测一个人在定罪后的两年内是否会再次犯罪

然而,该研究的结果显示,COMPAS预测累犯率的准确度并不比没有刑事司法从业经历的志愿者们高多少。Dressel和Farid在一个网站上招募了一群志愿者,并随机分配给每人一小部分刑事案件中被告的信息。包括性别,年龄和以前的犯罪史等。研究人员要求他们根据手头的资料,去预测犯人是否会在未来两年内再次犯罪。

最终结果显示,志愿者预测的平均准确率为62.1%,准确率中位数为64.0%,这已经非常接近COMPAS的准确度:65.2%了。

此外,研究人员发现,尽管COMPAS会对多达137个信息项进行分析以得出结果,但使用只考虑两项被告信息(被告的年龄和先前的定罪次数)的线性预测法时居然也能得出几乎一样的结果。这足以体现,这种号称精确的算法其实并不完美。

算法偏见问题

该团队关心的一个方面是算法可能会具有“偏见”。

在他们的研究中,志愿者和COMPAS在预测黑人被告的累犯率时都表现出相似的虚高误判率——尽管他们在做出预测时并不知道被告的种族。黑人被告的误判率是37%,而白人被告只有27%。这些志愿者误判的比率和COMPAS的比率相当接近:黑人被告40%,白人被告25%。

在论文的讨论中,该研究小组指出,“黑人和白人被告在逮捕率上具有较大的差异,使得不同种族间误判率和漏判率的比较变得更为复杂了。”

这方面的研究得到了美国有色人种协进会提供的数据支持,例如协进会发现“美国黑人和白人吸毒率大致相同,但黑人因吸食毒品而受到监禁处罚的概率几乎是白人的6倍”。

论文的合著作者们在论文中指出,即使犯人的种族没有明确说明,但参考数据的某些方面也可能与种族相关,从而导致预测结果的差异

事实上,当团队为新志愿者提供犯人种族数据并让他们再次预估累犯率时,结果还是大致相同。该小组因此得出结论:“告知志愿者时排除种族并不能完全消除累犯预测中的种族差异”。

重复的结果

图|大数据预测算法真的可靠吗

自从1998年以来,COMPAS已被用于评估超过100万人(虽然其累犯预测功能直到2000年才被推出,但这也足以体现它预测误差的后果可能已经影响甚广)。

考虑到这庞大的基数,此次研究的结果如下:算法的精度甚至不超过一群没有刑事司法从业经历的志愿者,着实令人震惊。长久以来究竟犯了多少错误,影响了多少被告的正常保释,细思恐极。

显而易见,这种预测算法远不够精确复杂,需要及早改进、更新。该团队用相同的数据训练了一个功能更强大的非线性支持向量机(NL-SVM),以验证他们的发现。

图|预测算法的起源

然而,向量机还是产生了与之前相似的结果,研究人员认为这是因为他们对算法进行了过于接近真实数据的训练,从而使实验结果“反弹”回了原点。

Dressel和Farid表示,他们之前还专门只使用80%的数据对新向量机进行了算法训练,然后用剩下的20%数据进行测试,就是为了避免“过度拟合”——即当真实数据使用过多、算法对数据的亲和度过高后,算法的准确性会受到影响。

什么是预测算法?

图|什么是预测算法?

最后,研究人员得出结论,也许这种累犯估计所讨论的数据根本就不是线性可分的,这意味着无论多么复杂的预测算法,都不会是预测累犯率的有效方法

考虑到被告的未来一定程度上是被估计结果决定的,达特茅斯学院的研究团队认为在使用这些算法做出决定前,一定要仔细斟酌。

“想象一下,你是一个法官,你在裁决时使用了一款商用评估软件,它说:我们使用大数据进行分析后认为这个人是高风险的,于是你就听信了它的一家之言。”Farid说。

“现在再想象一下,我告诉你,我在网上随机找了10个人对被告的累犯率进行了同样的预测,这就是他们预测的结果。你会轻易相信我这10个人的预测吗?显然不会。然而,这10个人的预测和所谓软件大数据评估的精度是相同的。这就是之前十多年司法系统做的蠢事:轻信算法。”

这种预测算法不仅用于刑事司法系统。 实际上,我们每天都会遇到它们:它们几乎遍布日常生活的方方面面:从网络上的产品广告到流媒体服务的音乐推荐,几乎无处不在。

图| 无处不在的预测算法

但是,在新闻采访中出现的广告远不及对犯罪者的裁决重要。广告成功与否只关乎一家之利,但对罪犯的裁决却关乎他们之后的整个人生和全社会的稳定。要做到裁决公正,我们不能仅仅盲目轻信算法。对大数据预测算法进行何种程度的改进,对于现在的我们,还任重道远。

编辑 | 褚茗帆

审校 | 星亦

致敬科技

分享才是热爱

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180122A017TD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券