美国大选和累犯预测、难民调查算法一览

导读:无处不在的算法是如何揭示问题本源的?它们精确的秘诀是什么?它们会有怎样的潜在问题?本文精选了三个算法,与你深度探讨。

◆ ◆ ◆

谁将赢得2016美国大选?PollyVote稳定预测有妙招

2016年美国大选谁会胜出?是主张“建墙防墨西哥人偷渡”、坚决反对医保法案的纽约地产大亨川普?还是强调移民改革、捍卫医保法案前国务卿希拉里?是共和党候选人还是民主党候选人的选情更胜一筹?想求靠谱预测,不妨试试PollyVote。

众所周知,预测结果一般是基于民意调查或预测市场、专家判断等计算而出,由政治学者和预测专家于2004年开发的专业工具PollyVote.com则综合考察民意调查、预测,预估结果更稳定、出错更少。其结果主要用于学术研究,没有商业利益干扰。所有人都可通过其API获取每小时更新的数据(2016年大选和往届大选的数据),任意分享、嵌入网站。此外,该项目还供用户免费浏览图表、自动生成解释文本,便于读者理解数据。看下图的自动文本,简洁易懂,深感自动生成新闻的前途无量啊…

PollyVote.com系统自动生成的大选新闻

进入网站,可看到两党支持率变化的曲线图(目前民主党候选人支持率以52%领先于共和党候选人的48%),两党数据相对而列,便于展示差距和趋势,用户可查看最近30天的数据对比。

民主党候选人的支持率为52%,领先于共和党候选人的48%

PollyVote在地图上标注出了两党在各州的选情:以红蓝分别代表共和党和民主党,深浅表示支持程度,可以看出支持民主党的选民大多分布于西海岸和东北部地区,而共和党的选民则聚居于中南部。

支持民主党的选民大多分布于西海岸和东北部地区,而共和党的选民则聚居于中南部

该工具对以往三届美国大选的预测误差率均小于1%,表现不俗。要想持续关注预测结果,可以订阅汇总自动解释文本的新闻简报。

PollyVote对以往三届美国大选的预测误差率均小于1%

表现如此稳健的预测工具用了什么神奇的算法呢?答案是:综合预测方法所得结果。计算分为两步,一是求出同种成分分析法计算结果的平均值,二是求出不同成分分析法计算结果的平均值。其道理是均衡每种分析方法的影响,比较不同方法求得的预测结果。这一点不难理解:例如,现在仅有一种预测市场能预测全国支持率,却有多个计量经济的模型作了预测。如果我们仅计算它们的平均值、记入预测结果,就会多算了模型而少算了预测市场的影响,准确度就大打折扣。

◆ ◆ ◆

罪犯预测软件内含种族歧视?ProPublica揭开算法真面目

在美国,越来越多的法官和其他司法官员用算法预测罪犯成为累犯的可能性。COMPAS是美国最受青睐的算法工具之一,在庭审和判决前的使用率与日俱增。它到底靠不靠谱呢?ProPublica的分析发现,在其预测结果中,黑人罪犯被视为累犯的几率更高。

他们是如何得出该结论的呢? ProPublica的团队申请公开记录,从州长办公室获得了佛罗里达州布劳沃德县2013、2014年18610名被告罪犯在COMPAS上测得的分数,为每名罪犯建立了犯罪记录表。为了查验分数,他们将这两年间COMPAS计算的累犯率(包含累犯率和严重累犯率)和实际作案率比较,排除了姓名、出生日期不符的情况。

黑人罪犯和白人罪犯预测的累犯率对比

结果发现,COMPAS的准确率达61%,但“严重累犯率”准确率仅为20%,且黑人罪犯的“严重累犯率”是白人罪犯的两倍。即使控制过往犯罪、年龄、性别等指标的影响,黑人累犯率仍比白人高出77%。

由此,他们做出了报道“机器背后的歧视”(Machine Bias),通过误判的罪犯案例透视算法为何产生歧视效应。

◆ ◆ ◆

难民缘何频遭暴力?《时代周报》解剖官方弊病

不少人认为难民潮会对当地生活带来混乱,但忽略了难民遭受的暴力事件猛增、司法部门惩办不力的事实。德国《时代周报》的记者从阿马迪乌·安东尼奥基金会、德国联邦刑事警察局、德国联邦政府等权威机构获取数据,分析了747起构成犯罪的难民居所袭击事件,意在检视难民营所遭暴力的全貌。他们由一系列问题指引,细化特点、追踪原因:暴力事件的类型有何不同?袭击是否造成伤亡?案件是否指认了犯罪嫌疑人?他们是否受到起诉?定罪情况如何?

研究表明,2015年1月至11月间,德国共发生了222起难民营袭击案件,多达169起案件仍未确认罪犯,已确认的案件仅有41起。但起诉的仅8起,定罪的仅4起,占全部案件的5%,其他案件的罪犯均逍遥法外。

在所有案件中,纵火案发生率高、破坏力强。2015年1月至11月间,纵火案数量猛增——从1月至6月的5起以下,增至8、9月的16起,甚至在10月蹿升至20起,上涨10倍。近半数纵火案针对的是有人居住的房屋,无人居住的房屋遭遇纵火案的次数也骤增。

纵火案类型不同,得到解决的程度也不同。多达76%的纵火袭击案未得到解决,而这一比例在预谋纵火案和加重纵火案中则分别降为64.3%和47.5%。在莱比锡、汉诺威等城市所在的萨克森自由州,同期就发生了64起纵火案,平均每10万居民就遭遇1.58起纵火案。

为何这些案件的处理如此不力?记者发现,部分原因在于案件本身侦破大,多数案件发生在夜间,肇事者逃离迅速,常用燃烧瓶、抛射弹等远距离投射。而且,这些难民营远离市区,目击证人少。如果被袭房屋无人居住,鲜有人问责,调查也就悬而未决了。

更关键的原因是,德国很多地区缺乏警力和侦查专家。特别是在东德地区,近年来警察的数量持续下降,暴力事件发生率相应上升。

下图显示的是,德国各州受联邦预算支持的警察机构中全职警察的比例,巴伐利亚州、北莱茵-威斯特法伦州和巴登-符腾堡州等德国南部、西部地区的警力充足,而在萨克森-安哈尔特州、梅克伦堡-前波美拉尼亚州和勃兰登堡州等德国东北部地区则情况堪忧。

如果想详查每个案件的情况,查看他们的可视化地图便知,按照犯罪类型、调查现状查看,或者点击“播放”按钮自动查阅案件。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2016-06-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

AAAI 2018 杰出论文出炉,两位中国留学生共同获奖

编辑 | 周翔 作为人工智能的顶级会议,AAAI 2018 将于 2.2~2.7 在美国路易斯安那州的新奥尔良举行。然而,大会还没开始,获奖信息就已经在网上传播...

385140
来自专栏机器学习AI算法工程

阿里大数据竞赛第一名大神github源代码分享(O2O优惠券使用预测)

队伍简介 队伍名 “诗人都藏在水底”,三位队员分别是来自北大的wepon和charles,来自中科大的云泛天音 赛题介绍 本赛题提供用户在2016年1月1日至...

61840
来自专栏新智元

长尾有多长:人工智能先驱与分形之父的幂律之争

【新智元导读】因为在人工智能等方面的突破性研究荣获图灵奖的赫伯特·亚历山大·西蒙(Herbert Alexander Simon)曾就幂律及其产生机制的问题与被...

36260
来自专栏奇点大数据

遗传算法(1)

与其说遗传算法是一个算法,不如说是一种处理问题的思想方式更为恰当,因为遗传算法整个体系说来说去都是在说对于一种问题处理的思路和原则,而不是一个具体的代码编写过...

60170
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/4/8

注意下面很多链接需要科学上网,无奈国情如此 1. clustering 5种算法解释 The 5 Clustering Algorithms Data Scie...

32340
来自专栏大数据文摘

数学与美容:美国专利观光,用黄金分割为眉毛造型

17630
来自专栏大数据文摘

生命之圈:生物数据可视化的美丽新方法

317100
来自专栏思影科技

脑电研究:睡眠中的婴儿大脑预测发育情况

传统观点认为九个月大之后的婴儿才能建立真正词汇的语义长程记忆,之前都处在呀呀学语的原词状态。来自德国柏林洪堡大学的学者Manuela Friedrich等人探索...

28640
来自专栏华章科技

机器学习Lasso算法的前世今生

众所周知,机器学习的模型与统计有着千丝万缕的联系。阅读本文后,你才恍然发现,鼎鼎大名的Lasso算法思想锤炼的背后,蕴藏着学生氏分布关于酿酒的小秘密,还可以窥视...

14620
来自专栏大数据文摘

猎杀埃博拉病毒的算法

36270

扫码关注云+社区

领取腾讯云代金券