专栏首页大数据文摘如何用大数据发现纽约最糟糕的停车位?

如何用大数据发现纽约最糟糕的停车位?

大数据文摘翻译作品

演讲:Ben Wellington

翻译:王晨璐

校对:魏子敏

如需转载,请后台留言申请授权

如果你曾经去过罗斯福岛,你应该见识过那里的六千英里公路,六百英里地铁线路,四百英里自行车专用道和半英里的有轨电车轨道。

这些数字组成了纽约的基础建设。这是我们基础建设的统计数据。你可以在市政机关发布的报告中找到这些关于基础建设的统计数字。例如,运输部可能会告诉你他们维护着多少英里的公路,纽约交通管理局(MTA)会自夸他们有多少英里的地铁线。许多政府机关能向我们提供这些统计数字。这里有一份来自出租车和轿车委员会的报告,告诉我们纽约有约13500辆出租车。很有趣,是么?但是你们有没有想过这些数字从哪里来?这些数字的存在,一定是因为市政机关的某个人想到:“可能有人想知道这些数字。”我们的市民想知道这些数字,所以他们找回原始数据,计数,相加,计算,然后发布报告,这些报告给出那样的数字。

那么问题来了,他们怎样知道我们所有的疑问?我们有许多的问题。事实上,从某些方面讲我们关于自己的城市有无数的疑问。机关部门永远也赶不上我们的节奏。所以现有的模式并不十分有效,并且我认为决策者也意识到了这一点,因为2012年,市长彭博(Bloomberg)签署了一项决议,被称作是”全美最有雄心和最综合性的开放数据法令“。从很多方面看,他都是对的。在最近两年,纽约市把1000个数据库发布在了公开数据的门户网站上,简直是棒极了。所以我们可以来审视这些数据,除了出租车的数量,我们开始问出各种各样的问题。

我有一个问题。纽约交通的高峰是什么时候?这个问题很烦人。准确的交通繁忙时段到底是什么时候呢?我自己在想,这些出租车不仅仅是一些数字,他们是行驶在我们城市每条道路上的GPS记录器。它们会产生数据,我查看这些数据,制作一天内出租车平均速度的图表。你可以看到大约从午夜到早晨5:18,速度在增加,到5:18这个拐点,速度开始越来越慢,直到清晨8:35左右,时速开始保持在十一英里半,一整天都是如此。所以我说,纽约根本没有交通高峰时段,这里一整天都是高峰。这个结论是有意义的,原因有几点:如果你是个交通规划者,可能对此很感兴趣。但是如果你想快点到达某个地方,现在你该知道怎么办了——把闹钟设在凌晨4:45。在纽约,这样做没错吧?

不过这些数据背后还有个故事。数据被证明不是现成的。实际上还需要做一个自由信息法案申请,也叫FOIL申请。在出租车和轿车委员会的网站上你能找到这个表格。你需要填写这个表格,然后等待他们的通知。一个叫做Chris Whong的人这样做了。他们告诉Chris,“带一个新的移动硬盘过来,五小时后再来取,我们会把数据复制在你的硬盘里。”你看,数据就是这么来的。现在,像Chris这样的人希望把数据公开,所以它被发布到网上,才能做出这张图表。这一切那么不可思议——这些GPS记录仪是在是太酷了。但是事实却是我们的市民要带着硬盘跑到市政机关去拷贝数据再把他们公开,这的确是某种“公开”,但不是真正的公开。我们可以做的更好,不需要让市民带着硬盘跑来跑去的。

现在,不是所有的数据库都需要FOIL申请。我根据自行车事故数据做了一个地图,标出了纽约最危险的路口。红色区域更危险。先来看,在曼哈顿的东边,特别是下城区,有更多的自行车事故,这可能是因为更多骑自行车的人从桥下过来。其他的热点如威廉斯堡,皇后区罗斯福大道也很值得研究。这就是Vision Zero需要的数据,也是我们正在寻找的。

这些数据的背后也有一个故事。这些数据也不是现成的。有多少人认识这个标志(Adobe PDF的logo)?我看到一些人在点头。你们有没有试过从PDF文件复制粘贴数据?我看到更多人在点头了,比起认识这个标志,你们中更多的人试过PDF复制和粘贴,这很有趣。

你们刚看到的数据实际上就在PDF中。成百上千页这样的PDF由纽约警察局发布。为了访问数据,你要么就得花费数百小时的时间复制粘贴,要么你就成为John Krauss。John Krauss 就是这样做:“我不想复制粘贴这些数据,我要写个程序。”这个程序就是”纽约警察局事故数据创可贴“(NYPD Crash Data Band-Aid),从NYDP的网站上下载PDF。每天进行搜索,下载搜索到的PDF文件,运行PDF解码程序,提取文本,发布到网络上,然后人们就可以制作这样的地图了。这些数据就在那里,我们都可以访问——每个事故都是数据表里的一行数据。你可以想象那里有多少这样的PDF。我们有权访问固然很棒,但是请别发布在PDF里,幸亏我们的市民自己写了PDF解码器。这是对市民时间的浪费,我们本可以做的更好。

现在有个好消息是de Blasio 行政部门在几个月前发布了这些数据,我们可以直接访问,但是仍有许多数据是PDF格式。例如,犯罪数据和城市预算数据只有PDF格式的,不仅是我们不能拿数据做分析,连我们的立法者都只能得到PDF格式的预算数据。所以立法者也不能分析他们要为之投票的市政预算可不可行。我们的城市肯定可以做的比这好。

当然,有很多的数据不再被埋藏在PDF里了,比如我制作的这个地图,纽约最肮脏的水路。我是怎么衡量“肮脏”的?可能听上去有点奇怪,我衡量粪便菌群的水平,这是水路粪便物的一个衡量指标。大家看内陆水道就是:圆圈越大,水质越脏。就是说大圆圈内是脏水,小圆圈的是干净水。这是纽约市在过去五年里采样的所有数据。通过这个图我了解到几件事,1:永远不要在某“溪”或某“运河”里游泳。2:纽约最脏的水,仅就粪便菌群这个衡量指标而言,是康尼岛溪。幸好不是你们去游泳的康尼岛,它在岛的另一面。而康尼岛溪在过去五年内,有94%的采样显示含有超标的粪便含量,以至于被州立法律禁止游泳。

这肯定不是你想在市政报告里炫耀的事实,它肯定不能出现在纽约政府官网的首页,你在那肯定看不到它,但值得庆幸的使我们还能够得到这样的数据。但是再强调一次,这并不容易,因为这些数据并没有公布在公开数据的门户网站上。如果你去公开数据的门户网站,你可以看到其中的片段,一年或者几个月的数据。这确实是环境保护部的网站上找到的数据。每个链接都是一张Excel表格,并且每一张表格都是不同的。每个标题都不一样,你需要复制、粘贴、确认。你能够做出地图当然是好的,但是我们的城市可以比这做的更好,我们可以使数据标准化。

我们正在慢慢改进,因为Socrata公司建立了一个网站,叫做“纽约市公开数据门户网站”。这有1100个数据库,在这里得到数据并不需要经历我刚说的那些痛苦,并且这个数字还在增加,这很棒。你可以用任何格式下载数据,CSV,PDF或Excel文件。无论你想要什么,你都可以下载。但问题又来了,一旦你这样做,你会发现每个机构用的地址代码都不一样。有街道名,路口名,自治区,地址,建筑物,建筑物地址。你不得不花时间规范地址数据,即使我们已经有了这个网站。这也不是最好的利用市民时间,我们的城市依然可以做的更好。我们可以标准化地址信息,做出更多这样的地图。

这是纽约市火警消防栓的地图,但不只是消防栓。这可是最容易吃到违章停车罚单的250个消防栓。从这个地图我也学到了几件事,1:别在上东区停车,千万别。不管你停在哪,你都会吃罚单。2:我发现了全纽约最容易吃罚单的两个消防栓,它们都在下东区,而且他们每年在停车罚单上都要挣超过55,000美元。我注意到这点有些奇怪,所以深挖了一下,发现原来每一个消防栓都有一个叫控制扩展的东西,有七英尺的的空间可以步行,然后是一个停车位。所以当车开过来,到消防栓附近,司机会想,“还有一点距离,没问题的,”何况这还有那么棒的一个停车位呢。于是他们停过来,可纽约警察局不同意这种行为,就给他们开出了罚单。可不仅仅是我吃到过这样的违章停车罚单,谷歌地图拍到过一辆车就是这样吃了罚单。

因此我把这件事写在我的博客和“I Quant NY”上,交通部回复说,“尽管交通部没有在此地点收到过任何的投诉,但是我们将检查道路标志并且做出相应的调整。”我心里想,多么典型的官方回复,那好吧,我就没有再管这件事。

没想到几周后,不可思议的事情发生了。他们重画了停车位,那一刻我觉得我看到了公开数据的未来。想想这些年发生的事,这五年来,这个停车位一直让人吃罚单,这很让人费解,一个市民发现了某些原因,反应给了政府,然后在短短几周之内,问题就被解决了。这太不可思议了。很多人把公开数据视作是对政府部门的监察,而它并不是,它是个好帮手。我们允许市民成为政府更好的伙伴,并不是那么的难。我们所需要的不过是一点点改变。如果你正在申请信息自由法案(FOIL)数据,如果你看到你要的数据被反复的请求获得,让我们直接把这些数据向公众公开,这是一个这些数据应该获得公开的信号。如果你负责政府机构PDF数据的发布,让我们通过立法要求你直接发布源数据,因为这些PDF数据肯定来自于哪里,我不知道是哪儿,但是它肯定有来源,让你得以发布在PDF中。让我们采用和共享公开数据的标准,让我们从地址信息开始,开始规范我们的地址。因为纽约是开放数据的引领者。抛开问题,纽约无疑是开放数据的领导者,如果我们做规划化的工作,制定数据公开的标准,其他人也会跟随。纽约州会跟随,联邦政府可能会,其他国家也会。我们也许在不久的时间内开发出涵盖100个国家地理信息的程序。这不是科幻小说,我们已经很接近这个目标。顺便说一下,谁是被帮助的人?不仅仅是John Krauss 或者Chris Whong。纽约有几百个聚会正在举行,活跃的聚会。几千个人参与这些聚会,这些人用工作之外和周末的时间参加聚会,研究开发数据,帮助我们的城市变的更好。BetaNYC就是一个这样的团体,他们上周刚刚发布了citygram.nyc,允许人们订阅自己家或公司周围的311个投诉。你输入地址,就能看到本地的投诉。这些事背后的不只是技术社区,我在Pratt教的学生们也在做城市规划,还有政策推动人,还有每个人,有着不同背景的多样化的市民。有了这些小小的改变,我们能够释放市民的激情和能力利用开放数据,使我们的城市变的更好,哪怕一次只公开一个数据库,或者发现一个停车位。

视频地址:

https://www.ted.com/talks/ben_wellington_how_we_found_the_worst_place_to_park_in_new_york_city_using_big_data?language=en

文本地址:

https://www.ted.com/talks/ben_wellington_how_we_found_the_worst_place_to_park_in_new_york_city_using_big_data/transcript?language=en

【译者简介】

有意联系译者的朋友,请给“大数据文摘”后台留言,附自我介绍及微信ID,谢谢。

译者简介:大家好,我是晨璐, 小硕一枚,现居芬兰,一年以来在学校智慧交通实验室做助理研究,主要负责过坦佩雷市交通信号数据的收集,储存和维护工作;实现和部署显示坦佩雷实时交通灯数据和公共交通数据“动画”的web服务;交通信号数据的分析和交通路口车辆延迟分析。目前也刚刚开始学习Hadoop和Hbase。

关于这篇Ted演讲,因为和我的工作有一点点关系,我也是挺有感触,对于“搜集和规范尚未公开的数据,花费了额外的时间去沟通和采集”这点很有同感啊,更可以想象这些还被埋藏的“数据宝藏”离普通人的生活有多遥远,真的希望有一天这些隐匿的宝藏能被挖掘出来,让更多人们可以去创造和探索不曾知晓,未曾想象的世界~

相比起我们的大数据团队的很多成员和资深读者,我并不是科班出身,还是一个徘徊在门槛附近的“入门者”,但是这个新世界一出现立马深深的吸引到我,所以想以后继续在这个领域学习工作,也特别希望同道人和我交流学习。另外今年夏天我就要毕业啦,如果有合适的岗位或实习机会推荐的话,那就更好了,谢谢 XD

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-03-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大咖 | 涂子沛:数据正在引领高清晰社会,重塑文明

    2018年11月1日下午由清华大学公共管理学院、中信出版集团和中国电子信息行业联合会数据与治理联盟联合举办的“从大数据到数文明前沿论坛暨《数文明》新书发布会”在...

    大数据文摘
  • 从学界到业界:关于数据科学的误解与事实

    大数据文摘
  • 凯文·凯利:个人数据才是大未来

    大数据文摘
  • 没有食材,数据分析师如何做饭?

    做饭,不论色香味,最基本得有合适的“食材”,而对于数据分析师,两大支撑之一的“数据”,就如同做饭的食材。丰富食材可以为美味佳肴打下良好的基础,而多维度、立体化分...

    朱小五
  • 拥有免费数据集的十大优秀网站

    如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。

    代码医生工作室
  • 元数据是什么?举例告诉你什么是元数据

    元数据,一个简单的定义是描述数据的数据。在企业中,无论哪里有数据,都有相应的元数据。只有存在完整而准确的元数据,我们才能更好地理解数据并充分利用数据的价值。为了...

    数据前沿
  • 数据派研究部招新 | 打比赛、做项目、内容产出...等你来~

    我想,你来到了这里,就说明你对未来还抱有激情和希望。在2018年新年的时候,我曾收到这样一句祝福,现在也分享给大家——鲜衣怒马,不负韶华。

    数据派THU
  • 张茉楠:全球数据开放战略的路线图

    摘要:大数据重新定义大国博弈的空间,世界主要国家早已认识到大数据对于国家的战略意义,认为谁掌握了数据的主动权和主导权,谁就能赢得未来。西方主要国家通过全面谋划大...

    灯塔大数据
  • 13个大数据案例告诉你:大数据正在改变哪些行业?

    大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了。然而实际上很多人都对大数据的应用模糊不清。现在就让我们从下面13个鲜明的大...

    钱塘数据
  • 【技术综述】一文道尽“人脸数据集”

    这一次我将从人脸检测,关键点检测,人脸识别,人脸表情,人脸年龄,人脸姿态等几个方向整理出人脸领域有用的数据集清单,不全也有9成全吧。

    用户1508658

扫码关注云+社区

领取腾讯云代金券