手机大数据如何成为城市研究与规划的基础数据?

以下内容来自【2015城市规划·长安论坛—新技术支撑下的城乡规划编制方法变革】。

《手机数据成为城市规划基础数据的可行性和可能性》

报告人:钮心毅,同济大学建筑与城市规划学院,副教授

我的报告分两个部分

第一部分是介绍技术的,在新的数据条件下用什么技术支撑规划

第二部分介绍非技术问题,我觉得比技术问题更重要。

先跟各位简单介绍什么是手机数据,所谓的手机数据包括三类:

第一类通话详单数据,就是每个用户在运营商那打了多少电话、发了多少短信,这个数据就是通话详单数据,这是个人隐私,运营商不会提供给任何方,所以我们研究中绝对不是使用这部分数据。

第二类是话务量数据,就是通话强度数据,是运营商测试网络承受能力的数据,也就是在一个基站上在一瞬间有多少人发了短信或电话的业务量,这个数据有点像用电负荷数据。这个数据不涉及任何隐私,是运营商比较愿意提供的,长期保留的。但是这个数据看不到个人行为,所以只能在一定程度上反映城市活动,因为通话多短信多的地方大多数是人群密集区,而且不同时段会有不同的特征。所以手机数据最早的城市规划研究就是用这个话务量数据,目前国外研究用的最多的也是这类数据。

第三类数据是信令数据,是手机用户在网络活动中留下的信号数据,只要手机开机,产生任何行为或活动,都会与基站产生信号交换,这个信号交换会被记录下来,平均一个人一天能留下几十个信号,是大致连续的。信令数据也有一点个人隐私问题,是每个用户有一个匿名的编号,记录这个编号在什么时候产生过什么样的信令。一般运营商不会保留信令数据,因为信令数据对他们而言只是一个副产品,过两天就会删掉。但是信令数据对规划研究作用比较大,近期我们都在探索信令数据如何用做规划应用。我们现在使用过话务量数据和信令数据做分析。

先讲讲信令数据特点:

首先是大样本,因为不管哪家运营商,用户基数都可算是大样本,而且基站是空间上全覆盖的,有条件提供整个城市范围内居民的活动信息。

另外还有两个重要特点,第一是非自愿性。很多大数据能分成两类:自愿数据和非自愿数据,自愿数据是用户主动提供的,有目的性提供的,但是有个缺陷是特定人群的特定信息,好处是有行为目的性。非自愿数据是被动发生的。像手机信令数据,最长隔1-2个小时,基站会发信令确认这个手机是否正常,是一种被动参与的调查,所以真实反映了居民活动的时空变化。

第二个是连续性和动态性,每个人每天从早到晚全部手机活动信令都将记录下来,是个基本连续动态记录。所以通过这个数据可以研究人的行为和空间环境之间相互作用的特征。

信令数据是典型的大数据,一个城市的几十万用户一天产生的信令数据量就可能有十几个G。据说中国联通全网信令数据一天就接近20个T。因为每天都会产生大量的信令数据,所以运营商没有办法一直保存。

手机数据能应用于规划研究中,前提是认为居民行为反应了城市活动的时空特征,居民行为特征和城市空间结构、建成环境是相互作用的。我们通过手机信令来研究居民时空特征,来间接反映建成环境和城市空间结构。

我第一部分内容将讲一讲技术上的可行性在哪些方面有应用的潜力,我将通过几个研究案例来介绍。

第一个案例是我们去年用手机信令数据做城市功能分区的识别和评估。这是个假题的研究。这是上海中心城区的土地使用现状图和规划图,大概664平方公里,是上海核心区域。通过手机信令数据来识别不同时段的城市活动,来看看规划提出的功能分区在多大程度上实现。我们把上海移动的手机信令数据做了分时段汇总,然后根据基站做了密度分布图,在这基础上再来看不同时间段密度分布特征如何。

选择了四个时间段,一个是工作日上午十点,第二个是休息日下午三点,还有工作日和休息日的夜间。

研究了不同类型的活动,认为工作日上午十点大众都在上班,所以信令都在就业点附近,这时哪个地方信令密度高,就代表了哪个地方的就业岗位密集程度高。休息日下午三点应该大众都在休息,所以这时手机信令密集的应该是商业区或公园等公共场所,而对于夜间手机信令密度高的地方应该是居民在家的情况。

这些我们都是用了两周的平均值来测算,可以从图中看出浦西的密度要比浦东大很多,但是不同时段不同区域有不同特征。

将工作日白天与晚上做了比值,将休息日的下午与休息日的晚上做了比值,我们认为不同比值特征可以反映土地使用特征。看这个表,例如,我们认为工作日夜间密度非常高的区域,同时在工作日白天和夜间差异不太大的区域,认为可能是就业和居住混合区。同样工作日夜间手机信令很少,工作日白天和夜间差异非常大,这可能就是纯就业区

这些比值特征最终得到这样一张图,大片区域是典型的功能区,浦东有大片黄色低密度居住区域,就是白天人很少,夜间人也不多。同样在浦东我们发现有大片红色区域就是单纯的就业高密度区。

这样我们发现浦西和浦东差异非常明显。在浦西我们发现有大片白色区域,白色区不是没有人,从统计学上来说是功能差异不显著区域,我们无法归类是哪一种功能区域。从图上发现上海浦东、浦西差异非常大,浦东城市活动功能分区非常明确,大致按照规划功能分区来实现,但是浦西有大量功能混合区域。

此案例是用手机信令数据来判断职住空间关系。前面案例是识别一个时间点上有多少手机用户,用手机用户密度的多少代表居民活动活跃度的强弱,根据不同时间段人的活跃程度来判断城市功能的实现程度。现在来换个思路,我们试图用手机信令数据来识别人的居住地和就业地,来看看城市职住空间体系是如何的,做了上海和南昌两个案例。

上海这个案例我们放在了郊区新城这一块研究。上海在十一五开始就提出在郊区建设新城,每个区县基本建一个新城。我们希望通过手机信令数据来识别郊区新城发展状况如何,提出几个问题

1 郊区居民的职住关系如何

2 多少居民是在郊区新城内部居住和就业

3 多少居民职住关系是分离在中心城和郊区之间

4 从就业视角来看,新城的发展状况到底如何

通过2011年的手机信令数据识别出了840万用户的OD数据,这里面用到了重复率算法。我们认为在两周的十个工作日时间里,超过6天白天在同一个基站周边出现了,就认为这个手机用户在那里工作,而夜间如果同一个基站出现超过了60%以上天数,那么就是在这里居住。同时我们剔除了白天晚上在同一个基站出现的人群,我们认为这部分人群可能是退休人群,所以最终得到了大概500多万人的OD数据。这样在上海市域内采集到的样本,占到上海总就业人数的50%-60%,还是一个非常大的抽样。

这两张图就是我们识别出日间工作地和夜间居住地的分布图,总体上可以看出郊区新城总体居住较多,就业岗位比较少

这张图是按照人口普查的常住人口密度,进行9个郊区新城的比较。这也是一般判断郊区新城发展情况的方法。但是根据手机信令数据判断出来的工作岗位密度图来看,我们进行了排序,发现和常住居住密度的新城排序是有差异的,离上海中心城区最近的两个新城,他们根据六普数据来计算常住人口密度非常接近,几乎没有差异,但是手机信令数据来比较这两个新城就业岗位差距接近两倍。

换句话说一个新城就业密度要远远高于另一个新城。这两个视角,一个从居住视角,一个从就业视角,结果差异很大。规划里原来没有办法测算就业岗位密度,但是通过手机信令数据就可以测算出就业岗位密度。

接下来还是根据手机信令数据来测算在新城就业的人口从哪里来,分为三类,第一类来自本区县,第二来自中心城,第三来自其他地区。我们发现上海郊区新城的就业者大部分都是来自本区县,也就是就地城镇化比较高。同样反向测算新城居住者主要去哪里就业,我们发现住在新城的人去中心城区工作的人也不多,也是就地在新城工作的人比较多。

最后这是测算出来的通勤距离,全市范围内,虽然个别的人通勤距离有近100公里,但是大部分人的通勤距离都在5公里范围内。我们发现了嘉定新城的平均通勤距离只有3公里多,也就是郊区新城的通勤距离要低于中心城通勤距离。我们还发现宝山新城平均通勤距离有6公里多,但是宝山新城用地类型也很平衡,工业居住都有,比例很均匀。所以给我们一个启示不能根据用地平衡来测算职住平衡。规划里应对职住平衡的手段太少了,光一张用地平衡表不代表什么。

这个案例是在南昌的研究,是同济规划院正在做的南昌都市区规划的实际项目。也用了手机信令数据测算了都市区的空间结构和交通联系。研究两个层面,一个1000多平方公里的研究范围,一个是有300多平方公里核心范围。

我们用了联通今年4月份的数据。回答几个问题:1 四个组团和中心城的关系是如何的?如果撤县建区,是先撤新建县还是先撤南昌县比较好?换句话说,因为这两个县城都离中心城非常近,哪个跟中心城关系更密切一些?我们用同样的方法测算出职住关系,我们这次就算出了30多万个用户OD数据。这次试了新的方法,把OD基站没有变化用户和从不发短信的用户都排除掉。我们认为从不发短信的多半是退休老年人士,最终剩下的是真正在职就业的,再看他们的通勤范围有多大。

这里有几张图我们很快看过去,这是中心城区职住情况,这是在中心城区就业者的夜间居住地分布,这是在中心城区居住者的就业地分布,大部分都在中心城区内。这是南昌县城的就业者他们居住在哪里,这是反过来在南昌县城居住者他们的就业地点分布。把南昌县和新建县比较,发现这两个县城还有很大差异,比如密度差异,新建县密度要高于南昌县。还要注意一下分布范围,南昌县城通勤范围在江北分布比较少,因为县城在南边;但是新建县城就算在北边,他的通勤范围在南边分布也很广。

所以我们可以发现新建县城与中心城的联系要比南昌县城更紧密一点。再看看向塘镇,相对独立性就强很多,与中心城江北基本没有联系,但是同样再看看昌北机场开发区,主要是依赖中心城,不管是正向还是反向的联系很紧密。所以最终得出几个结论:1新建县城要和中心城联系更紧密,2昌北机场开发区还不算独立一个组团,3向塘镇是一个独立性比较强的组团。

第二个问题我们想比较下新城、旧城两个中心的差异测算到过旧城中心八一广场的人一天活动范围有多大,去过新城中心红谷滩的人一天之内活动范围又是多大,来判断哪个中心辐射范围更强。最终算出结果,差异非常大,也就是去过八一广场的人,一天之内活动范围虽然不大,但是密度很高。去过红谷滩的人,一天内的活动范围非常大。也就是去过江北的人,他可能还要去江南,但是去过江南的人就不一定要去江北了。所以我们认为江南老城中心的辐射大于江北新城中心,老城中心辐射强度要远远大于新城中心辐射范围

还有一个计算结果,测算了一天之内跨江出行的比例。选了两个工作日和两个休息日,发现有近20%的居民,一天内总要发生一次跨江出行,所以这就是赣江上的四座大桥非常拥堵的原因,江南江北联系程度非常高。

上面讲的案例我想说明在技术上对手机信令数据研究是可行的。但是有几个前提首先只能适合大尺度研究,因为依靠基站定位很粗,基站范围是500-1000米,所以研究尺度比较大,如果你研究一个详规层面、城市设计层面就不行。但是如果研究全市层面,城市整个空间层面、或者区域层面,就非常适合。

手机信令会给我们新的视角,我们可以看到居民的就业点、居住点、以及就业居住点的联系情况,甚至可以看到居民的休闲活动规律。所以大尺度、对应人口分布、对应居民活动范围是三个适合手机信令数据应用的前提缺陷有两个:第一空间定位分辨率较粗,第二个无行为目的。因为我们不知道他去干什么,只能根据常理判断。比如白天位置当作就业点,晚上位置作为居住点,但如果那个人上夜班,就完全反了。

下面我再讲点不乐观的。

首先是数据从哪里来。很多同行问数据来源怎么办?数据来源方面有很多困惑,主要是运营商很困惑。首先困惑是个人隐私问题,运营商能提供转换加密过的数据。我们从这数据中看不到个人具体信息,算是匿名数据,但还是有个人隐私问题在。虽然不知道是谁,但是每个匿名ID号是对应一个手机号的,还是有唯一性,是可以看出这个人的一天活动。

数据伦理的角度讲,做个体的研究还是有一定问题的,所以我本人不做个体行为研究,只做总体活动情况研究,但是也有人做个体行为计算的研究。数据如何完全脱敏,才能算完全保护个人隐私?运营商也不清楚,我们也不知道。这也是数据很难获取的原因,就是因为隐私问题。

第二个问题是谁的数据。就是用户在通过基站留下手机信令数据,到底是谁的产权。如果是运营商的,运营商是可以出售数据的,但是如果是用户个人的,运营商是没权利这么做。现在法律角度来说,能否界定信令数据到底是用户所有还是运营商所有?这也是运营商非常忌讳的,据说已有运营商就吃过这样的官司,为什么你把我的数据卖给第三方去做分析了。

第三个问题是数据用在哪些场合比较合适,信令数据能不能用于商业用途,比如他将信令数据拿出来卖,到底是所有人都能买,还是只有政府、公益用途的研究才可以使用,这个在法律问题上也没有界定。

基于这三个主要问题,运营商就没办法轻易将数据拿出来。所以我个人一直建议,希望能有法律对大数据进行立法,能立法保护个人信息,需要国家法律来界定哪些数据能来做分析,哪些不能使用。目前手机信令数据可能走在法律空白地带。有的运营商把数据再加工一层,脱敏保护个人信息;有的是签订协议只能用于政府规划项目,不得再给第三方使用。所以希望各位同行能够呼吁,我们需要一个准确的法律界定。

其次问题是数据渠道,是靠“市长”还是靠“市场”。现在我们看到不少规划机构在做类似手机信令数据应用,数据渠道怎么来也是个很大问题。目前很多都是靠政府出面,靠着行政命令去压运营商,运营商无偿提供了数据。虽然信令数据是运营商的副产品,如果运营商要记录信令数据,是需要购买设备、是要有经济投入,才能来记录这些数据。得不到利益回报,运营商就没有动力配合,所以一直靠政府行政命令来强制要这个数据,不是长久之计。

希望接下来有个规范的数据服务市场,运营商能加工数据,提供数据增值服务,供给规划行业和政府合理合法地使用这些数据服务。运营商不提供原始信令数据,提供加工后的数据服务产品。现在来说,运营商还没法加工出符合规划行业使用要求的数据服务产品。但是到底如何加工数据,需要我们告诉他们。目前运营商有动力这么做,他们也知道大数据应用有很大发展前景。

另一个问题是我们有多大的市场来提起运营商的兴趣,让他们愿意主动加工符合我们规划行业需求的数据。规划行业比较小,如果运营商意识到规划行业太小了,市场不大,他可能就不太愿意来配合我们行业,提供这些数据。我们以往规划设计往往不把数据当作成本,认为最大的成本是自己的智力劳动。我们签合同时,经常要甲方无偿提供地形图和基础数据,把数据成本压到最低,这样是肯定不行的。大家要舍得在数据上花钱,因为在新数据环境下,数据驱动规划是个必然方向,全行业推动下才能引起运营商重视。不能光盯着免费靠政府提供数据,希望能有一个规范的数据服务市场,这才是长久之计。

第三个问题是老生常谈,规划行业本身的困惑是缺少技术和方法。就算有了这个数据,在各个规划院找出个人能来处理这些数据都不是件容易的事。这也就是要从规划教育开始改变。很多省院都成立了大数据、新技术研究中心,这要靠全行业的推动。就是需要规划师要有这样的意识,他要对数据和技术方法有引领意识,要去学习新的方法和技术,最终对大数据应用肯定要靠规划人员,而不是光靠外专业人员,不然这个事情可能会走偏方向。

最后我想总结一下:对运营商来说他有数据,有提供应用服务的动力,但是他不知道规划应用需求到底是什么,也不知道这个数据怎么做应用。对我们来说只有使用意愿,其他什么都没有,所以我们除了需要技术方法和人才,还需要两者之间的桥梁。

我们需要这三方面的桥梁:

首先是数据伦理,或者通过立法,或者要达成行业共识,什么样情况下数据可以用;

第二个要有规范的市场服务支撑,这才是长久之计,双方都能受益情况下这个市场才能维持下去;

第三个是规划行业一定要技术上的创新。我们行业的创新才是推动数据增值服务,推动数据立法的动力所在。我们有技术创新需求,才能推动前面两个桥梁建立起来,这需要全行业来努力。

最后讲下展望,现在阶段手机数据已经能在现状分析,能做规划实施评估,这这些方面我们已经在做探索了。下一步希望能与传统模型结合来做预测根据大数据分析结果,把传统模型和新的数据环境相结合,这样更好提供规划技术支持。从目前来讲,手机数据做现状调查和规划实施评估是最可能推广的两个应用方向。

来源:城市数据派

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2015-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯高校合作

华中科技大学白翔:摒弃成规,自由翱翔

精彩内容编者按:2013年,CCF联合腾讯发起“犀牛鸟”基金,旨在为青年学者搭建“让伟大的梦想变成现实的影响”的平台,助力青年学者的创新和成长,并为提升人类生活...

97950
来自专栏钱塘大数据

美媒评2018年全球十大突破性技术:AI和人工胚胎上榜

美国《麻省理工科技评论》本周刊文,列出了2018年的10大科技突破。今年入选的技术包括人工智能技术“生成对抗网络”(GAN)、人工胚胎,以及基于天然气的清洁能源...

10140
来自专栏机器人网

AI人工智能常见名词

在大家意识到之前,第四次工业革命 ― 人工智能革命已悄悄掀起,渗入日常。搜寻人工智能,或 Artificial intelligence,马上冒出一堆新闻,标题...

26520
来自专栏新智元

认知科学与人机交互简史

前言 “水是最好的”(Water is best),这句话是西方“科学和哲学之祖”泰勒斯(Thales,约公元前624年——公元前546年)的名言,无独有偶,与...

40550
来自专栏大数据文摘

业界 | 想做农业的阿尔法狗?你需要先解决这些棘手问题

16930
来自专栏机器学习算法与Python学习

励志!59岁女副教授,靠1分影响因子文章斩获2018年诺奖

近日,2018年诺贝尔物理学奖新鲜出炉:美国科学家阿瑟·阿什金(Arthur Ashkin)、法国科学家热拉尔·穆鲁(Gerard Mourou)和加拿大科学家...

22740
来自专栏量子位

你(也)是吴恩达的学生么?

近日,美国教育媒体EdSurge一篇报道中指出,吴恩达(Andrew Ng)的斯坦福机器学习课自开课以来,6年多后的今天仍是学习平台Coursera上最受欢迎课...

10520
来自专栏数据的力量

扁平化不等于组织效率

19150
来自专栏PPV课数据科学社区

人工智能的算法黑箱与数据正义

一个月前,《终极算法》作者、人工智能著名学者、华盛顿大学教授PedroDomingos在社交网络中写道:“自5月25日起,欧盟将会要求所有算法解释其输出原理,这...

36050
来自专栏企鹅号快讯

人工智能的回报率:对冲基金嵌入机器学习?

ARTIFICIAL intelligence (AI) has already changed some activities, including part...

22290

扫码关注云+社区

领取腾讯云代金券