前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >京东副总裁郑宇:城市数据属于时空数据,拥有独特的处理方法论 | IJCAI 2019

京东副总裁郑宇:城市数据属于时空数据,拥有独特的处理方法论 | IJCAI 2019

作者头像
AI科技评论
发布2019-08-21 15:39:59
8860
发布2019-08-21 15:39:59
举报
文章被收录于专栏:AI科技评论AI科技评论

何谓时空数据?

文 | 黄善清

8 月 10 日至 16 日,IJCAI 2019 在中国澳门隆重召开,其中 14 日至 16 日为 Industry Day 环节,是大会专为业界思想碰撞与交流而设的重磅环节,邀请了众多来自国内外的 AI 企业与机构代表前来做大会报告。

当中,京东集团副总裁、京东数字科技首席数据科学家、京东城市总裁郑宇做了场题为《Building Intelligent Cities with Big Data and AI》的大会报告,在本次报告中,他强调了智能城市领域数据的特殊性,他表示,时空数据拥有不一样的结构与属性,意味着需要使用不一样的数据管理与人工智能算法来进行应对,而不能单纯直接套用已有针对语音、图像和文本的算法。

大会报告结束后,我们对郑宇进行了专访,请其解读针对大会报告中的最新研究成果,并趁机聊了聊京东智能城市研究院的最新近况。以下为采访全文。

郑宇独家解读《Building Intelligent Cities with Big Data and AI》大会报告

简单来说,城市的数据种类很多,所以让大家感觉有点纷繁复杂,按以前的方法,大家就会来一个数据建一个表格,并未对数据的结构与规律进行分析。

所以我们准备做这么一个统筹的事情。

首先,我们针对数据的结构以及关联的时空属性,做了一个分类方法上的设计。

按照结构区分,可分为:

  • 点数据
  • 网络数据

按照关联的时空属性区分,可分为三种:

  • 空间静态时间静态
  • 空间静态时间动态
  • 时空动态

将这三种时空属性乘以两种结构,我们就会获得六种数据的分类方式。

  • 什么是时空静态的点数据?我们会说像个车站或宾馆,它的位置是不变的;宾馆的属性,比如有多少层楼,房间有多大,同样也是固定的。所以它既是时空静态数据,也是点数据。
  • 什么是空间静态时间动态数据?传感器,比如我们把一个空气质量监测站点建在一个地方,建好后它的位置是不变的,但它的读数却每个小时都在变化着。
  • 什么是时空动态的数据?比如你给滴滴发请求时,可能 13:10 也同样有个人在给滴滴发请求,然后 13:20 又有另一个人在同个地方给滴滴发请求,这也意味着它的时间和空间是一直在变化的,甚至包括还有人使用摩拜扫码。这些都属于时空变化的点数据。

除此之外,这三类时空属性的数据还有对应的网络数据。

  • 路网其实是一个静态结构,路一旦修好后,它的结构是不变的,它属于空间静态时间静态的网络结构。
  • 可一旦我们往马路上叠加交通流量,它立马就变成一个空间静态时间动态的网络结构。
  • 那什么属于时空都动态的网络数据呢?比如固定轨迹,即是一系列点的结合,它同样也是一个网络结构。

换而言之,这六种数据结构覆盖了一座城市涉及的所有数据类型,我们可以用这 6 种结构来表示所有数据,或者用它的组合来表达所有类型。

那么数据的类型不一样,从时空属性上来说又存在哪些差异?

在时间和空间方面,它们都拥有专属的距离与空间层次。从距离上说,比如两个点之间的距离、两边之和大于第三边三角不等式以及地理学第一定律;从空间上说,包括一个城市、不同区域、不同街道、不同小区。处在不同的层次,它所代表的含义是不一样的,那么你在不同层次上的表达,对于运算的体现与帮助也是有差别的。

从时间上分析的话,它的属性包括临近性、周期性以及趋势性三大块。

所谓邻近性,即是相邻的两个时间点,它的读数可能会比较接近,比如离得不远的两个身体,所感受到的气温都会比较接近;另外我们也看到时空数据存在着周期性,比如今早8点的交通流量很可能与昨天早上8点的交通流量是很相似的,而今早 8 点的交通流量则与今天中午 12 点的交通流量特别不一样,这就打破了之前我们所说的邻近规律,这个时候我们就可以看下一个属性;趋势性,这其实是一种预判,比如可能随着气温变得越来越冷,我们起床起得越来越晚,然后出门的时间也就越来越晚,因此早高峰也就出现得越来越晚。

所以说周期性并非恒定不变的,而是拥有一个趋势性的上扬或下降,我想表达的就是这个意思。

在明确好数据模型后,考虑到数据的结构与属性不一样,因此我们得有专门的管理方法。

演讲中我主要谈三点,分别是效率问题、版权保护问题和安全问题。

先说效率问题,我们现在有一个大系统,可以用更少的资源,以更快的速度来处理数据,特别是轨迹数据管理这一块。同时它已兼容已有的云计算平台,这一点其实很重要,说明我们无需从头建立平台,只要改变一下存储格式,就能有效提升轨迹数据的查询效率至一百倍,索引和数据和存储的大小也减少了七倍。这些都是跟最好的方法进行对比。

过去我们并不重视时空数据的版权保护问题,比如你把时空数据拷贝一份拿出来卖,然后别人再拷贝一份拿去卖,你也无从得知,因为运转单都一样。高阶一点的,会随意帮你做点修改,然后告诉你这个数据是属于我的。一旦缺乏这种保护机制,未来就很难形成一个数据融合共享机制。

解决方案方面,我们的一个具体想法是让数据带有密钥,首先将空间化成区域,再把轨迹放到空间里,利用空间将轨迹切成几段,然后每一段里面再按照另外一个密钥参数切成很多时间小段,接着每一小段里会隐藏一个亿比特的信息。隐藏的方式是什么?我们的方法是算这一段轨迹的质心,而这个质心有个地理学的计算定律。当我怀疑别人在出售我的数据时,我就把它拿来并用算法进行提取,如果连续好几个提取出来都是我的信息,那就基本可以肯定是我的秘钥做的。原理有点像数字水印,但却是符合轨迹数据的。

国内业界有几个正在思考这件事情的人,至于学界思考这件事情的人基本上等于零。业界有这个需求,却不知道应该怎么做;学界的人并不怎么在乎这件事情,因为数据分享对他们而言就是一件免费的事情。现在我们经常说要推数据交易,搞大数据交易平台,可你缺乏这一块技术的话,你说谁敢卖,对吧?

第三点是安全性,因为有些数据的机密性太强,是不允许进行分享的,比如说结婚登记数据、社保信息、犯罪记录等等。我们的解决方案是通过数字网关技术将各个平台的内部联到一起,在不泄漏信息的情况下,把不可逆的中间结果拿来互换一番,最终解决各自的问题。

关于深度学习应该怎么与时空数据相结合,我这里总结了三大挑战:

第一个,怎么做数据变换。城市的好多数据拿来后,我们都是没法直接使用的,毕竟它们不是简单的图片,不然可以直接放在CNN 或者 RNN上搞定。在这种情况下,我们应该怎么做数据变换?

第二,怎么将时空属性给 encode 进去?如果完全不encode,只把它当成一个数据来做的话,周期性、趋势性就会反映不出来,你的结果就不会十分准确。

第三,数据融合。怎么把不尽相同的数据融合在一起做决策?

基于这三者挑战,我们把现在可以使用深度学习能力进行解决的城市应用场景,变成了多种不同的时空应用场景。

比如说城市里有些稀疏的站点,在这之前我们预测这些站点的读数应该是多少,这是一类问题。

第二类问题,我把城市转换变成均匀的格子,希望每个格子都能进行预测。

第三点就是它可能并非均匀的网格,而是由不规则的网格所组成,在这种前提下应该怎么做预测?

第四点是做区域与区域之间的转移预测,这是相对于单点预测而言的,就是从A到B有多少人,从B到C又有多少人。

第五个就是我定义一个路线,然后想预测路线的时间、油耗等属于动态预测层面的东西。

AI 开发者:通过今日的分享,您想传达的核心观点是什么?

郑宇:我今日的分享核心紧紧围绕时空数据,从数据表达、数据管理、数据分析到数据挖掘,提出了一整套不一样的方法论,有别于过去针对文本与图像的处理方案。其实任何一套数据,都应该拥有专属的一套方法理论,从建模、表达、管理、存储管理到挖掘分析一整套流程下来。

问:城市数据整体来说可以分为几种类型?

郑宇:大概可以分为三大类。一类是以图像为代表的非结构化数据,它的存储与挖掘方法都是比较传统的;第二类是以表格为存储形式的政务数据,比如一个人的姓、收入等等,都属于表格结构化的数据;第三类就是我强调的时空数据,这一类会比较特别,既不属于前面两类,也没有太多人去关注。我们相信在 5G 时代来临以后,第三类数据的数量会越来越大,这是未来毫无疑问的发展方向,所以我们就想重点去解决这部分问题。

问:所以从您的角度来看,这部分问题的难点体现在什么地方?

郑宇:如果是时空数据问题,我相信方法论总会推陈出新,再结合实际的问题,加上研究时间的投入,最终都会一个接一个被解决掉。

现在最重要的事情,是如何将大数据与人工智能领域的知识与行业背景、行业知识相结合,这其实是两个不同的领域,一个是 domain work, 一个是 data science。你也许懂得很多工具模型、算法、K 平台,但你可能不懂交通、不懂环境,那你的方法就很难落地。如何将理论与各个行业的业务知识进行结合,并形成真正的落地方案,这也是我觉得目前国内许多AI企业特别是研究院,都会遇到很多难点的环节。

问:要组成一支既懂技术又懂业务的团队,其实还挺有挑战性的,京东智能城市研究院在这块有哪些经验可以分享的吗?

郑宇:我们的团队跟事业部是一种深度绑定、深度融合的关系,很多人在两边都同时兼有岗位。比如我们的成员有可能既是一个部门的经理,也可能是研究院的一个 CV 研究员。当然,也有真正有个别少量的,不是特别多,这部分人就会纯粹做研究,因为我们毕竟还是会需要一些基础理论层面的东西,只不过是说我们会提前把问题进行拆解,再告诉他我们大概需要的是一个什么属性、什么功能的东西,然后交由他们去解决算法本源的问题。然后我们还有一部分人负责做衔接作用、偏应用型的研究。

问:京东智能城市研究院的人员结构组成是什么样的?

郑宇:一大半人都是做的应用型研究,一小半人做基础型研究,大概是六四开的比例。人员数量方面,光 AI 部分目前已有三十几个人,然后加上大数据团队的话,大概是一百来人的规模。

问:您认为一名 AI 开发者要想涉及智能城市领域,他必须具备哪些能力?

郑宇:从技术层面来说,他起码得具备数据挖掘的基础知识。但要说真正去设计一个特别复杂的模型,那倒不一定,因为我们的平台都已经将这些组件开放出来了,比如说交通流量预测、人员预测、空气质量预测、选址模块等,你只要直接进行调用,就可以快速构建出自己的模型。

所以你只需要拥有基本的数据挖掘与人工智能基础知识,但不用特别高深;第二是要懂应用,且对行业背景有所了解,否则可供调用的模块很多,但对于该使用哪个工具、业务需求是什么,这到底是一个预测问题,还是一个优化问题,还是一个分类问题,还是一个回归问题,在此基础上从业务出发,把它关联回来。

问:目前京东智能城市研究院有哪些招人的需求?

郑宇:商业项目交付、解决方案产品经理、行业专家,这些都是我们需要的人才。我们目前这一块业务的增长非常快,需要更多人一起加入进来。

问:您在这个领域深耕也有一段时日了,结合这些年的经历,您会怎么去定义“智能城市”这个概念?

郑宇:在安全、稳定的情况下去做数据互通,做到万物互连、数据互通,这是第一层;第二层是大数据与智能技术,利用大数据、人工智能技术去改变交通、金融等领域;第三层,它一定是个生态城市,包括宜居绿色的生态,包括不同机构与产业之间形成的技术合作,等于一个生态,因为我不可能什么问题都自己解决。就是这样一个概念。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档