京东金融城市计算论文入选IJCAI 2018,郑宇解读地理传感器时间序列预测问题

作者:高静宜

近日,京东金融城市计算业务部的一篇论文《GeoMAN:Multi-level Attention Networks for Geo-sensory Time Series Prediction(基于多层注意力机制神经网络的地理传感器时间序列预测)》被人工智能领域国际顶级学术会议 IJCAI 2018 录用。

空气污染、交通堵塞、能源消耗……这是身处在城市化加速发展进程中的人们每天都不得不面对的难题。

而伴随着技术的不断发展,人们开始尝试使用科学的手段对其加以攻克,一门全新的专业学科及研究领域也应运而生——城市计算。

「用一句话形容城市计算,就是用大数据和人工智能打造未来城市。」京东金融副总裁、首席数据科学家、城市计算事业部总经理郑宇这样解释。

「更具体一点,就是通过对城市大数据的不断采集、管理、整合、分析、挖掘,然后利用挖掘出来的知识来解决城市里面的交通、能源等问题,是大数据、人工智能和云计算在城市里的有机结合。」

京东金融副总裁、首席数据科学家、城市计算事业部总经理郑宇

今年 2 月,京东金融成立城市计算事业部,由郑宇领导。(链接:业界 | 对话郑宇: 做城市计算比 AlphaGo 难多了,但这就是我在京东金融继续 All in 的事

近日,郑宇向机器之心透露了团队的一项最新突破与进展——京东金融城市计算业务部的一篇论文《GeoMAN:Multi-level Attention Networks for Geo-sensory Time Series Prediction(基于多层注意力机制神经网络的地理传感器时间序列预测)》被人工智能领域国际顶级学术会议 IJCAI 2018 录用。

伴随传感技术与城市基础设施的进步,许多城市已经部署了许多分布在不同地理位置的各类型传感器。可以是道路上记录车流量的摄像头,也可以是埋在地下管道中的传感线圈;可以是监控环境天气的温度传感器,也可以是检测水质情况的浊度传感器……

不难发现,所有这些传感器拥有一个特性,会产生一系列空间位置固定且随时间变化的读数,即产生许多时间序列,而这些时间序列之间存在着地理空间上的联系,也就是所谓的「地理传感器时间序列」。

毫无疑问,城市传感器产生的大量地理传感器时间序列与人们的生活、城市的运转有着很强的关联。针对这些数据展开分析预测,就能更加准确地预测空气污染、交通流量等实际问题,不仅可以为用户提供有效的建议,也有利于政府决策,进而「事半功倍」地应对城市中存在的各种挑战,其意义和价值不言而喻。

然而,此前并没有一个通用的算法能够解决这类地理传感器时间序列的预测问题,原因在于,地理传感器时间序列受到很多因素的影响。

首先,传感器数据存在动态的时空关联性,主要体现在两个方面。

不同传感器之间存在空间相关性,但并非静态而是动态的。例如,A 点经历了交通拥堵状况后,下一个时间点 B 点会发生同样的情况,但这并非一成不变的。也许早上是 A 点影响 B 点,但晚上情况相反,B 点会对 A 点造成影响。如果不考虑这一动态相关性,那么预测的准确率会大幅下降。而将这一重要因素考虑在内,就涉及到大量相关参数和信息的处理,计算的复杂度也随之上升。

而对于同一传感器来说,数据的时间相关性也是动态的。例如,非高峰期间的下午 2 点与 3 点,测量交通流量的传感器数据差异不大,相关性较强;但在高峰期的早上 8 点与 9 点,传感器的读数可能存在较大差异。此外,传感器读数也可能存在周期性规律,例如今天 8 点与昨天 8 点的交通情况较为相似,但也并非固定。因此,如何选取合适具有相关性的时间间隔也是一个挑战。

此外,还要考虑到传感器读数还会受到外部因素的影响,例如台风、暴雨等环境因素,特殊活动等事件因素等,都会导致传感器数据出现突变、陡降甚至是拐点。

为了解决地理传感器时间序列的预测问题,京东金融使用深度学习方法,提出了一个基于多层注意力机制循环神经网络的通用解决方案,用于建模动态的时空关联性和建模外部影响因素,从而预测各种类型的地理传感器时间序列。

郑宇表示,论文中提出的 GeoMAN 方法首次在解决时空领域的问题上引入了多层注意力机制,实现了时空数据的分析处理从静态到动态的阶跃。

在此之前,业内也有各种解决地理传感器时间序列这一问题的方法。

最初,人们使用回归模型等方法进行单点预测,没有考虑到地理传感器时间序列所具备的特性;之后,在考察到每个站点本地信息、全局信息和多源异构数据之后,人们会针对不同传感器联合建模;而当传感器数量较为庞大时,深度学习技术被引入这一领域,但基本只考虑了时间维度上的相关性,而在空间相关性上仍采用静态机制。

论文《GeoMAN:Multi-level Attention Networks for Geo-sensory Time Series Prediction》中提出的模型是基于编码器-解码器 (encoder-decoder) 架构设计而成。其中,编码器将历史序列的输入编码成上下文向量,解码器将上下文向量作为输入用于预测接下来各个时刻的序列值。

拆解来看,这个模型可以分为多层注意力机制以及外部因素融合两个部分。

在模型的多层注意力机制部分,首先在编码器每个单元的输入部分使用空间注意力机制来建模动态空间关联性。然后在编码器和解码器之间加入时间注意力机制来建模动态时间相关性。

如此一来,当预测 A 点传感器在未来产生的某种时间序列时,空间注意力机制可以学习到周围传感器的历史读数对 A 点的动态影响,而时间注意力机制则可以学习到历史时间点和预测时间点之间的动态关系。

外部因素融合部分则是用于解决外部因素对地理传感器时间序列的影响,将多源跨域数据分别投影到低维向量中,然后经过某种方式融合为向量输出。

此外,部分地理空间位置上拥有多个传感器数据,这些之间也可能存在相关性。原始的做法是对每一个传感器数据分别建模进行单点预测。将同一站点的不同传感器数据加以考量进行联合建模则可以达成更好的预测结果。

当然,想要为预测模型选取合适的数据源作为模型输入并非易事,这离不开专业知识的储备。

「我一直认为人工智想要实现行业落地的话,一定需要背景知识。有人认为,深度学习是黑盒模型就不需要行业知识,这是不正确的观点。」郑宇补充道,只有结合人的先验知识,才可以更好地设计网络结构、优化算法复杂度,才能得到更好的训练结果。

此外,具备行业背景知识还有助于掌握预测会受到哪些因素的影响,可能是周边的路网结构、兴趣点的分布等等。

郑宇举了一个例子。在水质预测上,很多人会误以为与天气没有关系,因为水管是地下封闭系统,可能与外界的阴晴没有关联。但实际上,不同的天气情况会导致地面人们用水模式产生变化,进而带动用水流量、水压发生改变,间接造成水质的变化。

「所以我们说在城市计算领域使用深度学习技术与在视频、语音、文本上应用深度学习不同,它不是一个简单的应用,而是要对行业及时空数据有深度了解,才能定制更好的模型,得到更好的性能。」

论文表明,GeoMAN 方法在多种不同数据集上(中国东南某城市的管网水质、北京市空气质量)均取得了超出现有方法的效果,并具有很强的可解释性。

通过实验结果可以发现,与领域内领先算法相比,GeoMAN 在水质和空气预测结果的均方根误差和绝对平均误差上的性能表现均有明显提升。

据了解,基于这个算法,城市计算业务部已经部署了管网水质预测系统以实时预测未来的管网水质,以期能够指导自来水工厂更科学地进行投氯消毒,保证居民饮用水质。还可以及时发现水管健康状态,并在第一时间进行维护、修理,保证城市高效运转,为政府的城市建设决策提供参考。

「这个算法会成为我们构建的城市大数据中的一个模块。」郑宇如是说。

与普通云平台不同,京东金融所打造的城市大数据平台会针对特殊的时空数据进行管理,具备针对时空数据的人工智能算法以及各种其他经过改造优化的算法模块,可以支持环境交通、城市规划商业应用。

郑宇告诉机器之心,目前团队基本完成了对城市大数据平台的搭建,并已经在某些场景中展开落地,包括城市人流预测、救护车的智能调度与选址等,并在电力能源、信用城市等方向稳步推进。

「这个城市大数据平台的影响力将不亚于 AlphaGo。」郑宇说道。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏玉树芝兰

“啤酒尿布”模型管用,说不清因果又怎样?

一个模型,可以准确做分类预测。而且反复在新的、没有训练的数据上尝试过,好用,那不就好了?

741
来自专栏腾讯云人工智能

借你一双“慧眼”:一文读懂OCR文字识别︱技术派

摘要:在日常生活工作中,我们难免会遇到一些问题,比如自己辛辛苦苦写完的资料,好不容易打印出来却发现源文件丢了;收集了一些名片,却要一个一个地录入信息,很麻烦;快...

8559
来自专栏新智元

论当下机器学习的根本局限 | 一个万能算法会让工程师都失业吗?

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

4097
来自专栏大数据文摘

[译]贝叶斯生存分析之“权利的游戏”

2916
来自专栏机器之心

魔都要用最先进的神经网络预测交通?前排围观

你是否曾有过这样的经历——有时遇上一个红灯,接下来的每个路口就全是红灯;有时却是一路的绿灯?这并非个人的运气好坏,而是背后一套交通灯系统运行的系统在起作用。

1604
来自专栏AI科技大本营的专栏

热门 | Google Brain前员工深度盘点2017人工智能和深度学习各大动态

翻译 | AI科技大本营 参与 | shawn 编辑 | Donna 2017年是人工智能井喷的一年。Google Brain团队前成员Denny Britz在...

3076
来自专栏机器之心

CCL 2017最佳论文公布,看全国计算语言学前沿研究

机器之心报道 作者:邱陆陆 10 月 14 日、15 日,由中国中文信息学会(CIPS)举办的第十六届全国计算语言学会议(CCL 2017)暨第五届自然标注大...

3678
来自专栏CDA数据分析师

R 语言数据分析师养成计划——从零开始的 14 个任务

作者 CDA数据分析师 1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语...

3177
来自专栏数据科学与人工智能

【数据分析】数据分析也要讲究打组合拳

导读 组合拳是拳击拳法的一种,在进攻当中利用各种单一拳法的组合连续攻击,使对手顾此失彼,达到击中对手的目的。联系到数据分析过程中,引申为采取一连套的方法实现一定...

2367
来自专栏PPV课数据科学社区

不加班,上班可以打游戏,年薪20万起,什么职位这么牛逼...

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”——全球知名咨...

3286

扫码关注云+社区

领取腾讯云代金券