【IT名人堂】站在互联网+风口上:百度地图背后的大数据能飞起来吗?

在互联网+热潮下,谈的最火的话题之一是大数据,而在大数据领域做得风生水起的当属百度和阿里了。从世界杯预测、高考预测、到奥斯卡奖项预测,百度大数据吊足了大家的胃口,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,可以收集到移动互联网用户海量得出行数据,百度迁徙更是在春节期间一炮走红,百度热力图、百度天眼等产品也相继出世。天地之间,无论何时何地,我们的世界都漂浮着海量的时空大数据,站在互联网+的风口上,这些时空大数据能飞起来吗?它们究竟有哪些用武之地呢?本期名人堂皮皮邀请到了百度研究院大数据部实验室数据科学家吴海山坐镇,为我们揭晓百度大数据的神秘面纱。

皮皮(Q1)

您好!很高兴有机会采访到您,我了解到您此前在IBM研究院从事商业数据的研究与优化,现在负责百度时空大数据的挖掘研究,那很多人可能对时空大数据感到困惑,究竟什么样的数据是时空大数据呢?您觉得IBM的大数据和百度的大数据来源有啥区别?

吴海山(A1)

所谓的时空大数据(spatial-temporal big data),指的是随着时间变化的空间数据,最为典型的就是人出行时产生的历史轨迹,根据轨迹我们就可以知道你什么时候(时)出现在什么地方(空)。近年来,随着移动互联网的普及,有定位传感器的智能手机覆盖面也越来越广,每天会不断产生海量的人为位置数据,也就是时空大数据。

大数据可是说是IBM炒红的一个概念。IBM主要以提供商业解决方案为主,主要的客户来自交通、电力和银行等行业。从某种意义上来说,IBM本身不产出数据,主要提供对数据的存储硬件设备和相应的数据分析软件平台。和IBM不同的是,百度是一个互联网公司。放眼望去,全国网民每天可产生近百亿的搜索,像百度地图、百度搜索等都产生了海量的数据。

皮皮(Q2)

今年春节前夕,业界首个以“人群迁移”为主题的大数据可视化项目---百度迁徙精彩亮相了,有人把它比喻成上帝的视角来看待大数据的魅力,大家可以实时查看全国人口的流动情况、查询实时航班信息、还能嗅探到全国火车站和飞机场热度等,这些以烟花般美丽炫酷的信息图背后到底用到了百度哪些技术呢?

吴海山(A2)

百度迁徙是一个非常棒的项目,尤其是今年的百度迁徙还加入了百度天眼的航班信息、火车站信息等,效果非常炫。我本人并没有参与到这个项目,所以无法对具体的技术细节做讲解。不过总体来讲包括这样几个部分:其一,后端实时流数据的传输和计算。每天由百度地图产生的各种数据量非常大,百度迁徙需要尽量缩短数据的清洗、处理等带来的时间延迟,百度拥有自己强大的流计算平台;其二,前端的数据可视化技术。这个用到了百度自己开发的Echarts,可以高效的呈现可视化时空数据。

皮皮(Q3)

百度地图覆盖500万公里路网和全国95%的高速公路,支持全国337个地级城市高清卫星图和热力图服务,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,它是如何做到数据的实时定位的呢?我们知道百度推出的很多O2O服务都以百度地图作为第一流量入口,比如天气应用、同城类应用等第三方应用能不能和我们分享下百度地图发力O2O的案例?

吴海山(A3)

百度拥有自己研发的定位SDK,可以通过多种方式,如通信基站、GPS卫星、WIFI等方式在不同情景下实现精确的实时定位,当然不同的定位方式,精度有所不同。

作为百度研究院的大数据实验室(big data lab, BDL),我们主要结合公司的长期战略,进行相对前沿的研究,孵化相关有潜力的产品demo。比如我们最近有一个关于智能化、个性化的地图搜索技术,当大家在百度地图上搜索“某某饭店”时,我们会根据用户的历史位置检索偏好等信息,准确预测用户到访该饭店的时间,然后饭店可以提前为用户排号、检查停车位等服务,并根据到访的用户量优化资源配置,从而实现打通线上、线下服务。我们还推出了算法,可以预测用户下一个要搜索位置的类型,超前一步,将用户最想找的位置放在最前面,通过预测性位置搜索(predictive location search)提高用户的体验。

皮皮(Q4)

百度在大数据上动作频频,比如世界杯预测、高考预测、奥斯卡预测吊足了大家的胃口,春节期间百度迁徙更是一炮走红,百度热力图、百度天眼等产品也相继出世,而支撑这背后的团队无疑归功于像您一样,一群百度研究院大数据实验室的工程师们,能否和我们介绍下百度研究院大数据实验室?您们在研发诸如上述的百度大数据产品时有哪些创意和趣闻轶事呢?

吴海山(A4)

百度研究院(Baidu Research)有三个实验室,除了我们的大数据实验室(BDL), 还有深度学习实验室(IDL)和在美国硅谷人工智能实验室(AI Lab)。研究院的院长是Andrew Ng博士,我们实验室的主任是著名的机器学习科学家张潼教授。

除了时空数据的研究,我们实验室的研究方向还有智能预测引擎(如百度高考预测、世界杯预测等)、大规模机器学习算法研究、智能医疗等方向,实验室的主要成员都是来自国内外的知名研究院所。作为公司的研究部门,我们本身并不负责一个完成产品的开发,更侧重根据研究成果开发prototype,然后会有相关的产品部分负责产品化。

皮皮(Q5)

我国人口众多,重大文体活动、节假日集会等活动中,容易出现因人群过度拥挤而引发的危险乃至事故。那么百度大数据是否可以提前预测,做到事前预警呢?请结合上海踩踏事件谈谈您的想法。

吴海山(A5)

说起人群拥挤的研究,还要从我在普林斯顿的博士后研究说起。我一直对自然界的群体行为十分感兴趣,当时主要研究的就是鱼的群体行为,就是想探索为什么鱼可以成群的游泳、背后有哪些玄机?有个非常不错的研究成果,最近刚刚发表在美国科学院院刊(PNAS)上,我们通过计算机视觉、机器学习的方法探索了信息在鱼群中的传播机理。对于人群来讲,行为其实更加复杂。尽管国内外也有不少学者对人群的异常行为做了很少研究,但是要说预测,还是非常非常困难的事情。我个人觉得,我们最多能做的是可以提前发现异常,进行预警还是相对可行的。

上海外滩发生踩踏悲剧后,1月2日,我们实验室就在用百度的定位数据进行了可视化分析,然后负责开展与百度大数据的外滩踩踏事件分析。通过和其他几位同事一起尝试融合百度的多个数据源,试图还原当时的场景,看是否可以在事后寻找一些可以对将来有帮助的线索。根据我个人的研究经验,发生踩踏事情基本是难以预测的,国内外都发生过多次这样的悲剧,比如当时很多媒体报道认为,由于人多导致了悲剧,我们的分析结果表明,南京东路附近同样达到过类似的人群密度,但却没有发生悲剧。我们当时的研究也主要集中在预警而不是预测上。根据我们的研究,我们发现通过融合多个数据源,是有可能进行预警的:我们发现用户在去目的地之前,会提前使用百度地图进行搜索,进行路径规划后,到达现场,这个时间的提前量在半个小时到两个小时不等,我们还用了鸟巢、首体等地点大型活动的数据进行了验证,也发现了同样的现象。而且地图位置的搜索量和人口定位量也高度相关,这意味着我们可以提前预测人口流量。如果人口流量超过一定阈值,相关部门则可以进行提前布置警力等来预防。此外,我们还研究预测算法,来更准确的预测人流量。目前我们正在开发该产品,希望将来百度大数据能为公共安全贡献一份力量。

皮皮(Q6)

被誉为互联网下一个入口的是LBS,百度、阿里、腾讯三大互联网巨头纷纷在地理位置服务领域加大了布局,互联网地图的“入口”之争将会愈演愈烈,高德地图对百度地图步步紧逼,百度LBS开放平台横跨了Web端、移动端、服务端,能否和我们谈谈百度LBS有哪些优势?

吴海山(A6)

时空大数据挖掘作为我们实验室的一个重要研究方向,产出的研究成果,将会为百度LBS提供强大的“百度时空大脑”:比如我们重点研究的个性化和预测性的位置搜索(personalized and predictive location search)将可以服务百度地图搜索;我们对基于百度大数据的公共安全领域的研究,将可以帮助百度LBS在将来拓展该领域的市场;我们还有一些更加前沿的项目研究,这些研究结果不但可以更好的理解百度用户的行为,实现更加智能的人与服务的链接,还可以让公众看到,这些研究在将来受益所有的中国人。通过数据洞察当今的中国,是我们的使命。

★每日一题(答案次日公布)

昨日Q20 答案:A

Q21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( ) A 1比特 B 2.6比特 C 3.2比特 D 3.8比特

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-04-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

你知道吗,Google已经收购了这么多家人工智能公司!

在通往人工智能的路上,Google一直在不停地买买买。 谷歌在2011年成立AI部门,目前已经有100 多个团队用上了机器学习技术,包括Google搜索、Goo...

41080
来自专栏AI研习社

转行人士如何在人工智能领域保持一定的竞争力?

原问题描述: 没有学术认可:转行意味着没有相关领域的论文记录和对应的学位,即便水了一篇,被学术界认可的概率很低。而且码力有限,只要科班一直保持写码学习,写码速度...

378110
来自专栏镁客网

计算机视觉下一个技术拐点?前端成像或将开启“视觉2.0时代”

19770
来自专栏PPV课数据科学社区

对话美国科学家,大数据到底怎么影响我们的生活?

大信息大爆炸的今天,不讨论大数据这个话题似乎就是跟不上时代。从医药到教育,再到其他各个领域,大数据充斥着现代社会的每个角落。而我们最关心的还是大数据最终将以什么...

25950
来自专栏新智元

在被算法取代前,程序员或将因为物理学家而更早消失

【新智元导读】你可能不知道,设计最早的计算机 ENIAC 的 John Mauchly 是物理学家,发明 C 语言的 Dennis Ritchie 也是物理学家...

35740
来自专栏数据科学与人工智能

【机器学习】Quora机器学习Sessions:对话百度首席科学家Andrew Ng

Writing Sessions是知识共享网站Quora推出的一个与专家交流互动的新板块,在这里你可以看到各个行业领域的专家、学者、名人等对引人注目的问题的独...

30470
来自专栏企鹅号快讯

如何快速高效地学习互联网新技术

我们生活在一个振奋人心的时代,区块链、人工智能、大数据,现在各种新技术层出不穷,那么如何快速高效地学习互联网新技术呢?我认为首先思想要主动求变,敢于跳出自己的舒...

21160
来自专栏CDA数据分析师

2017年热度最高的十大技术类技能 数据挖掘/分析上榜!

我们将一同了解十大市场需求最旺的技术性技能,这些具体技能类别源自Computerworld 2017年展望性调查中受访者们评出的未来12个月最需要引进的技术人才...

24590
来自专栏数据科学与人工智能

回归算法在数据比赛使用场景

本文整理了14个天池、DataCastle、CCF竞赛中可使用回归算法处理的问题场景。 1 生活大实惠:O2O优惠券使用预测 随着移动设备的完善和普及,移动互联...

39660
来自专栏腾讯研究院的专栏

如果技术是一种生命

image.png 推荐语: 对“技术”这种事物的分析框架,长期以来一直是功能导向和结果导向的,它能做什么,它的原理是什么,它的上下游技术各是什么...

19690

扫码关注云+社区

领取腾讯云代金券