专栏首页PPV课数据科学社区【IT名人堂】站在互联网+风口上:百度地图背后的大数据能飞起来吗?

【IT名人堂】站在互联网+风口上:百度地图背后的大数据能飞起来吗?

在互联网+热潮下,谈的最火的话题之一是大数据,而在大数据领域做得风生水起的当属百度和阿里了。从世界杯预测、高考预测、到奥斯卡奖项预测,百度大数据吊足了大家的胃口,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,可以收集到移动互联网用户海量得出行数据,百度迁徙更是在春节期间一炮走红,百度热力图、百度天眼等产品也相继出世。天地之间,无论何时何地,我们的世界都漂浮着海量的时空大数据,站在互联网+的风口上,这些时空大数据能飞起来吗?它们究竟有哪些用武之地呢?本期名人堂皮皮邀请到了百度研究院大数据部实验室数据科学家吴海山坐镇,为我们揭晓百度大数据的神秘面纱。

皮皮(Q1)

您好!很高兴有机会采访到您,我了解到您此前在IBM研究院从事商业数据的研究与优化,现在负责百度时空大数据的挖掘研究,那很多人可能对时空大数据感到困惑,究竟什么样的数据是时空大数据呢?您觉得IBM的大数据和百度的大数据来源有啥区别?

吴海山(A1)

所谓的时空大数据(spatial-temporal big data),指的是随着时间变化的空间数据,最为典型的就是人出行时产生的历史轨迹,根据轨迹我们就可以知道你什么时候(时)出现在什么地方(空)。近年来,随着移动互联网的普及,有定位传感器的智能手机覆盖面也越来越广,每天会不断产生海量的人为位置数据,也就是时空大数据。

大数据可是说是IBM炒红的一个概念。IBM主要以提供商业解决方案为主,主要的客户来自交通、电力和银行等行业。从某种意义上来说,IBM本身不产出数据,主要提供对数据的存储硬件设备和相应的数据分析软件平台。和IBM不同的是,百度是一个互联网公司。放眼望去,全国网民每天可产生近百亿的搜索,像百度地图、百度搜索等都产生了海量的数据。

皮皮(Q2)

今年春节前夕,业界首个以“人群迁移”为主题的大数据可视化项目---百度迁徙精彩亮相了,有人把它比喻成上帝的视角来看待大数据的魅力,大家可以实时查看全国人口的流动情况、查询实时航班信息、还能嗅探到全国火车站和飞机场热度等,这些以烟花般美丽炫酷的信息图背后到底用到了百度哪些技术呢?

吴海山(A2)

百度迁徙是一个非常棒的项目,尤其是今年的百度迁徙还加入了百度天眼的航班信息、火车站信息等,效果非常炫。我本人并没有参与到这个项目,所以无法对具体的技术细节做讲解。不过总体来讲包括这样几个部分:其一,后端实时流数据的传输和计算。每天由百度地图产生的各种数据量非常大,百度迁徙需要尽量缩短数据的清洗、处理等带来的时间延迟,百度拥有自己强大的流计算平台;其二,前端的数据可视化技术。这个用到了百度自己开发的Echarts,可以高效的呈现可视化时空数据。

皮皮(Q3)

百度地图覆盖500万公里路网和全国95%的高速公路,支持全国337个地级城市高清卫星图和热力图服务,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,它是如何做到数据的实时定位的呢?我们知道百度推出的很多O2O服务都以百度地图作为第一流量入口,比如天气应用、同城类应用等第三方应用能不能和我们分享下百度地图发力O2O的案例?

吴海山(A3)

百度拥有自己研发的定位SDK,可以通过多种方式,如通信基站、GPS卫星、WIFI等方式在不同情景下实现精确的实时定位,当然不同的定位方式,精度有所不同。

作为百度研究院的大数据实验室(big data lab, BDL),我们主要结合公司的长期战略,进行相对前沿的研究,孵化相关有潜力的产品demo。比如我们最近有一个关于智能化、个性化的地图搜索技术,当大家在百度地图上搜索“某某饭店”时,我们会根据用户的历史位置检索偏好等信息,准确预测用户到访该饭店的时间,然后饭店可以提前为用户排号、检查停车位等服务,并根据到访的用户量优化资源配置,从而实现打通线上、线下服务。我们还推出了算法,可以预测用户下一个要搜索位置的类型,超前一步,将用户最想找的位置放在最前面,通过预测性位置搜索(predictive location search)提高用户的体验。

皮皮(Q4)

百度在大数据上动作频频,比如世界杯预测、高考预测、奥斯卡预测吊足了大家的胃口,春节期间百度迁徙更是一炮走红,百度热力图、百度天眼等产品也相继出世,而支撑这背后的团队无疑归功于像您一样,一群百度研究院大数据实验室的工程师们,能否和我们介绍下百度研究院大数据实验室?您们在研发诸如上述的百度大数据产品时有哪些创意和趣闻轶事呢?

吴海山(A4)

百度研究院(Baidu Research)有三个实验室,除了我们的大数据实验室(BDL), 还有深度学习实验室(IDL)和在美国硅谷人工智能实验室(AI Lab)。研究院的院长是Andrew Ng博士,我们实验室的主任是著名的机器学习科学家张潼教授。

除了时空数据的研究,我们实验室的研究方向还有智能预测引擎(如百度高考预测、世界杯预测等)、大规模机器学习算法研究、智能医疗等方向,实验室的主要成员都是来自国内外的知名研究院所。作为公司的研究部门,我们本身并不负责一个完成产品的开发,更侧重根据研究成果开发prototype,然后会有相关的产品部分负责产品化。

皮皮(Q5)

我国人口众多,重大文体活动、节假日集会等活动中,容易出现因人群过度拥挤而引发的危险乃至事故。那么百度大数据是否可以提前预测,做到事前预警呢?请结合上海踩踏事件谈谈您的想法。

吴海山(A5)

说起人群拥挤的研究,还要从我在普林斯顿的博士后研究说起。我一直对自然界的群体行为十分感兴趣,当时主要研究的就是鱼的群体行为,就是想探索为什么鱼可以成群的游泳、背后有哪些玄机?有个非常不错的研究成果,最近刚刚发表在美国科学院院刊(PNAS)上,我们通过计算机视觉、机器学习的方法探索了信息在鱼群中的传播机理。对于人群来讲,行为其实更加复杂。尽管国内外也有不少学者对人群的异常行为做了很少研究,但是要说预测,还是非常非常困难的事情。我个人觉得,我们最多能做的是可以提前发现异常,进行预警还是相对可行的。

上海外滩发生踩踏悲剧后,1月2日,我们实验室就在用百度的定位数据进行了可视化分析,然后负责开展与百度大数据的外滩踩踏事件分析。通过和其他几位同事一起尝试融合百度的多个数据源,试图还原当时的场景,看是否可以在事后寻找一些可以对将来有帮助的线索。根据我个人的研究经验,发生踩踏事情基本是难以预测的,国内外都发生过多次这样的悲剧,比如当时很多媒体报道认为,由于人多导致了悲剧,我们的分析结果表明,南京东路附近同样达到过类似的人群密度,但却没有发生悲剧。我们当时的研究也主要集中在预警而不是预测上。根据我们的研究,我们发现通过融合多个数据源,是有可能进行预警的:我们发现用户在去目的地之前,会提前使用百度地图进行搜索,进行路径规划后,到达现场,这个时间的提前量在半个小时到两个小时不等,我们还用了鸟巢、首体等地点大型活动的数据进行了验证,也发现了同样的现象。而且地图位置的搜索量和人口定位量也高度相关,这意味着我们可以提前预测人口流量。如果人口流量超过一定阈值,相关部门则可以进行提前布置警力等来预防。此外,我们还研究预测算法,来更准确的预测人流量。目前我们正在开发该产品,希望将来百度大数据能为公共安全贡献一份力量。

皮皮(Q6)

被誉为互联网下一个入口的是LBS,百度、阿里、腾讯三大互联网巨头纷纷在地理位置服务领域加大了布局,互联网地图的“入口”之争将会愈演愈烈,高德地图对百度地图步步紧逼,百度LBS开放平台横跨了Web端、移动端、服务端,能否和我们谈谈百度LBS有哪些优势?

吴海山(A6)

时空大数据挖掘作为我们实验室的一个重要研究方向,产出的研究成果,将会为百度LBS提供强大的“百度时空大脑”:比如我们重点研究的个性化和预测性的位置搜索(personalized and predictive location search)将可以服务百度地图搜索;我们对基于百度大数据的公共安全领域的研究,将可以帮助百度LBS在将来拓展该领域的市场;我们还有一些更加前沿的项目研究,这些研究结果不但可以更好的理解百度用户的行为,实现更加智能的人与服务的链接,还可以让公众看到,这些研究在将来受益所有的中国人。通过数据洞察当今的中国,是我们的使命。

★每日一题(答案次日公布)

昨日Q20 答案:A

Q21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( ) A 1比特 B 2.6比特 C 3.2比特 D 3.8比特

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-04-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 百度迁徙--带您看春运大数据

    一张图,尽显中国春运迁徙实景。 这张图,显现中国当下民生现状。 百度迁徙,是目前最接地气的大数据。 近日,中央电视台的晚间新闻专门推出了“据说春...

    小莹莹
  • 【数据可视化专题】开启大数据时代最后一公里:数据可视化工具Echarts

    在大数据的时代背景下数据可视化的价值显得尤为突出,国内外出现了很多数据可视化产品,其中又以在Web上呈现数据统计图表的组件库最为多样,国外比较著名的如Highc...

    小莹莹
  • 【书单】统计学经典教材书单

    一、统计学基础部分 1、《统计学》David Freedman等著,魏宗舒,施锡铨等译,中国统计出版社。 据说是统...

    小莹莹
  • 为什么我越来越看好百度做个性化推荐?从手机百度9.0改版说起

    对于覆盖数亿级用户的超级App来说,从每一次改版都可以“管中窥豹”看战略方向。近日手机百度9.0大版本在我看来就是手机百度对移动搜索的重构,也体现出个性化内容平...

    罗超频道
  • 用户视角看百度移动:从流量集散地到流量目的地

    仅从数据上看,如果用一句话描述当前的BAT,那就是“你大爷还是你大爷”。尤其是百度,位置比想象中要牢靠得多。

    数据通20847430
  • 手机百度切入交易的逻辑

    继阿里腾讯请全国人民打车、淘宝百度糯米三八节请看电影和进餐厅之后,百度又来送福利了。相关报道显示,手机百度5.3版本将在五一期间“请全国人民半价逛景区”和“电影...

    罗超频道
  • 没救了的百度 没品的公司

    如果你要问我最不值得尊重的互联网公司有哪些?我首推百度,当Google在研究VR的时候,他在研究如何竞价收钱,当Google在研究无人汽车的时候,他在研究如何助...

    人称T客
  • 【突发】原百度研究院院长林元庆离职,投身AI创业大军

    【新智元导读】 根据最新消息,原百度研究院院长林元庆已经从百度离职。 根据媒体爆料,百度前IDL研究院院长林元庆已经离开百度。新智元联系百度方面, 但截止发稿前...

    新智元
  • 【百度世界大会】李彦宏:在AI的黎明回望初心,无人车2018年量产

    【新智元导读】 2017“百度世界”正在北京举行,李彦宏和陆奇先后登场,新智元带来最新的大会现场报道。李彦宏在演讲中提到:将在2018年量产无人驾驶汽车、百度即...

    新智元
  • 又一百度杰出科学家离职,百度研究院成中国AI的黄埔军校

    7 月 24 日凌晨,百度深度学习(IDL)研究院“杰出科学家”徐伟在朋友圈宣布离职百度,加入地平线,担任通用 AI 首席科学家。

    AI科技大本营

扫码关注云+社区

领取腾讯云代金券