从迪士尼到谷歌,他用推荐算法玩儿转数据科学 | 数据科学50人·鲁颖

鲁颖,曾任美国迪士尼集团首席数据科学家,他领导开发了迪士尼的用户个性化推荐系统,在个性化推荐算法领域有着丰富经历。现任谷歌高级数据科学家,领导 Google Play 数据科学团队。

数据,让一切有迹可循,让一切有源可溯。

小到点外卖、逛淘宝,大至金融风控、智慧城市......如今,我们每个人都是数据的生产者和受益者。在这样的背景下,“数据科学”应运而生。

在数据科学家鲁颖看来,数据科学就是利用大数据的威力,科学系统地解决实际问题的学科。

“一位优秀的数据科学家,必须得是‘多面小能手’,除了过硬的技术、严谨的思维,推理能力和沟通能力也是重中之重,大部分时间还要自己写代码同实际数据打交道。”鲁颖说道,“这需要很强的综合能力。”坐在DT君面前接受采访的他,在说话时,常常稍微抬起手比划着习惯的动作。

鲁颖平时外表沉静,但只要谈及自己的职业,他立刻就会开始变得兴奋,眼里闪烁着光芒。他曾任美国迪士尼集团的首席数据科学家,已经在数据科学行业耕耘多年,现服务于谷歌,任 Google Play 高级数据科学家。

作为统计学出身的博士,鲁颖对机器学习、数据挖掘和人工智能等十分着迷。“我天生喜欢数学,对数字特别敏感,是个有好奇心,并且喜欢钻研。”

▍玩儿转数据科学

对于鲁颖来说,数据科学的魅力在于解决实际问题,而不是仅仅局限于理论研究。

在迪士尼总部担任首席数据科学家期间,他带领团队进行推荐系统的研发,为迪士尼的网站、手机APP 等面向用户的界面提供个性化推荐服务:使用了包括用户特征、浏览历史记录、浏览内容属性、以及用户在迪士尼其他产品的关联行为等上亿级的数据。

他们尝试了从最基本的协同过滤模型过渡到深度学习模型的算法研发和创新,对诸如点击率、平均分位数排名等指标进行不断的优化,从而在离线和在线测试中,各项指标较最初版均得到了超过百分之三百以上的提升,这让鲁颖直接感受到了数据科学的价值。

“我们团队的研发工作对于业务的帮助是显而易见的。这种感觉很棒!”

鲁颖介绍到,除了推荐系统外,迪士尼已经把数据科学融入到了日常运营的方方面面。“迪士尼有很多事业部门,除了大家熟知的迪士尼乐园部和影视部,它还有商城部、互动媒体部等等,每个部门都有数据科学家团队作为迪士尼的大脑,为业务提供支持和决策。”

以迪士尼乐园部为例,鲁颖提到了其前几年推出的迪士尼手环,游客在游玩项目之前需要扫一下手环,通过对群体手环数据的分析,迪士尼乐园可以知道游客对各个游乐项目的喜好,从而优化派发快速通道卡的方式,精准预测排队等候时间,建议优化的游玩路线等。“谁都不愿意花大把时间在太阳下排队,一个小小的数据手环就能解决这些问题。由此可见,数据科学的确可以给整个乐园的运营效率和游客体验带来提升。”

(图片说明:迪士尼乐园;图片来源:视觉中国)

离开迪士尼后,鲁颖加入谷歌,负责其应用商城(Google Play)的数据科学部门,团队工作主要包括“基于数据分析的指标设定、实验的科学性设计和实验数据分析、统计算法的研究以及基于机器学习的用户行为分析和预测等,包括用户画像模型,用户流失模型和个性化推荐模型。”

从迪士尼到谷歌,公司环境的改变给他带来了更多的成长空间。以谷歌的超大规模数据作为基础,他再一次尝试通过数据科学的理念研究如何提升用户体验。

“我们应用商城的个性化推荐算法对于优化产品体验有着巨大的帮助”,他介绍道,基于用户的历史浏览记录、用户画像和 APP 画像,个性化推荐算法可以为用户推荐一个他们最有可能点击或者下载的 APP ,应用商城的效率因此比两年前提升了一倍以上。

“数据让事情变得可度量,数据维度能够清晰的描绘事实,且更具说服力。” 数据之于鲁颖,绝非单调的一组组数字排列,他认为,很多时候,新的机会本身就藏在数据里,只是需要数据科学家们进行深度挖掘。

鲁颖曾经所做过的一个用户流失模型,这个模型本身并不复杂,但在具体分析中,要理解哪些用户流失概率高,有何共同点,哪些特征可以刻画该人群等众多问题,就需要对用户进行特征分析和聚类分析,即所谓的用户画像。再往下深挖,对于用户流失的原因和防止流失的解决方案(通过消息触达提供折扣券等),都要从数据中进行因果分析的挖掘和建模。只有真正理解用户的痛点,才能根本地解决流失问题。其中每个环节都需要对实际商业场景和数据有深刻理解。

▍AI能让人类更聚焦于创新和挑战

对于数据科学,大部分人的认知或许源自 AI 技术,在经典科幻电影《机械公敌》里,以大数据为支撑的机器人在制造过程中,曲解了之前为他们所设定并且保护人类安全的机器人三定律,产生了机器人和人类之间的冲突,而人工智能源于人类制造却高于人类的能力在对抗过程之中带来了巨大优势,人类因此节节败退。

我们目前正在发展的 AI 技术,是否真的会把我们推向影片描绘的将来。

“我觉得 AI 会部分取代人的工作,尤其是那部分繁重、重复、靠大量人力的,并且依赖于经验的工作或者是标准化的任务。”谈及人工智能的未来,鲁颖给出了自己的看法。

对于“ AI 取代人工说”,鲁颖认为,人们正确地应对方式是把注意力放在创新性的任务上,同时科学理性地评判机器可以做到和不可以做到的,不过度夸大或者低估算法的能力,“还有就是开发新的人工智能产品,把机器擅长的工作交给他们去完成。”

“现在利用机器学习在有些场景可以毫秒级得出比人更准确的结果,并且直接带来收入。”在鲁颖看来,目前机器学习在很多领域的技术变革和创新过程中起着主力推动的作用,特别是依靠人力以及经验推断支撑的行业。比如金融风控就是个典型的例子,以前需要人力收集数据,凭经验判断人靠不靠谱,现在机器可以自动打分;生产线上有大量需要产品质检的,现在大部分也可以交给智能摄像头去区分产品是否有缺陷;不少机场还借助人工智能摄像头核对人和护照上的人像是否一致。这些都属于定义很清晰的标准化任务。

(图片说明:鲁颖在美国谷歌总部)

“我觉得未来我们的生活会越来越方便。随着机器人技术和诸如无人车的研发,很多繁重的、重复性的甚至危险的工作都会让机器去完成。人们的注意力会更多地放在创新和更有挑战的工作上。长期来看这是好事。”鲁颖说道。

聚焦机器学习技术的业界应用,鲁颖的建议是,业界应该把数据驱动作为核心价值观的一部分,保持一种开放的态度,鼓励员工多提问题和解决方案,鼓励数据驱动创新。比如,有没有可能把人的经验用机器学出来,并且自动化和规模化。

“促销投放就是个典型的例子,什么人群对什么促销感兴趣,完全可以以机器学习建模为核心,建立一套自动化的端到端的解决方案。一线的数据科学家和算法工程师在很多时候会在数据分析和挖掘的过程中有着独到的发现和见解,公司应该鼓励和尊重这些,并允许他们花一定的时间去尝试新的想法和一定程度内的试错。”鲁颖说到。

▍永远对数据保持敬畏

如今,创造、使用大数据已成为日常,可越来越多的滥用用户数据丑闻又不禁让人“谈数色变”。在对话过程中,鲁颖强调最多的一句话就是,“和数据打交道,一定要尊重数据,尊重用户,用严谨的态度去使用数据。”

就近来沸沸扬扬的 Facebook (脸书)泄密门,他也表达了自己的看法,“我举双手支持用户数据保护,5月底刚生效的欧盟‘史上最严’数据保护新规,就是个很好的举措和开端。”他还透露,谷歌很多部门花了近一年时间,对数据的存储和使用规范进行了改进,比如保证用户删除数据后,无法再利用他删除的数据做个性化推荐等。“数据是用户的,他们有权利决定分享与否,我们理应尊重和保护。对数据的使用应该在合理的范围内进行,不能以用户隐私为代价。”

虽然相比美国起步较晚,但中国的数据科学行业正在以前所未有的速度发展。从2017年开始,有越来越多的华人数据科学家选择回国。拥有众多光环加身的鲁颖,最近也在考虑回国,他非常支持数据科学家回国发展。他觉得,在美国的学习和工作经历十分宝贵,如果最终能把这份经验和前沿技术与中国的实际需求场景进行碰撞,对中国的科技发展将会有很大的帮助。

(图片说明:鲁颖博士接受DT君专访)

“我希望中国对于数据科学能保持持续的重视,坚信数据驱动价值,给予数据科学家足够的尊重和广阔的平台,让他们发挥才能,解决有意义、有挑战性的问题。”

对话期间,鲁颖多次提及对于数据科学的实用理念,讲述自己从事的工作时也往往告诉我们数据科学能够给我们带来的究竟是什么。对于这一行业,他极力欢迎年轻人在兴趣的基础之上加入。

他告诉我们,如果时间能够再重来一次,他还是会选择数据科学这条道路——在本科数学系毕业之后出国留学,到美国读取一个博士学位,再加入谷歌微软之类的老牌巨头,之后把学到的技术和做事风格以及理念带回国内。

也许过程会有不同,但不变的是对数据科学的追求,对数据驱动价值的信仰。

文 | 陈南杉

题图 | 站酷海洛

▍数据侠门派

鲁颖博士,本科毕业于复旦大学数学系,博士毕业于美国明尼苏达大学统计系。曾就职于美国迪士尼集团首席数据科学家,现任谷歌 Google Play 数据科学家。他还是《Keras快速上手:基于Python的深度学习实战》一书主要作者之一。

原文发布于微信公众号 - DT数据侠(DTdatahero)

原文发表时间:2018-06-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏罗超频道

智能互联网时代来临,最先爆发的AI应用会是语音吗?

移动互联网之后智能互联网时代已然来临。不过,究竟什么是人工智能?AlphaGo战胜人类棋手除了可以作为谈资之外其实与大多数人没关系,用人工智能技术调度外卖配送员...

2904
来自专栏人工智能快报

新合作帮助英国新创企业获取超级计算AI资源

英国Digital Catapult公司和超级计算厂商Cray开展的一项合作将帮助新创公司获取Cray公司人工智能实验室的超级计算资源。

962
来自专栏华章科技

那些年,曾经被我们误读的大数据

如今,只要能谈论点儿大数据就显得很高大上。然而,大数据挖掘、大数据分析、大数据营销等事情仅仅只是个开始。当然,也有很多人直接批判大数据或大数据营销给我们造成隐私...

801
来自专栏ATYUN订阅号

滑铁卢大学研究团队利用AI和雷达监测血糖,准确率高达85%

在最近的一项研究中,滑铁卢大学研究人员将雷达和人工智能(AI)技术相结合,以检测葡萄糖水平的变化,而无需每天刺破手指来测量血糖。

1154
来自专栏CDA数据分析师

【系列文】数据分析在电信行业的应用!

数据分析在电信行业的应用 1 大数据运营已为大势所趋 电信与媒体市场调研公司Informa Telecoms & Media在2013年的调查结果显示,全球12...

2555
来自专栏大数据挖掘DT机器学习

分析产品数据时需要注意哪些坑?

之前在国外的论坛中有看到关于数据分析的细分,英文单词是segmentation,Segmentation的原意是分割。怎么理解呢?试想想,当大量的数据摆在面...

2944
来自专栏人称T客

谁会是AI领域中的赢家?亚马逊、谷歌还是微软?

这些年里,云与AI的结合愈发紧密,AI即服务(AIaaS)也从最初的概念变成了现实。就目前而言,包括Amazon,Google和微软在内的巨头都希望能够主导云A...

3385
来自专栏PPV课数据科学社区

从大数据中「提炼」出商业见解,企业还有很多工作要做

编者按:随着互联网的普及化以及物联网的快速发展,人们产生的数据也越来越多。早几年前,马云就突出了当前是“DT”时代的说法。但数据的多并不代表着就是好事,只有被利...

37911
来自专栏机器人网

说好的小米平衡车呢,它怎么变成了9号机器人?

CES2016展会上,Intel 联合小米投资的NineBot以及之前被NineBot收购的赛格威(Segway),推出了一个可以变成机器人的平衡车Hoverb...

4618
来自专栏罗超频道

当人工智能深入百度地图数据生产:机器取代人的又一个样本

今天,百度对外发布了第二季度财报。财报中提到,作为百度移动化、服务化的重要产品之一,百度地图在构建服务生态、索引真实世界的进程中正发挥出越来越重要的作用。在提升...

3927

扫码关注云+社区

领取腾讯云代金券