前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Drawbridge总监 数据科学负责人李想:跨屏打通之后的数据链接

Drawbridge总监 数据科学负责人李想:跨屏打通之后的数据链接

作者头像
数据猿
发布2018-04-19 16:07:32
7760
发布2018-04-19 16:07:32
举报
文章被收录于专栏:数据猿数据猿

<数据猿导读>

Drawbridge总监、数据科学负责人在“无数据不智能”的主论坛上,分享了技术如何联结数据。李想分享了强账号体系和跨屏联结两个概念

数据猿报道,2016年4月20日,2016 UBDC全域大数据峰会在京召开。本次峰会是由行业协会、互联网领军企业、知名品牌商联合打造的国内首个全域大数据行业峰会。共同探讨跨国界、跨终端、跨领域的全域大数据最具前瞻性和代表性的话题。

Drawbridge总监、数据科学负责人李想在“无数据不智能”的主论坛上,分享了强账号体系和跨屏联结两个概念。

李想认为,强账号体系是封闭的,譬如腾讯账号在腾讯体系内是可行的,但是用户一旦脱离了腾讯环境。后面的情况就不得而知了。而实际上,如果每一个用户都可能拥有很多设备,这些设备有可能有各自不同的使用场景和使用习惯。但是属于同一用户的话,用户在这设备上会有一定的相关性,如果我们观察数据的面足够广,数据的量也足够大,从一定程度上我们是有这个可能发现这些数据其实是一个人的。

本文由“135编辑器”提供技术支持

以下是数据猿现场独家直播“Drawbridge总监,数据科学负责人李想”的发言实录:

李想:大数据时代,有什么最大的变化,我说应该是有各种各样的基于用户的互联网设备的促进,比如从最早智能手机开始,后来出现智能电视、智能手表,甚至有物联网,这种设备的出现对终端用户来讲是激动人心的事情,因为他们可以在任何时间,任何地方,用很多方式获取他们想要得到的信息。

另外一方面,对很多企业来讲,这些大的互联网设备的出现引起了一个新的问题,我们知道很多企业最终的目的是要把产品卖给客户,很多时候这个企业的产品跟客户所拥有的移动设备的数量没有关系。比如这是一个化妆品公司,他的任务是把他的化妆品卖给他的客户,他不会说他的客户拥有两三台电脑会比没有电脑或是拥有2台手机的客户买的化妆品多。在这种情况下,用户获取信息的途径比较简单,报纸、电视,从现在看,这些渠道是一个非常粗暴,最原始的方法,它对客户没办法做个性化的推送。他做的事情非常简单,把广告投放到有限的渠道里去,就可以直接影响到这个客户的购买行为。

现在随着各种各样的移动互联网设备出现,用户的行为发生了翻天覆地的变化,首先用户获取信息的途径是千千万万,电脑、手机、平板,这是一个最大的变化。从大的方面讲,应该有两种方式,另外一种是基于概率的领域,我会花比较多的时间说明。

强帐号体系,开放的挑战

看用户是不是用同一个账户登录。我们总结一下,这些设备有可能有各自不同的使用场景和使用习惯。但是属于同一用户的话,用户在这设备上会有一定的相关性,如果我们观察数据的面足够广,数据的量也足够大,从一定程度上我们是有这个可能发现这些数据其实是一个人的。

下面从技术层面做一些相对深入的分析,首先把这设备把概念连接起来,它一定是一个大数据系统,唯一能够知道哪些设备是属于同一方法,我们把观察到的设备拿到这个系统来。比如举个应用场景,PC端跟移动互联网的连接,把我们能观察的PC端的标识和移动端的标识拿在一起,我们对这个数据做大量的沉淀、梳理、处理,两个设备之间的标识。换句话说,这相当于大海捞针的过程,整个系统的输出是比较少的数据量,但是它的数据一定是海量的数据。

举一个实际的例子,我们一个处理600亿次的系统。这个系统大概是怎么工作的?一般分成三个模块:

第一个模块:海选系统

它把所能观察到的PC端和移动端的数据拿过来,我尽量产生一个有可能的配对,这是什么意思?这些配对有可能是属于同一个用户的,在海选阶段有两个特点,第一个特点,它处理的速度应用非常快,如果你处理速度赶不上数据进来的速度,会有很大问题。第二个特点,它对配对的质量有所要求适当的放松。但是我们希望属于同一个人的设备中尽量在海选阶段保留下来。

第二个阶段:精选阶段

在这里我们会对海选的结果提取一些非常复杂的特征,我们会用相对计算量非常复杂的模型,他们所谓做这些事情只有一个目的,我们希望对海选的配对产生一个分,配对正确的标识分出的越高越好。我们可以做一些其它的处理,比如排序等等,所以目的只有一个,尽量把错误的配对删除,或者打一个很低的分,把可能属于同一用户的配对的分值提上去。

第三个阶段:设备的标识

在一般这种情况下,对我们将近一半的客户,精选的量的结果就足够了,他们需要的东西很简单,比如PC端跟手机的配对,但是对我们另外一半客户,他们需要更苛刻或者复杂一些,你能不能对我们的客户所有移动的标识,我们需要做的聚类的处理模块,我们把前面两块的结果拿过来,先产生一个图,如果你做图的话,肯定会有结点。这里面结点是各个设备的标识,比如PC跟移动设备的标识。有这样的结果以后,我们下面谈具体的应用的例子:

第一是我们要做完整的用户画像,这是真正的用户,但是他的照片是我加的,我不知道这个用户长什么样。我们知道用户的地理位置,在纽约,他的年龄、收入情况等等,我们也知道他线下的一些活动,通过我们这个数据打通,我们掌握了这个用户在PC端、移动端,以及智能电视上面的画像,通过这个分析,我们会发现这个用户在这三个不同设备的画像,他们都是提供了一些非常独特的信息,比如我们看到这个用户是一个服装设计师或者搞艺术的工作者。

如果你看用户在移动端的画像,会发现这个用户是相对比较时尚,有很多社交的活动,对游戏有一定的偏好。如果我们看这个客户在电视上的画像就更有意思,这个客户虽然是做服装设计,他特别喜欢跟户外有关的频道,比如发现频道等等,这实际是一个更好的例子,有可能把一个服装设计师跟喜欢户外的人连接在一起,对用户有全面的了解。有了这个画像之后,具体的应用就出来了。

今天我大概会介绍三个具体应用的例子:

第一个是:定义延伸

我们在跨屏定向里有个比较好的案例,跟美国的信用卡公司合作。广告投放的渠道主要是在PC端,原因很简单,使用信用卡的话,你要填比较复杂的表格,而且这个对用户人群是有一定要求的,比如他对你的性别、年龄、家庭构成等等,最重要的是他对你的收入是有一定的要求。

而且还有一个情况,在过去几年里,在PC端能满足他要求的货客量逐渐减少,大家也很奇怪,过去几年美国经济并没有变差,那用户怎么会变少呢?原因很简单,客户是在从移动端向PC端转移了,这数量自然就减少,我们的解决方案很简单,打通完以后,我们把移动端的用户画像附加在你PC端的用户画像,对完整的用户画像做投放,申请信用卡的用户和被批准的用户增加25%,这个事很显著,每申请一张信用卡,给公司带来的收益是很大的。

第二个是:地理延伸

地理延伸的案例是我们发现客户到他们门店那里去并没有做购买和转化的工作。我们的解决方案是,你把到你门店的用户的手机信息告诉我,我拿到这客户的手机信息之后,做了一些处理,用户从移动端转化的概率提高了600%,非常可观。下面是我们跟智能电视的合作,这是我们跟一个游戏公司合作,使得他们游戏量上升了几分之几百。

最后,用户隐私的保护

在美国,它对用户隐私保护的非常严,从法律上,它要求很多企业对客户必须提供选择性排除这样的方法,我不管你广告再精准,你别来烦我。

企业的话,我们讲最后一个例子,我们很多客户企业有很好的第一方数据,这第一方数据是高质量的,企业用这些数据做很多事情。

但是不幸的是美国规定这第一方数据是不能拿出企业的,怎么办?我们把技术和解决方案直接部署到企业内部,你用你的数据和我们的解决方案做跨屏的连接,过几个月之后,他们跑过来说你们做的这效果不错,就是规模比较小,能不能帮帮我们。这是另外一个解决方案,把我们搜集过来的第三方数据在法律允许的范围内,把这同时给我们的企业客户,他用他的第一方数据,加上我们第三方数据,加上我们这程序,在他内部进行部署,用户很高兴,效果也很好。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据猿 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档