前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >互联网人群画像和你所不知道的真相

互联网人群画像和你所不知道的真相

作者头像
IT阅读排行榜
发布2018-08-14 15:35:40
1.7K0
发布2018-08-14 15:35:40
举报
文章被收录于专栏:华章科技华章科技

导读

作为新时代互联网营销的关键部分,人群画像引起了诸多兴趣,近年颇为风靡。几乎所有的互联网广告供应商都不约而同的强调,他们有足够精确的人群画像数据,确保能够找到广告主真正的受众。但是事情果真如此吗?人群画像是否是一劳永逸的解决方案?本文尝试解答这些问题。

如果抛开所有灰色的因素,广告追求的唯一效果应该就是找到对的人。作为广告三要素(广告位置、创意、受众)中唯一不能事先确定的要素,人(即受众)变幻莫测,让无数广告人茶饭不香,彻夜难眠。

我们用尽一切手段找到对的人,例如,电视广告的露出非常讲究不同频道、节目和时点对于人群的覆盖;楼宇广告与楼盘和地理位置相关联,以便厘清不同人群的购买力;杂志上的广告则跟杂志对应的行业主题紧紧相连。这是不需要解释的逻辑。但是到了互联网上,这个逻辑面临挑战,因为互联网这个虚拟的世界与现实世界相比,实在是大大不同。

这个不同在于,与传统世界相比,互联网是一个更能够“监视”每一个人的地方。每一个人,他在互联网(无论是桌面还是移动端)上的很多痕迹都会被各种或明或暗的机构或个人记录存储,然后被用于各种其他的目的。这些痕迹是什么?后面会仔细介绍。

这些目的中最重要的之一是用于广告,既然我们能够监视个体,理论上我们就能知道他(或她)是谁,然后判断他是不是“对的人”,如果是,我们就会在他下一次出现在网络世界中的时候,让我们的广告出现在他眼前,或是直接“骚扰”他。这种方法的效果比传统广告投放的效果肯定会好太多。

因此,互联网上的广告投放可以脱离于广告载体本身,而直接针对每一个具体的人。传统广告,是先考虑广告载体(电视频道或节目、杂志内容、地址或楼盘等)来反推受众大概是什么类型的人,然后放一个大家看到的都一模一样的广告(而且载体的物理条件也已经限制了,不可能让每个人看到的广告不一样);互联网广告则完全可以通过你在互联网上的多种痕迹知道你是什么样的人,广告的内容和创意可以根据你的具体情况来进行安排,而不需要根据网站上的内容(或在手机APP的类型)来放一个所有来这个网站的人都看到的一模一样的广告。

这个逻辑简单而诱人,而且已经几乎是彻底的改变了互联网广告的版图。如果你足够细心,你会发现现在互联网上很多广告跟你在网上的某些行为发生了关联,例如你浏览了某宝商品之后,会发现很多页面都有类似商品的广告出现了。几乎所有的传统互联网广告公司都将自己拥有准确的人群定向能力作为卖点,以强化人们对其效果的信心。基于互联网网民个人信息识别进行针对性广告投放的专门公司也突然激增,到2015年有近百家出现。专门“监视”并且描绘互联网每个个人的第三方公司也开始出现,2015年也超过十家,且增速迅猛。运营商、互联网巨头也开始对外界提供部分的他们自有的用户数据。而对互联网世界中不同人群进行类型识别和描绘的工作,也有了更简洁的说法——人群画像,或是用户画像。

人群画像突然成为互联网营销不可或缺的金字招牌。这个金字招牌的究竟是什么?与之相关的说法,哪些可靠,哪些不靠谱?我希望在本文中把这些问题弄清楚。

人群画像的经典构成要素

人群画像从字面理解,是把人群的情况用数据的方式描绘出来。人群画像和个体画像并不完全相同。千万不要混为一谈。

给个体画像,指描述不同个人的过程。在广告行业中,描述个体所用的方法被称为“打标签”,和电子商务中给商品打标签很类似——商品上的标签包含商品唯一的身份识别SKU,以及名称、价格、产地、生产日期、保质期、原材料等信息。而给个人打标签,也是把这个人的信息以标准化的方式组织存储起来,并附着在这个人的唯一身份标识上。这里多说一句,互联网上对于人的唯一身份标记手段包括cookie(主要是PC端),或者是IMEI、IDFA等(主要是移动端)。如果一个人在互联网世界中没有一个唯一身份标识,那么对这个人的画像就无从谈起,因为谁知道谁是谁?所以,人群画像的最基本前提是对人的唯一身份的标记。

人群画像与个体画像有强关联,人群画像必须基于对个体的画像,但却高于个体的画像,体现为人群作为一个集群的整体特征。人群是个体的集合,对什么人群进行画像是根据广告营销的目标受众(target audience)或者细分目标受众(audience segmentation)为对象进行的。例如,iPod生产商的人群画像显然是针对听音乐感兴趣的人,NB运动鞋厂则想对运动时尚人群画像。

人群画像与个体画像相似之处在于,两者都是对人的描述。但人群的描述需要归纳人群所呈现出的共性,而非多样性特征。可是,就像没有任何两个人是一模一样的,对个体的画像也不可能一样,当每个不同的人集合成群体,就需要用一定的方法寻找他们的共性,并构建这些共性与营销策略上的逻辑相关性。

人群画像的经典构成要素,也就由此产生。它包括三个非常关键的组成部分:个体的标识,个体的画像(即打标签)以及对人群共性的抽象。第一个是一切的前提,第二个是基础,第三个是对前者的组合、抽象、分析和加以利用。

后面我们将逐一详细看看这三个组成部分究竟有何玄机。

唯一身份标识

在互联网世界中匿名“旅行”是一个人的基本权利(至少部分是),这给追踪一个人的行动带来了麻烦。既然不能实名,那么我们至少要给他们起一个名字。

这个名字跟真实世界中的名字很不同。首先,这个名字是一串没有什么意义的随机字符,其次,这个名字的存在可能连当事人自己都不知道。

比如说,你去了一个网站,管你注册登录与否,这个网站都会给你安一个名字,当你下次来的时候,哪怕你继续不登录,这个网站也会知道你来了。这个东西太普遍了,以至于现在几乎所有的网站都使用这个东西,它的名字叫cookie。

即使是同一个人,每个网站也都给这个人不同的cookie命名,这很容易理解,因为每个网站有自己的命名规则。所以,唯一身份标识是相对的,对于同一个网站,不同的人,应该有唯一的识别,但这个人去了别的网站,理论上就是别人的事情了,这个人会被别的网站起上别的cookie命名,而且是其他网站根本无从知晓的。这就引起了一些问题,我们下面不久就会讲。

随着移动端的发展,唯一身份标识用cookie就不好用了,因为移动端上APP用量巨大,而cookie必须随着网站存在,APP没有这东西。不过,没有cookie没关系,移动端有别的东西来标识人。在移动端,唯一身份标识最常用的是手机的IMEI号码,或者IDFA(苹果手机对人的识别号),或者其他很多别的ID。各种ID中的一些类别,理论上具有与手机硬件捆绑的唯一性(手机不同,号码不同,而且手机不变,号码不变),比如前面的IMEI和IDFA(IMEI和IDFA实际上都可以被修改,但可以认为很接近与手机绑定),不会根据手机中装的APP或者上的网站的不同而发生变化,因此这类识别号比cookie看起来更好。

那么,现实世界中,这些唯一身份标识好用吗?

有人说,现实是个大坑,我很想反驳这个观点,但似乎真实世界真的在强化自己的“大坑”。所谓知易行难,我们知道这些东西好,但未必能用的好。我们继续往下看。

1PC上的唯一身份标识

首先看看PC上的cookie。在PC中,每个网站只能建立自己的cookie,那么一个网友到了别的网站去,这个网站就看不到他了。对于网友而言,这个事情很好,他不会担心别人知道了他去了“苍老师”的网站。但是对于做广告的营销人而言,这个可是大大的不好。因为不同网站对人的标识不同,会造成无法追踪一个人浏览不同网站的行为,也就无法判断这个人的喜好是什么,画像的基础也就不存在了。为了解决这个问题,一些广告公司想了一个办法,让在不同的网站上访问的同一个人,享有同一个cookie,这个cookie不属于网站,而属于这个广告公司。简单讲,就是这个广告公司给这个人起了一个名字,然后让这个到哪个网站上,都仍然有这个名字,这时就能判断这个人看了哪些网站了。这种cookie叫做第三方cookie,而最初的那种cookie叫第一方cookie。第三方cookie是个好东西,能够跨越不同的网站识别同一个人。而只有实现了跨越不同的网站识别同一个人,才能给每个个人进行画像的前提。

看起来好像问题解决了,可是,忽然有一天,我们发现cookie这东西越来越不靠谱。原因在于“隐私保护”!人们不喜欢cookie,谁乐意被一个第三方在你不知情的情况下跟踪你的网络行为呢?这个问题,对于第三方cookie尤其如此。因为第一方cookie毕竟只能限制在一个网站内,而第三方cookie则有更大的工作范围。欧洲人抗议最凶,于是欧洲立法要求网站使用cookie时,都要在网站弹出窗口警示访问者,并且要征得用户同意才能保存这个人的cookie。中国虽然没有什么立法,但是老百姓也不知道cookie是干啥的,反正可能有害的那就一定有害,于是很多能够禁用或者清除cookie的浏览器出现了,拥趸众多。Cookie开始越来越不受待见,由于频繁的清除和禁止,标识同一个人的cookie的平均生命周期越来越短,现在只有30天左右,而第三方cookie则更加受到限制,很多连建立的机会都没有。

有取代cookie的更好的方法吗?在PC端,替代方法有很多,但真正说能取代的,对不起,还真是木有。比如,有人说,用电脑的MAC(网卡硬件编号)来识别就是很好的办法啊!但是这个东西没这么简单,第一,你凭什么技术能识别这个?第二,识别这个是法律禁止的!还有人说,用Flash cookie(Adobe公司Flash的唯一用户识别信息),这个方法还不是照样被浏览器禁用,而且Flash越来越为人所诟病,支持它的网站也在减少。

还有人用另外一种技术方法,似乎可以一定程度上提升cookie的存活期。方法是这样:利用一种被称为“钩子算法”的计算机程序,能够关联同一个人的老cookie(cookie被清除前)和新cookie(老cookie被清除后又被赋予的新cookie,理论上这两个cookie已经完全不同了),从而延续一个cookie的生命周期。不过这个方法的致命性在于精确性,对于数以百万计的cookie而言,每做一次“钩子”勾连都是只有一定的准确性,误判难免发生。即使每一次钩子的准确性都有90%,那么做五次之后,准确率也就不到一半了。

这些方法都不能根本上解决cookie生命周期逐渐变短这个现实。如果只是对互联网用户进行短时间的标识,cookie还是可用的,但越是需要长时间的对于人的识别,cookie的准确性就越低。

所以,PC上的识别,很多人不得已想很多办法去追踪硬件号码,但这个方法是不合法的,而且追踪之后也不能直接用于广告投放上。人群画像,理论上不应该基于PC的硬件识别号。如果这方法不能用,那么只能接受不完美的cookie去进行短期的人群识别使用。

现在,你应该明白,如果有广告商跟你讲,我们持续数月甚至数年积累同一群人PC上的行为数据,本身就是一个不靠谱的忽悠。这方面,只有大的有账号体系的互联网媒体,才做得到。

2Mobile端的唯一身份标识

Mobile上的唯一身份标识看起来比PC上要好,因为谁也不能轻易干掉自己手机的IMEI号码,也没有几个人知道怎么样在苹果手机中清除IDFA。所以在mobile端的唯一身份标识应该既简单又美好。

但其实不然。

Mobile环境的复杂度比PC有过之而无不及。首先,mobile上用户对网站和APP的使用大约各站半壁江山。光这一点就比PC痛苦万分了。但是,为了让你更能够了解mobile上到底发生了什么,我们先假设两种最简单的情况:mobile上只有网站的情况和mobile上支持APP的情况。

  • 假如这个世界上所有的mobile都只支持网站,而不支持APP,那么我们可以基本上把mobile当做PC,用cookie来解决这个问题。不过,就算到了mobile上,cookie本身的短板还是一切照旧。不过,你会说,mobile上不是有IMEI或IDFA号码吗?难道不能弥补cookie的短板吗?可惜的是,mobile上的网站对人的唯一身份标识不能用这些跟手机捆绑的识别号码——无论对网站做何种技术改造,都不能让网站获得这些ID。所以,如果mobile只支持网站,那么你可以认为它就跟前面讲的PC的情况没太多差别。
  • 假设这个世界上所有的mobile都支持APP呢?那会是另外一种景象。前面讲过,APP不能用cookie,但APP的追踪却可以用IMEI或者IDFA等。不过,它们会好用吗?

先看IMEI,IMEI一定准确吗?如果这个世界上不存在水货机、翻新机,而全部是经过工信部认证批准的通信设备的话,那么IMEI是最靠谱的。但我们在中国,水货泛滥,翻新机也很多,这些来路不明的手机的IMEI就有可能是人为修改的。所以很多手机共用一个IMEI号码,或IMEI号码都是0的情况就很多了。这种情况造成IMEI的唯一身份的识别率未必高于cookie。另外,IMEI是机器硬件的编码,这些硬件编码都涉及到硬件安全性和隐私问题,因此使用它们不能明目张胆。

替代IMEI的方案是一个被称为OpenUDID,这是被各广告平台广泛使用的开源方案,但随着AppStore开始拒绝接受使用UDID的应用,导致OpenUDID无法被不同应用共享相同的值,注定了上面提到的这些ID们不得不退出历史的舞台。

需要提醒的一点是,IMEI这种跟手机硬件绑定的识别符,只能在安卓手机上起效,苹果手机iOS系统通通把它们封锁了,作为唯一身份标识是没指望了,除非是越狱后的iPhone。

不过苹果没有把所有的路都堵绝,它关闭了所有的门,但是“良心发现”(事实上是不得已而为之)开了一个小窗,这个小窗就是IDFA。IDFA是苹果手机独有的用户唯一身份标识ID。这个东西能够实现对APP上用户的唯一标识。我们有救了吗?

好一点,但是只能用于识别自己开发的APP的唯一用户,别人开发的APP用户的IDFA,你就完全没法知道了。因为IDFA不像前面讲的第三方cookie,可以由一个广告公司所掌握,而IDFA是完全被苹果公司掌握的。进行人群画像的时候,对于用户唯一身份标识的服务商几乎都不是APP开发商,而几乎全部是第三方(广告公司或者第三方数据公司),因此只能通过跟众多APP开发商合作才能获得多个APP中同一个用户的IDFA,也才能给同一个用户进行画像。这基本上不是技术问题,而是纯商业问题了。商业问题的难度在于,跟一家两家合作容易,但是跟一百家两百家合作,而且还是“与虎谋皮”(拿别人这么机密的数据信息),难度太大了。毕竟你不是BAT这样在市场支配地位的厂商。

所以,对用户进行画像,安卓手机要好于苹果手机,原因就在于苹果的封闭性,第三方的生存空间很窄小。

上面这些都还不是最麻烦的问题。

工程师们告诉我,移动端最大的麻烦是终端的极端多样性,硬件、操作系统、软件等等,全部是碎片化的,而利用了各种不同的人的标识手段,相互之间也没法互通互联,所以,移动端的唯一身份识真的很难。

可是,这还只是在我们假设的最简单的两种情况下!

现实世界中,mobile既支持网站,又支持APP,同一个人基本上都既会用mobile,又会用APP,我们能够实现跨mobile和APP的唯一用户识别,并在这个基础上做人群画像吗?

技术方法目前没办法。虽然有一些变通的方法,比如设置一个APP和网站通用的ID系统,或者需要同一个用户先用APP,然后又用网站才能实现一个功能什么的,但这些变通的方法只能在很小的局部范围内使用,完全不是通用解决方法。这离我们需要的人群画像的对所有网民的唯一身份标识还相距甚远。

所以,移动端同样不存在准确的唯一身份标识,这意味着我们并不拥有全局性的上帝视角,无法记录任一用户使用mobile上的全部网站和APP的相关信息,或者退一步,不说全部,想知道大部分网站和APP的相关信息都很难获得。甚至,即使是仅仅想知道这些网站的URL和APP的名字都不那么可能。

3跨设备的唯一身份识别

终于讲到了跨设备的唯一身份识别,估计你已经等不及了。这个领域可是曾经被热炒过一阵,但用在人群画像中似乎并没有听闻什么案例,后来似乎有些“不了了之”。原因何在?

原来,既然在一个mobile设备内,想要实现一个人在同一个设备上跨APP和网站的识别都没有全局性的通用解决方案,那么一个人使用多个设备就更没有全局解决方案了。你早上用手机、中午用PC、晚上用iPad访问互联网,然后让一个广告商(或者一个第三方服务商)知道是同一个人在使用这些设备,难,真是太难了。

部分互联网服务提供商(过去它们常常是一些媒体)具有跨设备唯一身份识别能力,比如,它们拥有强账号体系。所谓强账号体系,是指无论你在PC上还是手机上使用它们的服务或内容的时候,都需要登录自己的账号。这意味着它们“先天”就能知道你是同一个人。

另外还有一些服务商,它们可以通过判断不同设备经常同时出现在某一个IP号段的现象来判断这些设备是不是属于同一个人。这个方法很可行,因为无论是APP还是网站,获取设备所处的IP的难度并不大,这样就可以在没有强账号体系的情况下,判断这些设备是否属于同一个人了。如果算法得到,数据也充分,这种方法的识别率随时间流逝,可以变得相当精准。当然,我指的相当精准是能够有超过30%的识别率,80%以上,利用这种方法基本上不太可能。

如果没有强账号,也没有技术方法,那么最后一种跨设备的唯一身份识别就是通过一些营销手段来实现。比如,要在手机上扫码(比如获得优惠券),然后在PC上实现某个功能什么的(比如完成购物)。这听起来够折腾的,但是确实比完全没辙强。当然,这种跨设备的唯一身份识别的范围那就是极小极小了,因此不具备人群画像所需要具备的普遍性。

但问题在于,如果你希望得到某个人(或者是某群人)的画像,你不太可能只依靠某一个互联网服务提供商就能完成。因为这个人(或者这群人)的互联网使用行为一定不会囿于这一个服务提供商的范围内,而是遍际于互联网的各处——他们一会儿用百度搜索点什么,一会儿用腾讯QQ聊聊天,一会儿用淘宝买点东西——没有任何第三方可以同时获得同一个用户在不同设备上使用各种互联网服务的数据。即使可能,难度也极端巨大。

所以,我们希望的用全网用户数据来给人群画像那根本不可能,所有的人群画像,都只能基于局部的数据。而实现跨设备识别唯一身份,除了少数服务商之外,基本上都只能停留在口头上。这跟数据处理能力,或者什么大数据毛线关系都没有,再牛逼的数据能力也没用,这就是现实世界的事实。

好了,下面我自己总结了一下PC和Mobile端各种用户身份识别方式的优缺点,并不定量,所以仅大家参考。

各种方式识别唯一身份的优点:

各种方式识别唯一身份的缺点:

上面从理论上如何在互联网上标记每一个人的唯一身份,即如何在PC端、mobile端和跨设备端识别一个互联网用户的唯一性,以及在实际中,真实落地的情况如何。接下来,我们将讨论一下如何为互联网上的用户建立“数据档案”,从而能够不仅仅识别他的唯一性,还能够进一步了解他是什么样的人——他在真实世界中的情况如何、他在互联网行为又是什么样的。人群画像的基础在于对个体的准确描述(profiling),如果个体描述不准确,人群画像也会有偏差。对每一个个体的描述,我们使用一种被称为“标签”的东西。

个体画像的标签

普通大众对于画像或许会相当反感,一个极为重要的原因是他们会认为自己的隐私正在被窥视。

理论上这种担忧是多余的,但现实情况则复杂的多。在这方面,从理论入手反而简单,所以我们先看看理论上事情应该是什么样的,然后在后面的内容中我再带大家看看现实世界。

个体画像的构成要素包含三块:

  • 一块是描绘这个人的人口学上的属性,诸如年龄性别什么的,这些属性短期内不怎么发生变化,所以也被称为静态属性。此外,你的姓名住址电话号码属于静态属性吗?——当然属于,但这些东西非常敏感,所以我们后面再说。
  • 一块则是描绘这个人更为个性的东西,主要是他们的行为,以及行为反映出的兴趣爱好是什么,这些属性容易发生变化,甚至是发生突然的变化,所以也被称为动态属性
  • 第三块是个体所处的环境属性。例如,他某个时刻所在的位置,当时的天气和温度,他使用的终端的信息,他浏览的网页或者使用的APP的信息,等等等等。这些信息描述了与他紧密关联的自然、地理和虚拟世界三类环境。

所有的人群画像服务提供商都宣称,他们的画像是准确的,而且用诸如80%、90%之类的高比例证明这种准确性。但实际上现实骨感的可怕。那么下面就让我们来看看静态属性。

静态属性中有一部分内容且不说能否获得,在法律上不允许。这些信息就是我上面说的你的姓名、住址、电话号码、身份证号码等,这些信息有一个共性,就是能够跟现实生活中的你映射起来。任何能够在现实世界中找到你的信息,理论上都是不可以被记录下来的敏感信息,这些信息被称为PII,即个人识别信息(Personally Identifiable Information)。

不过,在中国,由于缺乏技术和法律上的充分保护,所以公民的PII实际上早就已经烂大街。亲爱的读者朋友,你或者你的朋友一定被“猜猜我是谁”、“老板要你明天去他办公室”之类的骗子电话骚扰过,他们是如何知道你的电话号码和真实姓名的呢?这些事情不能说,说出来拽起萝卜带着泥,能吓死人。

正常的广告投放不可以利用这些信息,而且正常渠道是不可能获取这些信息的,但是很多追求立即变现的营销操盘手们却会千方百计的去搞这些信息。这些信息总是能够在黑市被交易,所以,你时常收到骚扰电话和短信就不足为奇。总之,这是一个非常灰色的产业链,从来没有消亡过。这些数据从哪里来?——太多可能性,因为你在网站、各种机关单位、购物过程中等等日常生活中留下了大量PII,然后任何一个环节的管理不善(更多是放任不管)就会造成信息的有意窃取或无意泄漏。

有很多公司宣称他们拥有运营商的数据,其中包含PII信息。一家新创立不久的数据公司曾经拿出他们号称所有的运营商的原始数据给我看,确实令我大感震惊,这些数据中间不仅仅包含一段时间内某个人访问网站的全部URL信息,还包括他在各个广告公司中的cookie信息,以及他的电话号码,他的QQ号码,乃至QQ昵称。这些信息,理论上,是绝对不应该被第三方获得的,但似乎正在暗地流通。这段讲的东西都是灰色地带,真实与否大家自行辨别。

上图为某号称运营商数据的数据,已经略去了敏感信息

那么,大家会问,为什么你前面说静态数据的准确性“骨感的可怕”呢?

如果没有真实的PII信息,而完全靠其他方式来判断每个人的静态属性,是一个非常困难的事情。举一个例子,如果给你一个人在一个星期内的所有网站的访问记录,但你并不知道这个人是男是女,你能否从网站的访问记录中判断出他或者她的性别?

你会说,这有啥难的。男人喜欢运动和汽车,女人喜欢衣服和化妆。所以,看看网站访问记录中浏览的网站类型偏好,这个问题不难解决。但实际情况是,这个问题的难度挺大。

首先,人们浏览网站没有这么决然的分水岭,人们的性别差异会导致互联网使用行为的差异,但在视频网站、购物网站、部分垂直网站上的差异最为明显,在其他很多网站上的差异并不非常显著。即使是前面的例子,让你根据一个人的浏览记录来判断,如果记录中间没有购物信息和视频浏览信息的话(这些网站的浏览信息凭什么让你知道?这可是人家的关键商业机密),也存在误判的可能,更不用说让机器识别。

其次,机器识别最大的问题在于,它能有多么聪明?如果没有人事先把网站URL和内容输入给机器,它能够准确识别一个网页的主题内容或者一个网站的主题吗?NLP(自然语言处理)对于大多数广告公司而言,只是一个概念,即使是互联网巨头,对汉语的NLP的应用也都还很初级。

不过,最麻烦的还不在上面两个,最大的问题在于,一个第三方,它根本就没有一个人浏览网站的所有记录,事实上,它能看到的极为有限,原因很简单,他没权限,没有运营商数据,也不能使用黑客技术。因此,如果一个女士看了10个化妆品网站,你没有记录到,而她又看了1个汽车网站恰好被你记录到了,你会认为她是一个男士。

所以,没有PII,通过人们的互联网行为来判断性别是很难滴,或者换句话说,准确率不会太高

有些公司会说,我们有大数据技术,我们会以一个已经确定性别的人群组(panel)为基础,用这些人的准确互联网行为数据去对照更大的未知人群的行为数据,从而通过不断的相似性比较去确定未知人群的性别。这种方式用技术一点的语言,叫做train数据。这个嘛,大家听听也就ok了,原因参照前面说的几点。

不过,性别其实是所有静态属性中间,相对容易推断的,而年龄、收入、学历、婚姻状态等等这些信息,通过人们互联网使用行为就更加困难了,准确率不会超过你掷骰子。所以,对于绝大部分广告公司而言,静态属性其实就是个噱头。

那么,你会问,行业中流传的这些静态属性数据是不是根本就不能用?接着看。

谁的静态属性靠谱?

答案是,还是有很多地方有人的准确静态属性的。我只是说,通过人们的互联网行为去推断静态属性是很困难的,但并没有说,我们就没有其他的数据来源。

一种准确的静态属性可能来源于人的真实的PII数据。前面所讲的人的真实PII数据,肯定是准确的,谁拥有这些数据呢?

运营商肯定有,然后是政府的各个服务老百姓的部门(工商税务街道社保教育等等等等),后者的数据肯定非常准。然后是各种公共事业单位,再然后是各个快递公司,再然后是各个电商公司……就不穷举了。反正大家都知道。

但是,上面的部门虽然都有PII数据,但并不是说他们都能成为个人画像的数据。原因很简单,个人画像是互联网用户的画像,是数字化的。虽然政府很多部门有人的准确PII,但是这些数据都是线下的,要关联到个人的互联网唯一身份标识(比如关联到cookie上,见人群画像的经典构成要素小节),就很困难了,所以这些部门的数据虽准,但对互联网营销的作用几乎可以忽略。

唯有一类,他们的PII特别牛逼,那就是运营商。运营商不仅有人的准确PII(因为我们国家法律要求办理运营商服务都需要实名制),它们手上还有人们的互联网唯一身份标识,比如上网的MAC地址,比如手机的IMEI号码等等。所以它们的数据老厉害啦,既是线下的,也都是线上的,能真正用在互联网营销上。

只是再强调一遍,这些数据不可以拿出来直接使用,使用这些数据不合法,甚至有牢狱风险。只不过,现实呢,反正这些数据早已被用滥了。

PII不能用,那么还有靠谱的静态属性吗?还有。

有些公司直接就拥有人们的静态属性。我们使用很多互联网服务的时候,会留下性别和年龄(或者生日),虽然有人故意造假,但不占主流。我们也会注册自己的百度帐号或者微信、淘宝帐号,还有很多其他媒体或服务的帐号,这其中也常常都会留下自己的静态属性信息。

你能看出明显的区别——这些数据是找网民要来的,不是train出来的,所以,它们当然要靠谱的多!

但显然,这些数据又只掌握在少数牛逼互联网媒体中,所以,这块数据你要想准确拥有,目前看,“找黑市”或者是“抱大腿”可能更靠谱。超出这两种办法的数据,就得自求多福啦。

(作者:宋星,网站分析在中国创始人,WAW中国创始人。)

END

版权声明: 转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-04-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 导读
    • 人群画像的经典构成要素
      • 唯一身份标识
        • 1PC上的唯一身份标识
          • 2Mobile端的唯一身份标识
            • 3跨设备的唯一身份识别
              • 个体画像的标签
              相关产品与服务
              对象存储
              对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档