如果你看过《神探夏洛克》,应该对夏洛克·福尔摩斯(Sherlock·Holmes)和华生初次见面的情景印象深刻(如果没看过,笔者在此推荐,哈哈)。
事后,夏洛克对自己推断的解释可以参考如下视频。
本文并不是要讲怎么成为夏洛克这样的神探或者推理专家,但是,对于每个普通人而言,我们都可以通过获得的外在行为数据来对一个人进行推断,即使准确性不是很高,但也基本能满足需求。
注:推断的倾向可能源自人的本能,通过对未知的信息进行建模估计,以此来增强“可控性”或减少认知焦虑。
日常生活中,我们会经常“揣测”他人,比如根据外表来判断一个陌生人的职业,根据面部表情或身体姿势判断对方的情绪状态,听口音来分辨对方来自哪里(南方or北方)等等。e.g. 基于男性、格子衫、发量少这些特征,那么你判断对方很可能是程序员,或者在诸如“XX是最好的程序语言”之类的主题下激烈辩论的用户大概率也是程序员。
对用户的画像或者识别,是产品运营活动的基础。
比如2016年京东在双11做的图书活动,就很好地利用“图书”这个品类来筛选高质量用户来为金融业务拉新,下图是当时笔者在朋友圈的发文。
本文标题为“以物识人”,假设你作为数据分析师,怎么基于数据来推断用户的属性,或者说基于用户的行为来做“用户画像”——当然,其中的方法也可用于数据分析场景之外。
面向用户的业务场景中很多都会涉及到用户的年龄、性别、工作地、职业等信息,这些信息通常在金融或者其他需要实名的场景可能才会要求用户主动填写,对于其他场景而言——比如用户上知乎,然后让用户完整填写这些隐私信息就不大现实。不过,只要掌握了适当的数据,也可以对用户的“未知”属性进行推断。
关于推断的几个准则:
怎么判断账户使用者的性别?
如果你能接触到绑定银行卡进行支付或者实名认证的场景数据,比如电商平台、金融平台等,那么可以获得非常精确的身份信息,绑卡需要验证4要素——身份证、姓名、预留手机号、身份证号,而身份证号倒数第二位数字的奇偶性就可以判断性别。
注:不过在以前金融监管政策宽松的时候,这个方法不一定好用,一个账户可能绑定别人的卡,比如用户是大学生,绑定的银行卡可能是他的父母的卡。
不过,和实名、金融有关的数据基本都属于高敏感度数据,某些业务场景下基本无法获取到,但只要有其他能区分性别的指标就可以。
那么,你需要思考,男性和女性用户在行为特征上会有哪些差异,哪些是男性独有的,哪些是女性独有的,比如:
怎么判断用户的职业?
职业通常和专业有关,和专业有关的通常会涉及到:
如果要判断特定的职业,除了上述特征外,可能还要考察这个职业的从业人员会在什么时候活动(when)、在什么地方活动(where)、和什么人接触(who)、做什么事情(what)或者做了事情之后会留下什么痕迹.
怎么判断用户的家庭状态?
比如有没有谈恋爱、有没有结婚、有没有小孩等。
同样可以参考前面职业判断中用到的4个维度:时间、地点、人物、事件。
e.g. 谈恋爱的话,通常会和对方一起过浪漫的节日,比如2.14、七夕、平安夜等,同时还会有表达两人关系的物品出现,比如情侣装、鲜花(尤其是玫瑰)、巧克力、金银珠宝等;
e.g. 在电商平台上,某男性用户,先前每年都会在某app上买衣服鞋子,后来该用户的下单频次降低了,客单价也降低了,从运营的角度讲,可能会怀疑该用户进入了生命周期的“衰退期”(接下来很可能就流失了),实际的情况可能是这样——该男性用户结婚后,衣服什么的都是老婆在帮忙买(这些订单都在老婆的app上完成了),加上这位男同胞的工资都上交——生活费很少,平时也就偶尔上来看看一些低单价的商品——客单价降低了,后面再加上带孩子(更多的时间支出项),那么,该男用户手机上的大多数app的活跃时长都可能会下降;
e.g. 有小孩的家庭通常会购买母婴用品(e.g.奶粉、尿不湿)、少儿读物、K12教辅、儿童保险等商品。当然还有其他小孩子的消费场景,比如吃、穿、玩、学,不同年龄段的孩子对应的消费行为也是有迹可循的。
以上,就举这3个问题来说明对用户属性的推断,做抛砖引玉之用。
实际业务应用中,通常会针对性的对目标用户的一个或多个维度推断,某些场景下,涉及的数据广度和深度则要大的多,比如刻画用户的消费能力,除了看消费金额外,还可以看购买品类的层级(比如同一品类中买的都是贵的)、常用收货地所在小区的房屋售价或者租金价格、日常交通出行方式及频次等维度考察。
就如同文章开头提到的——华生的发型、站立姿势、说话的语气、肤色、走路方式,以及使用的手机的外形、刻字、划痕——这些数据就像是“沉默的物证”在夏洛克面前作了一遍“自我介绍”。
让沉默的物证开口说话,不是侦探的专属,而是每个人都可以有的观察、分析能力。