前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >以物识人 | 基于数据推断用户的属性

以物识人 | 基于数据推断用户的属性

作者头像
1480
发布2020-03-02 10:02:18
3.5K0
发布2020-03-02 10:02:18
举报
文章被收录于专栏:数据分析1480

如果你看过《神探夏洛克》,应该对夏洛克·福尔摩斯(Sherlock·Holmes)和华生初次见面的情景印象深刻(如果没看过,笔者在此推荐,哈哈)。

事后,夏洛克对自己推断的解释可以参考如下视频。

本文并不是要讲怎么成为夏洛克这样的神探或者推理专家,但是,对于每个普通人而言,我们都可以通过获得的外在行为数据来对一个人进行推断,即使准确性不是很高,但也基本能满足需求。

注:推断的倾向可能源自人的本能,通过对未知的信息进行建模估计,以此来增强“可控性”或减少认知焦虑。

日常生活中,我们会经常“揣测”他人,比如根据外表来判断一个陌生人的职业,根据面部表情或身体姿势判断对方的情绪状态,听口音来分辨对方来自哪里(南方or北方)等等。e.g. 基于男性、格子衫、发量少这些特征,那么你判断对方很可能是程序员,或者在诸如“XX是最好的程序语言”之类的主题下激烈辩论的用户大概率也是程序员。

对用户的画像或者识别,是产品运营活动的基础。

比如2016年京东在双11做的图书活动,就很好地利用“图书”这个品类来筛选高质量用户来为金融业务拉新,下图是当时笔者在朋友圈的发文。

本文标题为“以物识人”,假设你作为数据分析师,怎么基于数据来推断用户的属性,或者说基于用户的行为来做“用户画像”——当然,其中的方法也可用于数据分析场景之外。

面向用户的业务场景中很多都会涉及到用户的年龄、性别、工作地、职业等信息,这些信息通常在金融或者其他需要实名的场景可能才会要求用户主动填写,对于其他场景而言——比如用户上知乎,然后让用户完整填写这些隐私信息就不大现实。不过,只要掌握了适当的数据,也可以对用户的“未知”属性进行推断。

关于推断的几个准则:

  • 个性化的信息会散落在不同的角落(不同的场景),或者说可以从很多维度来判断某个人的某种特质(e.g. 性别、职业,后面会提到)。
  • 分辨的前提是,能找到具有良好区分度或者预测度的行为或特征,e.g. 要区分一个人是男性还是女性,选择的数据就得有区分度(这里指组间的数据差异要足够显著),比如“有眼睛”就不能区分性别(男女性都有)。
  • 推断具有概率性,e.g. 不是所有程序员都穿格子衫,有人喜欢穿印有论坛活动logo的衣服;
  • 精准的推断通常能构成“充分必要条件”,不过这很难,大多数时候都会遇到“充分不必要条件”,e.g. 程序员喜欢穿格子衫,但是穿格子衫的未必是程序员;

怎么判断账户使用者的性别?

如果你能接触到绑定银行卡进行支付或者实名认证的场景数据,比如电商平台、金融平台等,那么可以获得非常精确的身份信息,绑卡需要验证4要素——身份证、姓名、预留手机号、身份证号,而身份证号倒数第二位数字的奇偶性就可以判断性别。

注:不过在以前金融监管政策宽松的时候,这个方法不一定好用,一个账户可能绑定别人的卡,比如用户是大学生,绑定的银行卡可能是他的父母的卡。

不过,和实名、金融有关的数据基本都属于高敏感度数据,某些业务场景下基本无法获取到,但只要有其他能区分性别的指标就可以。

那么,你需要思考,男性和女性用户在行为特征上会有哪些差异,哪些是男性独有的,哪些是女性独有的,比如:

  • 电商平台上的购买的商品信息也能推断性别,具有明显性别区分的服饰鞋包、美妆个护、日用品等,e.g. 裙子、眼霜等商品通常只有女性才用,对于某些“中性”商品而言,不同的外观或其他属性也能做区分,e.g. 杯子,粉色的,男生买的概率比女生要低很多吧;
  • 个性化的头像、昵称、行为路径、文字使用习惯、关注的话题或明星等,这些也能反映用户的性别。

怎么判断用户的职业?

职业通常和专业有关,和专业有关的通常会涉及到:

  • 专业的知识、概念,比如专业名词等,e.g. 格式塔 --> 心理学;
  • 专业的工具,比如数据分析工具、编程软件、实体工具等,e.g. SPSS+Excel --> 数据分析;
  • 专业的教材、书籍、课程,e.g.电商平台可以分析你买的专业书籍来推断你的工作职业,网易云课堂这类在线课堂也可以;
  • 专业的证书,比如毕业证、资格认证;
  • 其他,比如会和考试相关(e.g. 资格认证)、职业发展有关(e.g. 技能培训)、行业有关(e.g. 行业集会);

如果要判断特定的职业,除了上述特征外,可能还要考察这个职业的从业人员会在什么时候活动(when)、在什么地方活动(where)、和什么人接触(who)、做什么事情(what)或者做了事情之后会留下什么痕迹.

怎么判断用户的家庭状态?

比如有没有谈恋爱、有没有结婚、有没有小孩等。

同样可以参考前面职业判断中用到的4个维度:时间、地点、人物、事件。

e.g. 谈恋爱的话,通常会和对方一起过浪漫的节日,比如2.14、七夕、平安夜等,同时还会有表达两人关系的物品出现,比如情侣装、鲜花(尤其是玫瑰)、巧克力、金银珠宝等;

e.g. 在电商平台上,某男性用户,先前每年都会在某app上买衣服鞋子,后来该用户的下单频次降低了,客单价也降低了,从运营的角度讲,可能会怀疑该用户进入了生命周期的“衰退期”(接下来很可能就流失了),实际的情况可能是这样——该男性用户结婚后,衣服什么的都是老婆在帮忙买(这些订单都在老婆的app上完成了),加上这位男同胞的工资都上交——生活费很少,平时也就偶尔上来看看一些低单价的商品——客单价降低了,后面再加上带孩子(更多的时间支出项),那么,该男用户手机上的大多数app的活跃时长都可能会下降;

e.g. 有小孩的家庭通常会购买母婴用品(e.g.奶粉、尿不湿)、少儿读物、K12教辅、儿童保险等商品。当然还有其他小孩子的消费场景,比如吃、穿、玩、学,不同年龄段的孩子对应的消费行为也是有迹可循的。

以上,就举这3个问题来说明对用户属性的推断,做抛砖引玉之用。

实际业务应用中,通常会针对性的对目标用户的一个或多个维度推断,某些场景下,涉及的数据广度和深度则要大的多,比如刻画用户的消费能力,除了看消费金额外,还可以看购买品类的层级(比如同一品类中买的都是贵的)、常用收货地所在小区的房屋售价或者租金价格、日常交通出行方式及频次等维度考察。

就如同文章开头提到的——华生的发型、站立姿势、说话的语气、肤色、走路方式,以及使用的手机的外形、刻字、划痕——这些数据就像是“沉默的物证”在夏洛克面前作了一遍“自我介绍”。

让沉默的物证开口说话,不是侦探的专属,而是每个人都可以有的观察、分析能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析1480 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云课堂
云课堂聚焦教培机构 OMO 转型,为机构提供在线及混合式课堂解决方案,极速开课、多向互动、智能沉淀、一键分发,是教培课堂便捷、稳定的教学助手。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档