前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >顾客这种上帝长啥样,老司机用大数据告诉你 | DT Labo Online

顾客这种上帝长啥样,老司机用大数据告诉你 | DT Labo Online

作者头像
DT数据侠
发布2018-08-08 17:32:59
9830
发布2018-08-08 17:32:59
举报
文章被收录于专栏:DT数据侠DT数据侠

不久前,DT君请来了第一财经商业数据中心(CBNData)资深数据分析师徐劲亚(人称老司机),为大家送上了一场关于“大数据人群洞察”的线上分享。消费者这种上帝般的存在该如何解读?80后人群有怎样不同的消费特征?电商网红们商业价值排名又是如何?老司机的分享有干货有数据有算法,赶紧拿出小本子吧!

让所有的人群洞察都基于科学分析

人群洞察是常见于市场营销中的概念,最早适用于传统社会科学领域,在现代商业社会常被应用于产品开发,广告投放,公司市场策略的制定以及潜在市场规模预估。目的是通过人群分析发现目标受众的需求和偏好。

传统人群洞察的优势在于,可以探索消费者与品牌的情感联系,例如产品的哪些特性最吸引他们。但传统方式在数据收集时涉及问卷设计,访问员培训,执行,回收,数据录入,分析等诸多环节,其中每个环节的问题都可能影响最终的数据质量。同时也意味着需要投入大量的人力成本。

相比较传统方式,基于大数据的人群洞察由于收集了各种数据,具有很大的挖掘空间。例如阿里有2万多个人群标签,绝大多数是通过数据挖掘算法判定,并不需要输入。但大量的数据清洗也需要团队和技术投入。

以下两个案例是通过大数据人群分析得出的报告:

上图出自CBNData和天猫生鲜合作的《中国生鲜消费报告》,通过对电商交易数据的分析,可以看出在突尼斯红石榴这种产品购买人群中的不同男女消费者比例、不同城市消费者购买占比、以及各年龄段消费者占比。其中,一级城市中29-35岁的女性消费者占比最多,这通常是因为她们的信息渠道更丰富,更愿意尝试新鲜事物,同时也具备一定的经济实力。

这张图则是来自于CBNData联合15家数据源合作发布的报告《2016中国互联网消费生态报告》,左右两张词云图试图对比80后男女消费者不同的消费观。词云的每个词都来自于一套完整的分析流程,重复次数更多的词代表更多平台交叉反应出的共性需求。

例如:男性词云图中的“爱理财”反映的是蚂蚁聚宝用户的偏好,也反映UC与网易新闻的用户对于财经频道的关注;而女性词云图中“教育益智”反映美团用户对教育的线下消费、豌豆荚的教育App下载和对母婴资讯的关注。

“文艺相关”标签来自于淘宝的人群标签,在文艺相关的人群细分里,女性明显占比更高。结合各家的共性,得出80后男女不同的消费偏好,但共性是对于品质生活的关注。

人群洞察算法之TGI

算法对于大数据洞察的意义是,如果没有算法,大数据只是一些描述性的统计,如果有了算法,大数据可以升级为洞察级别的决策支持工具。

这里给大家介绍的是TGI(Target Group Index)算法在人群洞察中的应用。这种算法多用于市场研究行业,于1969年由凯度(Kantar)旗下的研究公司英国市场研究局(BMRB)提出。下图中对两种TGI具体算法进行了重新定义,分别为品类TGI和人群TGI:

顾名思义,品类TGI是用来对比不同品类的偏好,消费者对于某一品类存在偏好,必定对于其他品类存在不偏好。其算法则是特定品类占比/大盘该品类占比,品类TGI的局限性在于非常受用户消费场景的影响,如果目标受众的购物篮构成差异非常大的话,则无法得出品类的准确偏好度。

人群TGI则是对比不同人群的偏好,有一群人偏好某产品,则必定有另一群人不偏好。算法是特定人群TGI/大盘该人群占比。

算法中的TGI也包含减法与除法两种,具体选择取决于应用TGI的场景和数据情况。除法会突出小基数群组,因为基数小比值容易很高,所以对于大基数群组,例如已经占整体50%的群组,其最高的偏好度也只可能是200%。

如果需要强调大基数群组和偏好度的实际值的意义,则更推荐用减法,例如需强调基数50%的人群,在某个类目占比达到75%(其实很值得注意的数值),但是用除法可能只是不痛不痒的150%,因此用减法更加直观。

TGI算法与其他算法的结合

我们来看一些TGI与其他算法结合的分析实例。

下图是TGI与购物篮分析结合所得出的奶瓶关联品类分析,购物篮分析的目的是通过分析人群所有订单来还原消费场景。

图中左边为没有是用TGI的分析结果,右边是通过TGI算法得出的购物篮TOP10 占比。两者得出的结果有差异,是由于购物车中有些基础品类是任何人在任何时候都可能会购买的。

在购物篮分析中会受到基础品类的干扰,比如在母婴行业中,纸尿布、奶粉等品类其实是任何妈妈都有可能购买的硬需求产品,并非是和奶瓶这种品类直接关联的,因此需要排除掉这些基础品类。

TGI算法就很好地解决了这个问题,从分析结果可以看到,基础品类的关联购买度已经下降了很多,而排在前面的纱布、浴巾才是和奶瓶关联度更高的品类。接下来,可以通过对其他关联度的分析,进一步检验相关性,例如说加入购物车的时间重合度,购买奶瓶3天之内消费的其它品类等等。

TGI同样可以结合排名算法,上图是一个对于2016年电商红人商业价值的排名,除了消费转化,还包括粉丝质量,变现能力和店铺成长性。粉丝质量通过红人店铺在新浪微博的账号阅读数与互动数计算得出,变现能力根据红人店铺的营业额处理测算,店铺成长性综合店铺客单价,浏览转化率,复购率和商业模式加权计算得出。

通过对金额的数据,转化量的数据,阅读量的数据进行综合加权,TGI在这里的作用是把不同类型和维度的数据作归一化处理,将这些红人与和他们同类型的店铺做综合对比,以此得出他们在整个行业中所在的位置。从上图可以看出,通过TGI算法得到的加权,Only Anna和张大奕等综合类店铺排名会很靠前,而仅仅销售额高,其他数据值低的店铺,则排名靠后。

其他人群洞察分析方法

我们再来了解下另外两种人群洞察分析方法。

聚类是一种常用的机器学习的算法,机器自动通过算法来识别出人群分类,比人的主观想法与行业意识得出的分类更具有科学依据。

上图左边是一个经典的市场目标人群细分的场景,在同时分析众多的目标客群时,品牌怎么才能把这群人分成几类来更好地制定市场策略?面对这么多杂乱无章的点,聚类算法能更好地把数据分组,进行分类对比,几组红线就代表几组筛选标准。

右边是CBNData帮某品牌做的人群分类,通过对8个维度的数据分析,把人群分为了四类,分别是中级欧美品牌偏好,中级多量综合国别偏好,中级国产品牌偏好,高级欧美品牌偏好。四个类型的人群有各自明显特征,例如,中级欧美品牌偏好人群的“欧美品类占比”就非常高,而高级欧美品牌偏好人群不仅有高“欧美品类占比”,还具有高“件单价”的特征。这些分类可以很好地帮助品牌精确地筛选到目标人群。

第二种方法叫做人群标签,也是一种常用的大数据处理方法,是根据一些数据特征给特定人群打上标签,方便分析。

下图是在分析线上高消费人群的时候所做的一个人群标签,其中PI=Price Index, FI= Frequency Index。

高端人群是在购买商品的时候件单价更高的人群,因此用每个人购买的每件商品的单价对比其所在类目的均价,算出高出均价的比值,然后按照其购买的权重加权来算出一个PI指数,其意义是人平均购买的件单价高过所有人多少倍。

如图,2013年高消费人群的每笔消费平均高出所有人53倍,而到2016年已涨到94倍,同样的原理应用到高消费频次上,可以看到高消费人群购买的频次也在提升。因此这里的结论是高消费人群在过去的三年内不仅买得更贵而且买得更频繁了。这种算法比单纯以消费金额或者客单价来判断人群的高端或者高频更为科学。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DT数据侠 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ▍让所有的人群洞察都基于科学分析
  • ▍人群洞察算法之TGI
  • ▍TGI算法与其他算法的结合
  • ▍其他人群洞察分析方法
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档