专栏首页实时计算揭秘阿里巴巴的客群画像

揭秘阿里巴巴的客群画像

阿里巴巴一直在面向未来探索B类新电商模式,并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心,缺少买家维度的数字化经营体系是不完整的。平台场景目标群体及场景间买家差异性尚不明确,客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。同时,客群矩阵也是用户增长和算法特征的核心数据。鉴于客群矩阵如此重要且拥有诸多应用,其构建迫在眉睫。

阿里巴巴意在将客群矩阵打造成平台的一个风向标,以便业务有目标、有层次、有差异、高效地选品和进行场景运营及商家运营,为用户增长和算法模型优化提供动力,为数字化运营提供依据。我们主要围绕人、货、场、商4个维度构建,客群矩阵概况如图1所示。

客群矩阵同场景矩阵叠加,在构建场景目标用户、衡量场景差异性的同时,也能提高场景效能,有效引导目标流量,进而为各类业务场景的算法建模提供底层数据基础。

1 采购力

B类买家不像C类买家有明确的年龄、性别等基础坐标维度,B类用户多是企业或者批发商,如何刻画B类特色的客群矩阵,这对于B类电商非常重要,也是B类电商“小二”一直在思考的问题。

既然B类用户群体主要是企业和批发商,那么如何准确地描述客群矩阵呢?采购力就是突出的表征,采购力包含采购金额和采购频率,从采购力可以看出用户的经营规模和消耗能力。因此,我们将采购力作为基础坐标维度,分层提供精准差异化服务。

采购金额主要是一定周期内用户采购的金额。为了规避不同品类价格差异较大带来的分层干扰,首先分类目对采购金额划档,然后再按照金额档不分类目看,占比最多的金额档就是此用户的采购金额档层。

采购频率是一定周期内用户的采购频次。将用户按照采购时间排序,然后计算用户在一定时间周期内采购的频次。将所有用户按照高斯分布比例划分出高、中、低档,作为采购频率的分层档次。

2 生命周期

包括新装机、新用户、低活、中活、中高活、高活、沉睡、流失等阶段,该生命周期主要是按照用户在电商平台的活跃度来划分的,其中也融入了部分业务知识。例如,新装机用户是指刚装机的用户,新用户是指成交在2单以内的用户,低活是指一个月访问天数在2天以内的用户等。

从交易周期分析用户生命周期,如图2所示,包括新装机激活用户、登录用户、首单用户、活跃买家(高采购力买家、潜力买家)、潜睡买家、深睡买家等阶段,各个生命周期阶段之间的转换关系在图中也有直观呈现。精准化用户运营根据买家生命周期阶段不同而调整目标,所采取的策略也会相应调整。

了解了用户生命周期,就可以有针对性地做用户拉新、促活、留存,以提高用户黏性:对于新装机和新用户,主要是提高他们的用户体验,培养用户的消费习惯,做留存转化;对于中低活用户,主要是促活、留存;对于中高活用户,主要是维持用户的习惯,加强黏性;对于沉睡和流失用户,主要是通过红包权益等方式促活。用户生命周期的维护对于电商持续用户增长发挥着至关重要的作用。

3 核心主营

CBU作为B2B电商平台的典型代表,一直致力于服务全球亿万B类买家用户。用户核实身份与主营类目(如进口母婴店店主、精品女装店店主、微商兼职、小超市店主等)作为B类用户画像最为核心的属性之一,不仅代表着用户的线下实体身份,还直接影响着用户在电商平台上的行为偏好、采购周期及对商家服务能力的诉求等,因此一直是B类电商平台致力于深耕与运营的核心用户画像属性之一。

大多数C类用户画像属性可以直接基于用户在网站上的历史行为进行建模,但B类用户画像则不同。因为要核实用户核身身份以及对主营类目有精准性的要求,一般B类电商平台主要以用户自填表单的形式进行用户核实身份的确定。这种用户自填方式结果准确度较高,但位置隐蔽、链路冗长、没有利益点的引导,不仅用户填写率低,而且与场景结合力不足。

为解决原表单式核身用户操作成本高的问题,阿里巴巴CBU电商平台通过用户核身组件借力算法模型对用户核身进行预测,依据置信度排序,为用户推出Top K个选项供用户点选。整体算法解决方案如下。

01 数据源

1)用户站内行为

用户站内行为是用户需求与偏好的第一反馈基地,是算法需要着重去挖掘的数据源。相对其他偏好类画像属性来说,用户核身是一个相对稳定和长期的用户属性,因此在算法应用中,我们选取了用户最近半年的站内全域行为作为底层数据。定义半年的长时间窗口选取主要有两方面考虑:一是目前网站商品丰富、优质,搜索与推荐算法日渐精进,用户浏览各类商品的成本较低,所以B类用户在网站上的注意力难以保持专注,用户B类/C类的需求与行为混杂,数据较脏,较长的时间窗口有利于滤除干扰,捕获用户更为长期和稳定的需求;二是用户行为数据,特别是采购行为,相对稀疏,然而B类用户的采购行为是反映用户核身身份最为核心的特征之一,且用户采购行为又具有一定的周期性,因此长期的时间窗口能够帮助算法更加全面地认识用户。

2)用户站外上下游身份

不同于很多偏好类用户画像属性,用户核身身份能够与用户在现实中的身份产生真实的映射关系,如奶茶店店主—喜茶店主、烘焙店店主—宝岛金典店主、精品女装店店主—淘宝女装店店主等。因此,用户站外上下游的身份映射关系,能够辅助我们进一步完善用户核身身份的预测,提高覆盖率和准确率。

3)行业知识

鉴于用户在网站上B类/C类行为混杂,噪声较多,B类用户核身偏好易受网站热门类目与商品的干扰,因此我们也引入了大量行业知识作为指导来协助完成B类用户核身身份的预测,并基于此沉淀下来一份核身偏好类目数据。

02 算法方案

利用以上用户站内行为、站外上下游身份和行业知识的数据,算法端可以通过以下几个步骤实现用户核身身份的预测工作,预测流程如图3所示。

图3 用户核身预测流程图

1)种子用户圈选

种子用户主要定义为站内已核身用户及站外上下游有映射关系的核身信息的用户。

2)行业知识指导

我们基于种子用户最近一段时间的站内行为数据,挖掘识别显著性特征,提供给运营同事,对种子用户再进行一轮划拨,把日常核心行为与行业偏好明显不符合的用户排除,优化种子用户的圈选。

3)种子商品圈选

以行业偏好类目作为门槛,筛选出种子用户在门槛下最近半年内采购过的商品作为种子商品。

4)种子商品扩展

基于团队沉淀现有商品的I2I表,利用种子商品作为trigger触发Key,对种子商品进行扩展,扩展种子商品的偏好分等于商品I2I相似分与trigger种子商品偏好分的乘积。

5)用户核身预测

对于一个用户的核身预测,我们选取其最近半年的行为数据进行建模打分。然后基于打好分的用户行为商品计算用户对每一个可能的核身身份的偏好置信度,并用以区分用户的个人采购行为和B类采购行为,降低用户的个人采购行为对预测结果的影响,加大用户的B类采购行为的权重。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 在linux后台运行脚本的方法和命令

    后台运行脚本 执行脚本test.sh:./test.sh 中断脚本test.sh:ctrl+c 在1的基础上将运行中的test.sh,切换到后台并暂停:c...

    实时计算
  • Kafka学习(一)-------- Quickstart

    截至2019年7月8日 最新版本为 2.3.0 2.12为编译的scala版本 2.3.0为kafka版本

    实时计算
  • Spark Streaming——Spark第一代实时计算引擎

    虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题...

    实时计算
  • 如何通过拆分“用户活跃状态”找到转化降低的原因?

    为什么转化降低了,怎么也找不到原因?数据的波动最容易带来改变的就是用户,如果你每天查看的数据指标,没有拆分用户活跃状态,那你可能永远也找不到答案。

    数据猿
  • 敏捷开发中,User Stories最佳实践

    程序你好
  • 用户行为分之数据处理

    上一篇《用户行为分析之数据采集》我们说了用户行为分析的数据采集部分,同时也对用户行为分析做了简单的介绍,本篇我们来说一下用户行为分析的数据处理部分。

    数据社
  • 数据分析方法

    98k
  • 行为·设计·转化率——通过设计引导用户行为提升转化率

    设计是感性的,还是理性的?都有,在理性的基础上,增加感性的元素。这个设计师们都了解,但理性的设计点具体体现在哪些地方呢?如何通过理性的设计影响用户行为,提升转...

    腾讯大讲堂
  • 通过智能投放与触发,提高广告投放效率,告别无效营销

    对于品牌主来说,做投放决策时最关注的就是自己的目标群体是哪些人,如何选择渠道才能覆盖到目标人群,投放的时长和频率又该如何依据人群特性进行配置。

    盒子菌
  • Google-优秀移动站点设计10招

    Google-优秀移动网站设计10招 1)添加一个醒目的搜索条:在移动终端上,人们希望能够快速找到自己需要的东西 2)把大表格拆分成小块:别搞一个长长的表格页面...

    架构师之路

扫码关注云+社区

领取腾讯云代金券