Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >教你更科学地花钱:因果推断在增长业务ROI量化评估上的应用

教你更科学地花钱:因果推断在增长业务ROI量化评估上的应用

作者头像
腾讯灯塔小明
发布于 2022-09-08 06:46:24
发布于 2022-09-08 06:46:24
1.1K0
举报
文章被收录于专栏:敏捷分析敏捷分析

点击蓝字关注我们

作者:李金霞Polarisli

知乎专栏:《数据分析方法与实践》

创作者:「守望北极星的猫」

---了解作者其他作品,请点击【文末原文链接】---

丨导语丨

做增长业务,常用的策略手段有渠道拉新、拉活、节假日活动等,这几个业务都是需要花钱的,每年分配的预算有限,如何权衡在各项业务上的投入成本,如何花钱效率最高,将好钢用在刀刃上是需要运营管理者去思考和决策的,如何决策更科学,那就不得不提到因果推断这种科学的量化方法,每笔投入的 ROI 量化评判标准统一,自然就可比较。

有一套关于花钱的经典面试题:

新年伊始,业务部门要做新一年的规划,部门需要在渠道拉新、拉活、节假日活动3个地方花钱,你如何判断花钱是否值得,分配是否合理?

这里面隐含的一个问题是:上述3个地方你的评估标准是否统一,比如用户价值统一用 LTV 衡量,后续统一计算 ROI 即可,最忌讳的是不同业务有不同的标准,比如拉新看次留、拉活看回流量、A活动看签到量、B活动看积分消耗量等,不统一则不可纵向比较。

渠道拉新相对容易,因为本身拉来的是一个新用户,自身计算 LTV 即可,但是拉活、活动因为要计算增益,就需要找对比组。比如拉活,要对比拉活和未拉活,活动要对比参与活动和未参与活动的两个群体。

这里面就会引入新的问题——对比的两个群体,本身就是不同质的,近期高活用户更有可能参与活动,未参与活动里面掺杂的更多的是低活和回流用户,自然参与活动的用户无论人天还是留存都会比未参与活动的人群高,那你怎么能证明是活动本身带来的增益呢?

明显直接拿参与未参与群体进行对比,会存在混淆因子&自选择偏差

● 控制转化的唯一变量不是「是否参与活动」,若影响转化的唯一变量,不只是「参与活动与否」这个属性,会得出错误结论。

● 人群属性分布不一致的两个组不能直接比较

①参与活动用户本身就是相对高活的用户,可能没有活动也会回来,本身易转化

②其它属性特征导致用户更容易参与活动,而未参与活动的用户本身就是不活跃且不宜转化的

③用户因为节假日的影响,自然频率上升

④活动期间多种策略同时影响用户,不只活动一种策略

为了解决这个效果评估的问题,本文采用因果推断中的倾向性得分加权的方法,找到对照组和实验组同质的用户群进行比较分析。(还有一种常用的方法——PSM倾向性得分匹配,经对比,PSM倾向性得分匹配方法能够处理的数据量在几w级别,且随着数据量的增加计算效率降低很快,甚至出现计算不出结果的情况,故推荐倾向性得分加权的方法)。

什么是因果推断

在做用户增长时,我们要回答的终极问题是“如果对产品施加 T 策略,对业务目标是否有影响,影响有多大?”我们对产品施加的策略为「因」,因此而出现的结果为「果」,中间控制住混淆变量 X ,保证 T 策略是唯一影响因素。

这样就可以回答,因为 T 策略的施加,导致结果 Y 增益了多少。

因果效应

ATE (Average Treatment Effect):

即平均处理效应,这里的E是“期望”,对所有用户取期望。最终匹配的干预组和控制组在因变量上的平均差异,即干预对所有人的平均效应。

ATT (Average Treatment Effect on the treated):

即处理组平均处理效应,这里的E是对所有T=1的用户取期望。直观来说,ATT为实验组样本接触到干预后,干预对受到干预的人的平均因果效应。

因果评估方法倾向性加权得分

从整体用户群中随机抽样,分成两组人群——实验组:参与活动用户;控制组:未参与活动用户,带入二元逻辑回归模型进行迭代,计算得到倾向性得分 P,按照 P 计算权重系数 W 用于均衡控制组人数分布,保证控制组和实验组人数分布基本一致。

详细原理如下:

倾向性评分是指在一组协变量条件下(X),对象 i 接受 treatment (T=1) 的概率值。这个概率值的计算最常用的是逻辑回归模型,也可以选用随机森林、神经网络等模型。

在相似的得分下,treatment 和 control 基线资料的分布应该是平衡的。

因果效应 ATT、ATE 和倾向性得分的关系如下:

ATE:

这里的治疗组即为实验组,ei 即为通过模型计算出的概率得分。

ATT:

至此,我们就计算出了权重系数 w。

增益效应评估

套入上述公式,即可计算得出 ATT 或 ATE。

倾向性加权得分在活动效果量化增益上的应用

以下以参与某活动为例,讲解倾向性加权得分方法在活动 ROI 量化增益上的应用。

01实验组和测试组划分

因果推断本质上是在人为模拟 AB Test,那么模拟的 AB 两组,也要符合真实 AB test 分组的定义。

注意此处很重要,否则会得出错误的分组结果。

02将因果推断模型计算过程工程化

提高复用性、缩短开发周期

不同的模型,使用的特征变量基本一致,可以将常用特征变量固定化自动化采集,丰富特征变量库,便于提高模型的复用性,同时缩短开发周期,高效给出策略建议。

03迭代优化逻辑回归模型,

计算概率P、权重系数w

通过常用的逻辑回归算法计算倾向性加权得分 P,对分类变量进行热编码,匹配加权结果更均匀。

1)观察变量显著性

对于不显著的变量可弱化模型在该变量上的匹配效果。

2)匹配结果量化

  • 实验组和控制组样本量接近1:1
  • SMD < 0.1

SMD 即 Standarized Mean Difference

SMD 的一种计算方式为:(实验组均值 - 对照组均值)/ 实验组标准差。

以上量化指标符合规则,则说明加权匹配成功。

3)量化增益值及显著性校验

s_treat = 1.62 说明参与活动用户较未参与活动用户30日人天增益为1.62,且结果显著,量化评估结果可用。

量化活动增益 ROI

常用衡量指标为 LTV,对比参与活动组和未参与活动组的 LTV 差异即为 LTV 增益,这里面的难点为从活动开始计算多长时间的增益算活动带来的,也就是说因活动带来的增益有多大且会持续多长时间?

由活动带来的增益会分为3部分:

渠道投放新增 + 活动裂变新增 + 首次参与活动的老用户

新增即求相应的新增用户 LTV 即可,这里暂且不表,另外为什么要限定是首次参与活动的老用户呢?限定老用户首次参与活动后,那么其每日因活动带来的增益就不会和多次参与活动的老用户增益混淆在一起,导致不能很好的量化活动增益。

LT 即我们要计算的活动生命周期时长增益,LT 可以等价看成参与活动组和未参与活动组用户在后续 N 日日活跃率的增益,N 日日活跃率增益相加即为 LT 增益。选择看日活跃率的好处是我们可以从曲线走势上看出以下两点,间接验证模型的匹配加权效果。

① 参与活动和未参与活动用户在参与活动前是否可以看成同一个人?即参与活动前两组用户的日活跃率曲线是否重合,以此来验证倾向性加权得分的效果。

② 将 N 日时间周期拉长,从后续留存时长变化趋势上帮我们清晰地定位到活动效应的存续周期。

至此,我们便完整地完成了活动效果量化 ROI 的增益计算。

另外,因为也考虑了模型的工程化,此方法可以快速延伸到拉活、某功能改版上线等的后续增益评估上。

点击下方“阅读原文”关注作者知乎专栏

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯灯塔 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
因果推断笔记——自整理因果推断理论解读(七)
之前有整理过一篇:因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 不过,那时候刚刚开始学,只能慢慢理解,所以这边通过一轮的学习再次整理一下手里的笔记。
悟乙己
2021/12/07
10.8K0
因果推断笔记——自整理因果推断理论解读(七)
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)
《Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution》这篇论文说到了因果推断的三层。
悟乙己
2021/12/07
4.4K0
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)
因果推断笔记——python 倾向性匹配PSM实现示例(三)
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 因果推断笔记——因果图建模之微软开源的dowhy(一)
悟乙己
2021/12/07
4.9K0
因果推断笔记——python 倾向性匹配PSM实现示例(三)
因果推断笔记——数据科学领域因果推断案例集锦(九)
这部分只是抛砖引玉贴一些看到的非常好的业内方案。 因果推断在很多领域都有很有意思的应用,值得收藏。
悟乙己
2021/12/07
4.7K0
因果推断笔记——数据科学领域因果推断案例集锦(九)
因果推断笔记——uplift建模、meta元学习、Class Transformation Method(八)
智能营销增益(Uplift Modeling)模型——模型介绍(一) 智能营销增益(Uplift Modeling)模型——pylift库的使用(二)
悟乙己
2021/12/07
5.5K0
因果推断笔记——uplift建模、meta元学习、Class Transformation Method(八)
因果推断笔记——双重差分理论、假设、实践(四)
本节参考: 因果推断综述及基础方法介绍(一) 双重差分法(DID)的原理与实际应用
悟乙己
2021/12/07
2.9K0
因果推断笔记——双重差分理论、假设、实践(四)
因果推断笔记——DR :Doubly Robust学习笔记(二十)
这个系列文章: 因果推断笔记——python 倾向性匹配PSM实现示例(三) 因果推断笔记——DML :Double Machine Learning案例学习(十六)
悟乙己
2021/12/21
4.1K0
因果推断笔记——DR :Doubly Robust学习笔记(二十)
因果推断常用计量方法
因果推断(Causal Inference): 是关联分析的一种统计方法,在大型系统中,试图指定/干预 “因” 而观测影响/改变 “果”的过程。因果推断不仅关注事物之间的关联性,还会更进一步探究该关联是否具有从因到果的推断关系。因果推断在生物医学、社会科学有广泛应用。通过揭示变量之间的因果关系,理解数据的产生机制,探究出现象背后的深层原因;通过回答"Why",理解决策的背后原因。
Yiwenwu
2025/02/09
2740
干货 | 携程火车票基于因果推断的业务实践
携程作为旅游平台,跟用户需求息息相关,理解和识别各个策略/系统对转化/收益的因果关系尤为重要,在这个过程中需要将影响因变量的其他因素进行控制,但这些因素通常是复杂且难以测量的。在关系识别困难的情况下,如何使用更为科学的方法,对策略进行微观和宏观的建模分析,如何系统性的评估各种策略的长期影响,是要解决的重要问题。
携程技术
2023/09/06
8530
干货 | 携程火车票基于因果推断的业务实践
因果推断笔记——入门学习因果推断在智能营销、补贴的通用框架(十一)
因果推断笔记——因果图建模之微软开源的dowhy(一) 因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 因果推断笔记——python 倾向性匹配PSM实现示例(三) 因果推断笔记——双重差分理论、假设、实践(四) 因果推断笔记——因果图建模之微软开源的EconML(五) 因果推断笔记——工具变量、内生性以及DeepIV(六) 因果推断笔记——自整理因果推断理论解读(七) 因果推断笔记——uplift建模、meta元学习、Class Transformation Method(八) 因果推断笔记——数据科学领域因果推断案例集锦(九) 因果推断笔记——CV、机器人领域因果推断案例集锦(十)
悟乙己
2021/12/07
1.8K0
因果推断笔记——入门学习因果推断在智能营销、补贴的通用框架(十一)
因果推断中期学习小结
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)[2]
悟乙己
2021/12/07
1.6K0
因果推断中期学习小结
如何在因果推断中更好地利用数据?
导读:本文转载自 DataFun 社区,分享题目为《如何在因果推断中更好地利用数据?》,主要介绍团队近期在因果上已发表论文的相关工作。本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。
可信AI进展
2024/03/06
3350
通过元学习优化增益模型的性能:基础到高级应用总结
在当今数据驱动的决策过程中,因果推断和增益模型扮演了至关重要的角色。因果推断帮助我们理解不同变量间的因果关系,而增益模型则专注于评估干预措施对个体的影响,从而优化策略和行动。然而,要提高这些模型的精确度和适应性,引入元学习器成为了一个创新的解决方案。元学习器通过将估计任务分解并应用不同的机器学习技术,能够有效增强模型的表现。接下来,我们将详细探讨如何利用元学习优化增益模型的性能,特别是通过S-Learner、T-Learner和X-Learner这几种估计器。
deephub
2024/06/17
1890
通过元学习优化增益模型的性能:基础到高级应用总结
因果推断学习笔记三——Uplift模型「建议收藏」
因果推断在互联网界应用主要是基于Uplift model来预测额外收益提升ROI。Uplift模型帮助商家计算人群营销敏感度,驱动收益模拟预算和投放策略制定,促成营销推广效率的最大化。同时如何衡量和预测营销干预带来的“增量提升”,而不是把营销预算浪费在“本来就会转化”的那部分人身上,成为智能营销算法最重要的挑战。
全栈程序员站长
2022/11/15
11.6K0
干货 | 因果推断在项目价值评估中的应用
我们的日常生活中充斥着各种需要推断原因和结果的问题,比如,吸烟是否会导致肺癌,大学教育是否能够提高收入水平?有时,当我们试图回答这些问题的时候,会陷入相关的陷阱,即认为相关等于因果。
携程技术
2022/12/14
1.3K0
干货 | 因果推断在项目价值评估中的应用
增长产品中,量化数据分析的几个方法
| 导语 一个产品模块或活动,多少人参与?很好回答。如果没有它,大盘DAU会影响多少?就不太好回答。这个就是“增量贡献”,增量贡献无法直接统计,但又是管理者最关心的话题,因为ROI很重要,要决定在哪里“投资”。下面就谈一谈增量贡献的量化,以及如果没有AB实验,怎么量化? 增长为什么要做量化 做增长产品的数据分析,和其他的数据分析,个人认为最大的特色在于量化,为什么要做量化?因为,做增长,是个强数据驱动的方法,要把有限的资源发挥出最大的价值,所以必须准确计算出每个Driver的ROI,才能更有效分配资源,做
腾讯大讲堂
2020/09/16
2.1K0
因果推断常用计量方法
是山河呀
2025/02/21
700
因果推断笔记——因果图建模之微软开源的dowhy(一)
github地址:microsoft/dowhy dowhy 文档:DoWhy | An end-to-end library for causal inference
悟乙己
2021/12/07
3K3
因果推断笔记——因果图建模之微软开源的dowhy(一)
因果推断入门:为什么需要因果推断?
来源:PaperWeekly本文约13200字,建议阅读15+分钟本文是 Brady Neal 推出的因果推断课程 Introduction to Causal Inference 的中文笔记。 本文是 Brady Neal 推出的因果推断课程 Introduction to Causal Inference 的中文笔记,主要是参考 Lecture Notes 加上一些自己的理解。 课程主页: https://www.bradyneal.com/causal-inference-course Lectur
数据派THU
2022/09/14
2K0
因果推断入门:为什么需要因果推断?
分布式因果推断在美团履约平台的探索与实践
美团履约平台技术部在因果推断领域持续的探索和实践中,自研了一系列分布式的工具。本文重点介绍了分布式因果树算法的实现,并系统地阐述如何设计实现一种分布式因果树算法,以及因果效应评估方面qini_curve/qini_score的不足与应对技巧。希望能为从事因果推断相关工作的同学们提供一些启发或帮助。
美团技术团队
2024/01/29
3420
分布式因果推断在美团履约平台的探索与实践
推荐阅读
相关推荐
因果推断笔记——自整理因果推断理论解读(七)
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文