Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >逻辑回归如何用于新用户识别与触达

逻辑回归如何用于新用户识别与触达

作者头像
腾讯云大数据
发布于 2018-06-28 03:25:01
发布于 2018-06-28 03:25:01
9650
举报
文章被收录于专栏:腾讯云大数据腾讯云大数据

背景

目前,某产品营收运营正处在从过去依赖产品经理的经验到通过数据来驱动增长(Growth Hacking)的过渡期。在这里梳理一下通过数据模型帮助该产品营收的一些经验。

正文

本文主要包括7部分:定义目标:转化为数据问题、样本选择、特征搭建、特征清洗、特征构造、特征选择、模型训练与评估。如图1下:

图1

一、定义目标:转化为数据问题

营收活动就是要从大盘中找出那些响应活动的高潜用户,这实际上是一个有监督的分类问题。通过训练集找出典型的响应用户特征,得到模型。再将模型用于实际数据得到响应用户的分类结果。这里选择逻辑回归(Logistic Regression)。为什么是逻辑回归?因为逻辑回归鲁棒性好,不容易过拟合,结果便于解释,近些年有很多新的算法可能分类效果会更好,但很多前辈的经验表明,精心做好特征准备工作,逻辑回归可以达到同样好的效果。

二、数据获取

特征主要包括画像和行为数据,画像数据最稳定且易获取,行为数据预测能力最强。基础特征包括画像数据(取自达芬奇)、特权操作、平台操作、历史付费行为、QQ和空间活跃等共计236个特征。

三、样本选择

选择最具代表性的样本,如果样本倾斜严重,则进行抽样,保证正样本比率不低于10%。

训练样本的选择决定模型的成败,选择最能代表待分类群体的样本。最佳选择是用先前该活动的数据做训练集,如果是新的活动,用先前相似的活动数据。

有时遇到这样的情况,先前活动的号码包是通过模型精选出来的,通常,这些号码包不是整体的有效代表,不能直接用来做为新的模型的训练样本,当然如果这些号码包占整体用户的80%以上基本就没问题。一种解决办法是随机选取样本投放活动等待响应结果来构建模型,这种方法比较耗时耗力,通常不用;另一种方法是抽取部分未投放的号码标记为非响应群体,这样构建的模型虽然不是效果最优的,但却能提升模型的泛化能力。

样本多大合适?没有标准答案,一般来说特征越多,需要的样本越大。我们建模一般有上百的特征,训练样本会选择几十万数据级。

当前计算机的计算能力已经提高了很多,抽样并不是必须的,但抽样可以加快模型训练速度,而且用单机来做模型的话,抽样还是很有必要的。通常目标用户的占比都很低,比如该产品某次活动的目标用户占比只有1‰,这样数据是严重倾斜的,通常做法是保留所有目标用户并随机抽取部分非目标用户,保证目标用户占比大于10%,在该产品营收模型训练中,一般用目标用户:非目标用户=1:4。

四、数据清洗

了解数据特性是保证优质模型的第一步。数据清洗是最无聊最耗时但非常重要的步骤。包括脏数据、离群数据和缺失数据,这里了解数据的先验知识会有很大帮助。用箱线图来发现离群点,这里关于数据的先验知识会有很大帮助。如果变量太多,不想花太多时间在这个上面,可以直接把脏数据和离群数据处理成缺失值。对于缺失值,先给缺失值建一个新变量来保留这种缺失信息,连续变量一般用均值、中位数,最小值、最大值填充。均值填充是基于统计学中最小均方误差估计。如果数据是高度倾斜的话,均值填充是较好的选择。或用局部均值填充,如年龄分段后所属年龄段的均值。还可以用回归分析来填充,实际中用的比较少。分类变量一般用频数填充。

五、特征构造

已经有原始特征,为什么要进行特征构造?特征构造的必要性主要体现在发现最适合模型的特征表现形式。

清洗工作之后,就可以进行特征构造了,主要有3种特征构造方法:汇总、比率、日期函数。

  • 汇总:如按天、周、月、年汇总支付金额,近三天、近7天、近14天、近21天、近31天听歌/下载次数,统计用户近一年累计在网月份等。
  • 比率:曝光点击转化率、曝光支付转化率、点击支付转化率、人均支付金额、次均支付金额。
  • 日期衍生:首次开通服务距现在时长、最近一次到期时间距现在时长,到期时间距现在时长。
  • 转换特征:对原始连续特征做平方、三次方、平方根、立方根、log、指数、tan、sin、cos、求逆处理。然后从所有转换中选择2个预测性最好的特征。实际中,使用最多log处理。

逻辑回归本质上是线性分类器,将预测变量尽量线性化,虽然我们的特征有连续变量和分类变量,模型训练时会把所有变量当做连续变量。

连续变量可以直接用来训练模型,但分段会使得变量更具有线性特征,而且可以起到平滑作用,经验表明分段后的特征会提升模型效果。分段一般依据经验划分或先分为均等10段然后观察各段中目标变量占比来确定最终分段。如年龄分段主要基于常规理解,分为幼儿园、小学、初中、高中、大学、硕士、博士、中年、壮年、老年。

六、特征选择

特征选择的目的是要找出有预测能力的特征,得到紧凑的特征集。

特征成百上千,对每一个变量进行深入分析并不是有效的做法,通过相关系数和卡方检验可以对特征进行初步筛选。相关性强的特征去掉其一,对每个特征进行单变量与目的变量间的回归模型,如果卡方检验小于0.5,说明预测能力太弱,去掉该变量。

做过初步变量筛选后,用剩余变量训练模型,根据得到的回归系数和p值检验,剔除回归系数接近0和p值大于0.1的特征,得到最终用于建模的特征集。

特征多少个合适?这个没有标准答案,主要原则是保证模型效果的同时鲁棒性好,并不是特征越少,鲁棒性越好。主要取决于市场,如果市场比较稳定,变量多一些会更好,这样受单个变量变动的影响会较小;当然如果想用用户行为来预测未来趋势,变量少一些比较好。对我们做营收增长来说,模型特征尽量简化,这样便于从业务角度进行解读,便于跟老板和产品同事解释。

七、模型训练和评估

前面花了大量时间来确定目标、准备特征、清洗特征。使用一些简单的技术来过滤一些预测性弱的特征。接下来,用候选特征来训练和验证模型。

模型实现步骤:

1、 通过挖掘算法获取不同群体的差异特征,生成模型用于分类。

2、 待分类用户群通过分类器筛选出目标人群,形成标识和号码包。

3、 用户号码包通过渠道进行投放,营销活动正式在外网启动。

4、 收集曝光、点击、成交数据用于评估模型效果,明细数据用于修正模型的参数。

5、 重复1——4

图2

另外,活动投放参见组选择很有必要,一般是依据产品经验或随机选取,参照组的效果一般不如模型选择的,这会导致收入有所减少,有时很难说服产品,但对于对比、监控和检验模型效果来说很有必要。

该产品营收依据模型精细化运营以来,收效显著,支付转化率提升30%~150%。

最后致上一句名言:Your model is only as good as your data!

参考文献

[1]. OP Rud. Data mining cookbook: modeling data for marketing, risk, and customer relationship management. 2001

[2]. https://zh.wikipedia.org/wiki/逻辑回归

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯QQ大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
吐血整理!万字原创读书笔记,数据分析的知识点全在这里了
导读:今天这篇文章是「大数据」内容合伙人JaneK关于《Python数据分析与数据化运营》的一篇读书笔记。在大数据公众号后台对话框回复合伙人,免费读书、与50万「大数据」同行分享你的洞见。
IT阅读排行榜
2019/11/15
1.4K0
如何用逻辑回归做数据分析?
逻辑回归是解决二分类问题的监督学习算法,用来估计某个类别的概率。其直接预测值是表示0-1区间概率的数据,基于概率再划定阈值进行分类,而求解概率的过程就是回归的过程。
Python数据科学
2021/01/28
1K0
如何用逻辑回归做数据分析?
分享一个能够写在简历里的企业级数据挖掘实战项目
使用工具: python、pandas、numpy、matplotlib、seaborn、sklearn库
数据STUDIO
2021/09/23
1.6K0
分享一个能够写在简历里的企业级数据挖掘实战项目
【机器学习】机器学习重塑广告营销:精准触达,高效转化的未来之路
在过往,广告营销往往依赖于经验判断、市场调研和广泛的媒体投放,试图以量取胜,覆盖尽可能多的潜在消费者。然而,这种方式不仅成本高昂,而且效率低下,大量广告资源被浪费在对产品不感兴趣或无需求的受众身上。随着消费者行为日益多元化、个性化,以及信息获取渠道的碎片化,传统的广告营销策略显得愈发力不从心。
Eternity._
2024/07/09
3140
【机器学习】机器学习重塑广告营销:精准触达,高效转化的未来之路
数据分享|Python爱彼迎Airbnb新用户体验数据XGBoost、随机森林预测
根据爱彼迎的2009-2014年的用户数据,预测用户第一次预约的目的地城市。同时分析用户的行为习惯。
拓端
2023/08/31
2540
数据分享|Python爱彼迎Airbnb新用户体验数据XGBoost、随机森林预测
Python爱彼迎Airbnb新用户体验数据XGBoost、随机森林预测
在多项用户数据中寻找与预测值相关的属性。查看各个特征的分布与特征之间的关联。分析用户数据,查看特定人群的使用习惯进行产品优化。最后选择合适的模型与参数来进行预测。
拓端
2023/05/12
2790
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上(点击文末“阅读原文”获取完整代码数据)。
拓端
2022/11/02
5560
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上
拓端
2023/03/13
2590
终于有人把数据挖掘讲明白了
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。
IT阅读排行榜
2021/11/25
9550
终于有人把数据挖掘讲明白了
基于 mlr 包的逻辑回归算法介绍与实践(下)
上期 基于 mlr 包的逻辑回归算法介绍与实践(上)关于逻辑回归的介绍内容中主要包括了特征工程、特征选择和缺失值的处理等问题,都是小编之前没有系统学过的机器学习任务。本期逻辑回归内容基于上期进行了扩展,主要包括逻辑回归中的交叉验证、odds ratio 和预测等。
庄闪闪
2022/04/08
6930
基于 mlr 包的逻辑回归算法介绍与实践(下)
Python对中国电信消费者特征预测:随机森林、朴素贝叶斯、神经网络、最近邻分类、逻辑回归、支持向量回归(SVR)
随着大数据概念的兴起,以数据为基础的商业模式越来越流行,用所收集到的因素去预测用户的可能产生的行为,并根据预测做出相应反应成为商业竞争的核心要素之一。单纯从机器学习的角度来说,做到精准预测很容易,但是结合具体业务信息并做出相应反应并不容易。预测精确性是核心痛点。
拓端
2023/03/14
4760
数据挖掘的方法有哪些?
数据挖掘是一个多学科交叉的产物,涉及统计学、数据库、机器学习、人工智能及模式识别等多种学科,如图1-4所示。
全栈程序员站长
2022/09/07
2.1K0
关于数据预处理的7个重要知识点,全在这儿了!
导读:今天这篇文章是「大数据」内容合伙人周萝卜关于《Python数据分析与数据化运营》的一篇读书笔记。
IT阅读排行榜
2019/10/25
1.1K0
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上
拓端
2023/03/03
3490
我的数据心经06:如何结合活动,设计科学的模型效果评估方案
以连载的方式,记录自己学习数据分析的所想所得,共勉,不定期发布。如果文章内容有用,请你分享给有需要的朋友,谢谢支持。
用户1756920
2018/08/13
9270
我的数据心经06:如何结合活动,设计科学的模型效果评估方案
逻辑回归(Logistic Regression)
逻辑回归(Logistic Regression)是一种用于解决二分类问题的统计学习方法,其输出结果表示了某个事件发生的概率。以下是关于逻辑回归的详细解释:
jack.yang
2025/04/05
3600
逻辑回归(Logistic Regression)
R语言逻辑回归预测分析付费用户
对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率。
拓端
2020/08/21
9880
用户增长分析——用户流失预警
1 前言 针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率和活跃度。本文所涉及到的分析框架和方法论等具有较强的通用性,可供有需要的同学了解参考。 2 分析背景 “根据美国贝恩公司的调查,在商业社会中5%的客户留存率增长意味着公司利润30%的增长,而把产品卖给老客户的概率是卖给新客户的3倍。所以在‘增长黑客’圈内有一句名言:留住已有的用户胜过拓展新的客户,也就是俗称的
腾讯云大数据
2018/10/09
15.3K0
用户增长分析——用户流失预警
回归算法全解析!一文读懂机器学习中的回归模型
回归问题是机器学习领域中最古老、最基础,同时也是最广泛应用的问题之一。无论是在金融、医疗、零售还是自然科学中,回归模型都扮演着至关重要的角色。简单地说,回归分析旨在建立一个模型,通过这个模型我们可以用一组特征(自变量)来预测一个连续的结果(因变量)。例如,用房间面积、位置等特征来预测房价。
TechLead
2023/10/21
3.3K0
回归算法全解析!一文读懂机器学习中的回归模型
《机器学习实战》总结篇
前些天完成了《机器学习实战》这本书的学习,也利用 Python3 实现了各个章节的代码,对传统的机器学习方法有了更进一步的了解,这里做一个总结。 代码传送门: https://github.com/xyxxmb/Machine-Learning-In-Action 目录 第一部分:分类 【Ch1】机器学习基础 【Ch2】k - 近邻算法 【Ch3】决策树 【Ch4】基于概率论的分类方法:朴素贝叶斯 【Ch5】Logistic 回归 【Ch6】支持向量机 【Ch7】利用 AdaBoost 元算法
echobingo
2018/04/25
9220
《机器学习实战》总结篇
推荐阅读
吐血整理!万字原创读书笔记,数据分析的知识点全在这里了
1.4K0
如何用逻辑回归做数据分析?
1K0
分享一个能够写在简历里的企业级数据挖掘实战项目
1.6K0
【机器学习】机器学习重塑广告营销:精准触达,高效转化的未来之路
3140
数据分享|Python爱彼迎Airbnb新用户体验数据XGBoost、随机森林预测
2540
Python爱彼迎Airbnb新用户体验数据XGBoost、随机森林预测
2790
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
5560
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
2590
终于有人把数据挖掘讲明白了
9550
基于 mlr 包的逻辑回归算法介绍与实践(下)
6930
Python对中国电信消费者特征预测:随机森林、朴素贝叶斯、神经网络、最近邻分类、逻辑回归、支持向量回归(SVR)
4760
数据挖掘的方法有哪些?
2.1K0
关于数据预处理的7个重要知识点,全在这儿了!
1.1K0
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像|附代码数据
3490
我的数据心经06:如何结合活动,设计科学的模型效果评估方案
9270
逻辑回归(Logistic Regression)
3600
R语言逻辑回归预测分析付费用户
9880
用户增长分析——用户流失预警
15.3K0
回归算法全解析!一文读懂机器学习中的回归模型
3.3K0
《机器学习实战》总结篇
9220
相关推荐
吐血整理!万字原创读书笔记,数据分析的知识点全在这里了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档