前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「经验」数据分析这7个场景下,可以利用算法解决问题

「经验」数据分析这7个场景下,可以利用算法解决问题

作者头像
小火龙说数据
发布2022-06-30 16:46:41
3140
发布2022-06-30 16:46:41
举报
文章被收录于专栏:小火龙说数据小火龙说数据

预计阅读时间:5min

阅读建议:本文站在数分同学的角度,分享工作中需要用到算法的地方,聚焦实际应用场景,算法不会展开(网络上有很多资料),内容相对轻松。

00

序言

「数据分析」和「数据挖掘」在很多同学眼中是两个单独的方向,但其实作为分析同学,在很多场景中,是可以利用挖掘技术解决问题的。同时,掌握一些算法内容,也是面试以及日常工作中的加分项。

本文小火龙会和大家分享7个在工作中用算法的场景,理论不会展开,聚焦思路,希望对你有所帮助。

01

反作弊

数据采集入库之后,常常会在ODS层做一步「离线反作弊」,目的是把“假用户”的刷量数据剔除出去,有助于下游数据的准确性。反作弊属数仓的范畴,一般会由DE同学负责,DS同学接触的相对较少。

反作弊的方式有很多,对于数据量不大的公司,有的甚至会直接采用统计规则进行识别。当然,在制定规则前,需要对作弊用户进行分析。例如:pv>500且ctr<0.3的用户在某些场景可能为作弊用户。

而对于数据量较大的公司,用户的作弊手段比较多样化,引入算法挖掘是非常有必要的。其中「图模型、树模型等」都有出现过,而在实战中,往往采用多种模型的组合,形成一个庞大的反作弊系统,简单举两个例子,让大家更有体感。

图模型方式举例:基于Swing二部图算法,计算用户之间相似度,结合图聚类将用户分簇,假设某个簇中疑似作弊用户大于一定阈值,则判定该簇中的全部用户均有作弊嫌疑。

树模型方式举例:根据用户的各种行为特征,采用有监督学习,判断是否为作弊用户。当然,有监督学习的缺点是,没有那么多作弊数据进行训练,同时当有新的作弊手段出现时,发现的也比较滞后。

02

异动分析

数据分析同学避不开的话题「指标异动分析」,这个在之前的文章中,小火龙也写过“异动分析三步曲”,从「异动分析思路」→「快速定位异常维度」→「输出量化结论」,对于哪部分感兴趣,可以戳蓝字部分,本篇文章不再展开。其中「快速定位异常维度」中,会利用树模型/相对熵的方式挖掘异常维度,提升排查效率。

03

预测分析

预测的作用主要在于目标的制定以及指标的监控。

预测的方式有很多:同环比、Arima、Holt-Winters、Prophet、LSTM等

预测的场景同样有很多:日常预测、节假日预测、特殊时点预测等。

其中,Prophet是原理相对简单、精准度较高,且适用较多场景的模型。在之前的文章中也有写过「预测的理论篇」及「预测的代码实现篇」,对于哪部分感兴趣,可以戳蓝字部分。

04

用户增长 – Aha Moment挖掘

在新用户分析中,经常会度量功能对用户价值的影响,如果功能对用户有显著正向效果,则会考虑通过引导手段,帮助用户使用,也就是用户增长中常说的Aha Moment。

挖掘Aha的方式有很多,其中:功能与留存的Pearson相关性、随机森林特征贡献度,均是较为常用的方法,树模型可以辅助挖掘,从而提升分析效率。感兴趣的同学可以翻翻文章「用户增长-新用户篇」。

05

用户增长 – 用户流失预警

在用户成熟期后,往往会出现衰退、流失的情况,如果能在用户即将流失之前加以干预,挽留住用户,相比获取同等数量的新用户要划算的多。

用户流失预警模型,利用用户的各种特征,创建分类模型,预测用户未来流失的可能性,从而通过手段提前干预,尽可能留住这些用户。小火龙在之前工作中,也花了大量时间研究这块内容,在后面文章中,会和大家逐一分享。

06

因果分析

因果分析的目的主要是度量某个「干预」对「目标」的影响程度,我们经常用的AB实验就是为了解决因果问题。而在某些场景,当无法做AB实验,或者没来得及开发AB实验的时候,便可以通过一定算法手段进行挖掘。

DID(双重拆分法)、granger因果检验、因果树等,都是比较常用的方式。在之前的文章中,分享过因果算法在快手产品中的应用,感兴趣可以戳这里「因果推断」。

07

用户分群

在用户画像中,有些标签是人工加上去的,可以辅助业务进行推广,实现千人千面,例如:时尚达人、职场精英、家庭宅男等。这些标签是通过用户多种特征进行分群,并加以提炼。而聚类算法是经常用到的,同样可以翻一翻之前的文章,小火龙在「聚类算法的应用中」有详细的讲解。

最后说一句,在数据分析中,应用算法的地方还有很多,以上7个场景只是冰山一角。切记一点:学习前沿技术是非常有必要的,但算法的目的是服务于业务,在同等准召的情况下,优先选择简单的算法。

以上就是本期的内容分享。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小火龙说数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档