数据分析师，要懂多少算法模型？

博文视点Broadview

发布于 2023-04-04 11:00:35

2320

发布于 2023-04-04 11:00:35

文章被收录于专栏：博文视点Broadview

随着数据分析岗位招聘越来越内卷，问“你用过/建过什么模型”的也越来越多。这个问题很容易给人“面试造航母，工作拧螺丝”的感觉。实际工作中，真的要搞那么多模型？？？

搞得很多同学在疑惑：

到底数据分析师要懂多少算法模型？
工作中真的要用到那么多模型？
我干的到底算不算模型？

今天来认真梳理一下。

盘点各路人马口中的模型

这个问题的本质来自于不同人口中的“模型”含义不一样。广义上讲，只要是对现实问题的抽象，都可以叫“模型”。但一旦要结合数据、计算过程、使用场景，就会发现这些千奇百怪的模型完全不一样。因此了解清楚，我们得先对各路人马口中的“模型”全盘梳理一下。

类型一：纯理论模型

这些模型往往来自《管理学》《营销学》课程，和数据的结合度几乎为0。就比如PEST，就问一款APP的DAU在8月份涨了10万，有多少来自国家出的文件？又有多少来自2017年新生人口1723万？又有多少来自华为——没有一个能算得清楚的。

所以这些东西严格来说不能算数据分析模型，它们只是一个思考方式。除非是政策敏感性特别强的行业+政策风向猛烈波动（比如互联网金融），才能直观地从PEST看到数据变化；或者处于垄断竞争行业（比如三大电信运营商），业务才会直接受到对手挑战。其他场景下，这些玩意就是美化PPT用的。

类型二：半理论模型

这些模型是经典的营销分析模型，但正因为经典，所以它们大部分基于调研数据，诸如用户态度，感觉，评价，是基于传统调研的手段获取数据。在当下，能获取用户数据方法很多，直接ABtest，比通过问卷问态度再反推更直观。因此这些模型适用范围已大大缩水。理论可以看，但是直接搬运就省省了。

有意思的是，为了体现自己的价值，调研公司、咨询公司、广告公司还是很喜欢讲这一类的模型，毕竟用户脑袋没有开接口，行为数据记录再多，还是不能直接推导出用户想法。因此在产品经理\运营\研发很迷惑的时候，还是会求助于市场调研。

类型三：基于指标计算模型

这些模型才是业务提及率最高，讲得最多的模型。这些模型，往往直接使用业务部门的KPI指标，以有逻辑的方式呈现，因此业务部门在讨论问题的时候可以直接往里边套，非常好用。同时，这些模型都是可以基于指标继续拆解的，因此业务讨论完了，可以直接按小组分配任务，并且监督任务完成情况。这两项优势，使得业务非常喜欢用这一类模型，时不时还自己创造两个。

但是，这一类模型有个致命缺点，就是：关键参数来自经验，未来预测全凭拍脑袋。你问业务为啥估计转化率是20%，得到的回答不是：“最近几个月都是20%”，就是“我觉得它会是20%”——建算法模型的时候还有各种检验值呢，这里就纯拍脑袋了。

类型四：指标计算模型

曲线拟合一般用来预测整体指标走势，比如整体销量、整体商品数量、用户流失数量等等。这种做法简单粗暴：不看原因，只看结果，拿结果数据的过往走势，拟合未来走势。

虽然看起来粗暴，但是却非常好用。因为需要的数据量少！只有一个结果数据即可（很多情况下，简单省事就是王道）。因此适用范围非常广。

线性规划模型是经典的科学管理模型，往往用在已定目标，分配任务的场景（如下图）。

有意思的是，线性规划模型常常是用在供应链的，营销端理论上可用，但是用的少。其中最大的制约，来自基础数据的积累：供应链往往对生产力、运力、人力有比较多的评估和积累，因此有大量数据可用于建模。营销端一天100个花样，业务方又太执着于玩法创新，懒得打业务标签和积累数据，自然没有多少数据可参考。

类型五：算法模型

这里才是近几年大火的机器学习算法。但是，这些算法大部分不是用来解决企业经营问题的，而是工业应用，比如安防，辅助驾驶，语音识别，语音控制，内容推荐，商品推荐，反欺诈，风控等等。这些都是生产系统，非数据分析/BI系统。在架构上一般都是专门的算法组/风控模型组负责，不会和数据分析组重叠。

在企业经营方面，算法有一些经典应用场景，比响应率预测，消费能力预测等等，但始终不是数据分析工作重点。因为大部分企业经营场景，面对的问题是：没数据！采集数据，整理数据，分析数据才是数据分析组主要任务。且大部分算法解释性差，业务既无法参与，无法理解，因此能输出的成果非常有效，从而限制了算法在分析上使用。

至于为啥面试的时候喜欢问算法的越来越多，其实是数据分析岗位内卷得明显标志：只是单纯报这个岗位的人太多了，咱问点难的东西淘汰一批吧。没有独立算法组，指望招一个孤零零的数据分析师把模型搞出来，就是做梦。

模型到底需要懂多少

比如预测12月销量，那么可以做：

这样直观对比，就能看出来，为啥统计学/机器学习算法模型，在实际场景中运用很少。这些模型需要的数据多，需要的数据颗粒度细，建模过程复杂，输出的结果反而更简单，业务看了能干的事也少。

相比之下，套用经营分析的模型进行拆解，虽然主要参数都是拍脑袋，但也变相的给各个部门下了军令状：你必须做到这么多！这样更容易驱动业务部门行动。用时间序列法虽然算出来的也不能落地，但是它需要的数据少，只有一串数照样用。因此省事。

注意：上边的对比，并不能说明机器学习方法不适合经营分析，只是场景不合适而已。换个场景照样好用。比如用二分类模型预测用户购买。就有两种典型好用用法：

1、在响应率低的时候，压缩业务工作量，提高产出率。最典型的就是外呼，用户如果不接电话，任凭外呼员巧舌如簧也没用。并且外呼成功率特别低，自然成功率1.5%-2%，因此哪怕模型只提高一个点的接听率，也能让外呼员的效率提高一大截。

2、在响应率高的时候，识别自然响应群体，减少投入。最典型的就是营销成本控制。如果想压缩优惠券投放，最好的办法就是预测：是否购买，之后把购买概率高的群体的券砍掉。对于释放费用，非常好使。

所以在工作中，根据以下几点来看菜吃饭，才是能发挥作用，争取认可的好做法。

数据丰富程度
数据质量高低
结果使用场景
期望上线时间

毕竟企业工作，追求的是低成本高效率地解决问题，如果一味追求复杂尖端，还是回去学校读个博士认真做科研的好。

作者新书

限时优惠

立即扫码下单

全书近500页彩印

立即扫码下单

本书有什么特色

1、通俗易懂。一提及“商业”，人们总会总想到很多高大上的名词；一提“分析”，人们总会想到统计学、数学、算法等复杂概念。本书尽量用浅显易懂的方式，介绍商业+分析的主要概念。并且在每一章开头，都举了生活中例子，让大家容易理解。毫不夸张的说，这是一本人人都读懂的分析书。

2、内容全面。本书覆盖了从投入产出分析，到销售、供应、产品、运营分析的主要场景，对每一类场景下的主要指标，分析思路都有介绍，可以满足众多分析需求。而且，很多商业问题是相互关联的，因此全面的了解分析思路，更容易找到解决问题的答案。

3、层层深入。本书分了初级、中级、高级方法，从基础的指标体系搭建，数据解读，到中级的销售、运营、产品分析体系搭建，到一些高级复杂难题都有涉及。这些问题，一般的数据分析书（特别是工具类书）极少涉及，却又经常在工作中困扰大家。本书都给予了深入探讨。当然，不见得就100%能解决所有问题，但一定能给大家很多启发。

本书目录（滑动浏览）

向上滑动阅览目录

发布：刘恩惠

审核：陈歆懿

 如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
 热文推荐  
《架构整洁之道》重点整理，快收藏！
头像类NFT的未来，实际价值在哪里？
双中台架构之数据平台建设方法详解
狼书三卷终大成，狼叔亲传Node神功


▼点击阅读原文，了解本书详情~

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-12-23，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

本文分享自博文视点Broadview 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度