前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析师,要懂多少算法模型?

数据分析师,要懂多少算法模型?

作者头像
博文视点Broadview
发布2023-04-04 11:00:35
2320
发布2023-04-04 11:00:35
举报
文章被收录于专栏:博文视点Broadview

随着数据分析岗位招聘越来越内卷,问“你用过/建过什么模型”的也越来越多。这个问题很容易给人“面试造航母,工作拧螺丝”的感觉。实际工作中,真的要搞那么多模型???

搞得很多同学在疑惑:

  • 到底数据分析师要懂多少算法模型?
  • 工作中真的要用到那么多模型?
  • 我干的到底算不算模型?

今天来认真梳理一下。

盘点各路人马口中的模型

这个问题的本质来自于不同人口中的“模型”含义不一样。广义上讲,只要是对现实问题的抽象,都可以叫“模型”。但一旦要结合数据、计算过程、使用场景,就会发现这些千奇百怪的模型完全不一样。因此了解清楚,我们得先对各路人马口中的“模型”全盘梳理一下。

类型一:纯理论模型

这些模型往往来自《管理学》《营销学》课程,和数据的结合度几乎为0。就比如PEST,就问一款APP的DAU在8月份涨了10万,有多少来自国家出的文件?又有多少来自2017年新生人口1723万?又有多少来自华为——没有一个能算得清楚的。

所以这些东西严格来说不能算数据分析模型,它们只是一个思考方式。除非是政策敏感性特别强的行业+政策风向猛烈波动(比如互联网金融),才能直观地从PEST看到数据变化;或者处于垄断竞争行业(比如三大电信运营商),业务才会直接受到对手挑战。其他场景下,这些玩意就是美化PPT用的。

类型二:半理论模型

这些模型是经典的营销分析模型,但正因为经典,所以它们大部分基于调研数据,诸如用户态度,感觉,评价,是基于传统调研的手段获取数据。在当下,能获取用户数据方法很多,直接ABtest,比通过问卷问态度再反推更直观。因此这些模型适用范围已大大缩水。理论可以看,但是直接搬运就省省了。

有意思的是,为了体现自己的价值,调研公司、咨询公司、广告公司还是很喜欢讲这一类的模型,毕竟用户脑袋没有开接口,行为数据记录再多,还是不能直接推导出用户想法。因此在产品经理\运营\研发很迷惑的时候,还是会求助于市场调研。

类型三:基于指标计算模型

这些模型才是业务提及率最高,讲得最多的模型。这些模型,往往直接使用业务部门的KPI指标,以有逻辑的方式呈现,因此业务部门在讨论问题的时候可以直接往里边套,非常好用。同时,这些模型都是可以基于指标继续拆解的,因此业务讨论完了,可以直接按小组分配任务,并且监督任务完成情况。这两项优势,使得业务非常喜欢用这一类模型,时不时还自己创造两个。

但是,这一类模型有个致命缺点,就是:关键参数来自经验,未来预测全凭拍脑袋。你问业务为啥估计转化率是20%,得到的回答不是:“最近几个月都是20%”,就是“我觉得它会是20%”——建算法模型的时候还有各种检验值呢,这里就纯拍脑袋了。

类型四:指标计算模型

曲线拟合一般用来预测整体指标走势,比如整体销量、整体商品数量、用户流失数量等等。这种做法简单粗暴:不看原因,只看结果,拿结果数据的过往走势,拟合未来走势。

虽然看起来粗暴,但是却非常好用。因为需要的数据量少!只有一个结果数据即可(很多情况下,简单省事就是王道)。因此适用范围非常广。

线性规划模型是经典的科学管理模型,往往用在已定目标,分配任务的场景(如下图)。

有意思的是,线性规划模型常常是用在供应链的,营销端理论上可用,但是用的少。其中最大的制约,来自基础数据的积累:供应链往往对生产力、运力、人力有比较多的评估和积累,因此有大量数据可用于建模。营销端一天100个花样,业务方又太执着于玩法创新,懒得打业务标签和积累数据,自然没有多少数据可参考。

类型五:算法模型

这里才是近几年大火的机器学习算法。但是,这些算法大部分不是用来解决企业经营问题的,而是工业应用,比如安防,辅助驾驶,语音识别,语音控制,内容推荐,商品推荐,反欺诈,风控等等。这些都是生产系统,非数据分析/BI系统。在架构上一般都是专门的算法组/风控模型组负责,不会和数据分析组重叠。

在企业经营方面,算法有一些经典应用场景,比响应率预测,消费能力预测等等,但始终不是数据分析工作重点。因为大部分企业经营场景,面对的问题是:没数据!采集数据,整理数据,分析数据才是数据分析组主要任务。且大部分算法解释性差,业务既无法参与,无法理解,因此能输出的成果非常有效,从而限制了算法在分析上使用。

至于为啥面试的时候喜欢问算法的越来越多,其实是数据分析岗位内卷得明显标志:只是单纯报这个岗位的人太多了,咱问点难的东西淘汰一批吧。没有独立算法组,指望招一个孤零零的数据分析师把模型搞出来,就是做梦。

模型到底需要懂多少

比如预测12月销量,那么可以做:

这样直观对比,就能看出来,为啥统计学/机器学习算法模型,在实际场景中运用很少。这些模型需要的数据多,需要的数据颗粒度细,建模过程复杂,输出的结果反而更简单,业务看了能干的事也少。

相比之下,套用经营分析的模型进行拆解,虽然主要参数都是拍脑袋,但也变相的给各个部门下了军令状:你必须做到这么多!这样更容易驱动业务部门行动。用时间序列法虽然算出来的也不能落地,但是它需要的数据少,只有一串数照样用。因此省事。

注意:上边的对比,并不能说明机器学习方法不适合经营分析,只是场景不合适而已。换个场景照样好用。比如用二分类模型预测用户购买。就有两种典型好用用法:

1、在响应率低的时候,压缩业务工作量,提高产出率。最典型的就是外呼,用户如果不接电话,任凭外呼员巧舌如簧也没用。并且外呼成功率特别低,自然成功率1.5%-2%,因此哪怕模型只提高一个点的接听率,也能让外呼员的效率提高一大截。

2、在响应率高的时候,识别自然响应群体,减少投入。最典型的就是营销成本控制。如果想压缩优惠券投放,最好的办法就是预测:是否购买,之后把购买概率高的群体的券砍掉。对于释放费用,非常好使。

所以在工作中,根据以下几点来看菜吃饭,才是能发挥作用,争取认可的好做法。

  • 数据丰富程度
  • 数据质量高低 
  • 结果使用场景 
  • 期望上线时间

毕竟企业工作,追求的是低成本高效率地解决问题,如果一味追求复杂尖端,还是回去学校读个博士认真做科研的好。

作者新书

限时优惠

立即扫码下单

全书近500页彩印

立即扫码下单

本书有什么特色

1、通俗易懂。一提及“商业”,人们总会总想到很多高大上的名词;一提“分析”,人们总会想到统计学、数学、算法等复杂概念。本书尽量用浅显易懂的方式,介绍商业+分析的主要概念。并且在每一章开头,都举了生活中例子,让大家容易理解。毫不夸张的说,这是一本人人都读懂的分析书。

2、内容全面。本书覆盖了从投入产出分析,到销售、供应、产品、运营分析的主要场景,对每一类场景下的主要指标,分析思路都有介绍,可以满足众多分析需求。而且,很多商业问题是相互关联的,因此全面的了解分析思路,更容易找到解决问题的答案。

3、层层深入。本书分了初级、中级、高级方法,从基础的指标体系搭建,数据解读,到中级的销售、运营、产品分析体系搭建,到一些高级复杂难题都有涉及。这些问题,一般的数据分析书(特别是工具类书)极少涉及,却又经常在工作中困扰大家。本书都给予了深入探讨。当然,不见得就100%能解决所有问题,但一定能给大家很多启发。

本书目录(滑动浏览)

向上滑动阅览目录

发布:刘恩惠

审核:陈歆懿

代码语言:javascript
复制
 如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
 热文推荐  
《架构整洁之道》重点整理,快收藏!
头像类NFT的未来,实际价值在哪里?
双中台架构之数据平台建设方法详解
狼书三卷终大成,狼叔亲传Node神功


▼点击阅读原文,了解本书详情~
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 盘点各路人马口中的模型
  • 类型一:纯理论模型
  • 类型二:半理论模型
  • 类型三:基于指标计算模型
  • 类型四:指标计算模型
  • 类型五:算法模型
  • 模型到底需要懂多少
  • 本书有什么特色
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档