数据分析师职业漫谈

要了解一个职业,通常有3种途径:
  1. 到招聘网站上看岗位信息描述;
  2. 请教行业资深人士;
  3. 网上查文章(公众号、博客、论坛等)或者看书。

但为了避免“刻板印象”或者“职业想象”,了解一个职业尤其是自己可能要用来养家糊口的职业,最好的方式还是亲临现场亲自实践。

在笔者看来,数据分析师的工作内容主要如下:

  1. 定义一个或多个关键指标来判断业务的好坏(指标通常和KPI或ROI有关);
  2. 对指标进行操作性定义,也就是现有业务的哪些数据(或者数据表的字段)组合起来(可以理解为一个方程)可以计算出该指标;
  3. 结合业务发现影响该指标的那些因素,如果业务指标是因变量y,那么影响因素就是多个自变量x(或者机器学习中的多个特征),并筛选出那些重要的影响因素(尤其是对y的贡献大且业务上可控的因素);
  4. 在时间、人群、产品、营销等维度上细分,横向不同细类下以及纵向时间维度上影响因素x和业务指标y的关系(或者细类的分布和变化趋势等),基于业务上的考量对各细类分出优劣并给出解释,然后找到从劣到优的转移路径(也就是业务上可以操作的拉升KPI的点);
  5. 给出具体的可执行的方案(符合SMART原则),推动落地实施(可能要和商务、产品、运营、技术等合作),最后评估方案对关键指标的影响效果以及ROI等方面的考量(实际上3,4,5是一个“循环”操作)。

至于这个过程中,怎么去采集数据、清洗数据、怎么计算、用什么软件、选择什么模型等都是方法问题,没有唯一的方法也没有最好的方法,整个过程通常以结果为导向,以解决业务问题为首要目标。

举个例子(仅供参考):

指定销售额(y)为核心指标,对其拆解,销售额 = 访客数*转化率*客单价 这里关注3个自变量x中的【转化率】 将用户分为新客和老客,发现访客中新客占比20%,但是转化率比商城整体低很多,进而发现新客中那部分“老带新”带来的新客(再次细分)成功率是高于新客整体的,商城新客统一配置有注册即送10元无门槛券,但“老带新”的新客额外配置有首单满199-50的优惠,而且,这类新客中199-50的券使用率远高于10元券,可能是10元券吸引力不够啊。 基于以上分析,可以考虑调整新客优惠力度或优惠方式,比如可以设置10、15、20的无门槛优惠券,以及满99-20、满199-50、满299-80六种优惠条件做A/B Test,除了优惠方式外,其他用户特征应尽可能保证随机性和分布一致,如果“满299-80”优惠下的新客首单转化率最高,那么后续可以考虑使用此种优惠。

需要数据分析师参与的场景,按业务开展的顺序可以分为如下3种:

  • 事前:参与产品、营销等前期规划,制定方案、预估方案效果,预测后续业务发展情况等; e.g. 产品埋点的设计,业务关注哪些指标,主干转化流程是啥,要采集哪些数据,再映射到埋点上,以及最终定义埋点的类型、命名规则、记录数据值的规则等; e.g. 给定10W营销费用,用于促首单,选哪些人群、用什么样的活动形式能让转化的新客数最大化;
  • 事中:主要是监控产品/运营数据(输出报表或者在线dashboard等),方案实施的过程中根据业务表现进行调整,有时候数据有异常分析师也会介入查找原因; e.g. 前端对同一目标人群设计了ABC3种不同的广告方案(目的相同),刚开始每个广告均覆盖1/3的人群,假如单位时间内A方案中的转化率(点击/曝光)更高,那么另外两个组就调整广告规则,将大部分用户分流到A广告方案,到下午的时候发现单位时间内C方案的转化率更高,又会再次调整放量,实际上,多方案赛马过程中要考虑的颗粒度会更细,动态调整规则也更复杂。
  • 事后:复盘总结,专题分析,出数据报告,评估方案效果或者某业务操作(产品改版、运营活动、系统故障等)产生的交易影响,对业务上的数据波动归因等也是常见的数据分析工作;

e.g. KPI出现较大波动,需要分析主要影响因素有哪些,各自的影响量是多少,哪些影响因素是稳定的?哪些是可控的,如果可控,有啥可以改进的方案?

此外,问题解决的技术方案大致遵循“效度->信度->速度->广度”的演进方向:

  1. 优先保证准确性(效度),解决业务问题是最基础的要求,不过解决问题通常不是直接达到100分,在资源有限的条件下,也许70分就OK,后面有资源再逐步迭代;
  2. 其次关注稳定性(信度),验证和完善步骤1中的解决方案,以确保后续遇到类似的问题能使用先前的方法较好地解决;
  3. 再利用技术手段来提升效率,通常会涉及到机器学习和计算平台提供的规则化、自动化、批量化数据处理的能力;
  4. 最后,把整个流程模块化、工具化,让先前的模型或者分析方法能适用于其他业务场景(提升迁移性),推出可以供业务方直接使用的数据产品(即使他们不懂编程、不懂算法);

在迭代的过程中遵循SSC原则——Start 开始应用新的刚验证有效的方法,Stop 停止错误的、过时的、效率低的方法,Continue 继续沿用或改进先前验证过的有效的方法。

数据分析师需要的核心能力包括业务理解、方法理论、技术实现3个方面。

1 业务理解

  • 行业理解:比如电商主营业务是卖货(C端)以及提供在线货架管理(B端),然后延伸服务(比如金融、自营品牌等),目前国内市场的top3是天猫、京东、唯品会,三家的业务模式又各有不同;
  • 产品模式:卖给谁(用户人群有啥特点)?卖什么(主营产品或服务)?在哪卖(交易场景是啥)?这3点对应的是人、货、场;
  • 关键指标:只有被量化以及对比适合的参照点才能知道业务的好坏,推荐《精益数据分析》这本书,涉及互联网的主要商业模式以及相应的关键指标解读;

2 方法理论

  • 业务知识:产品的主干转化环节(枝干环节如何拆分)、如何监测用户数据(e.g.埋点)等,以及运营的主要形式及目的(用户运营重生命周期转化,内容运营重活跃,产品运营重产品转化,活动运营重交易或传播),运营相关的书籍,推荐黄有璨的《运营之光》以及李少加的《进化式运营》;
  • 数学知识:概率统计、线性代数、常用的机器学习算法等专业知识都要知道的,理论上讲,这些知识知道的越清楚,使用得越熟练,工资就越高。不一定要做到能推导公式,但至少也要理解各类算法的大致原理、优缺点、使用前提及场景等;
  • 通用能力:比如思维方法(e.g.数据分析常用思维)、沟通技巧(e.g.表达的框架)、项目管理等,关于通用能力这块,推荐看《12个工作的基本》和《商业模式新生代》,可以辅助构建自己的能力体系;
  • 其他专业:跨专业的知识不仅有利于工作中理解用户、产品、营销等,也能让自己在生活中多多收益,推荐科特勒的《营销管理》,如果对心理学感兴趣的话,《心理学导论:思想与行为的认识之路》和《心理学与生活》是不错的入门读物,当然,跨专业的知识也可以直接和合作的业务方请教学习;

3 技术实现

  • 流程:比如数据分析的常见的SEMMA、CRISP-DM流程,涉及到数据采集、清洗、整合、转化、建模、评估、上线等环节,每个环节还可以细分操作方法,比如数据采集可以分为网络爬虫、问卷调研、用户访谈、产品埋点等(详情见数据获取)。对应到具体的工作内容,可能就有更多细化的操作,比如需求处理流程、报表开发流程、模型上线流程等;
  • 工具:分析软件(Excel/R/Python/SAS等)、可视化软件(PowerBI/Tableau等)、大数据平台(Hive/Spark等)、机器学习框架(Tensorflow/Mahout等)等,趁手的工具一定要熟练使用(详情可参见数据分析常用工具)
  • 架构:使用工具来搭建整合数据分析流程的系统或者数据产品,这是比较高阶的能力,架构不仅要掌握全面且熟练的技术,还依赖于对过往工作经验的总结,从中提炼“模式”和“标准”,将标准化的某项技术或者分析思路用规则化的编程语言实现,最终形成一个适用于多个场景(迁移性)的产品。

数据分析的两个主要分支方向——分析和挖掘,不管是哪个方向,基本的数学知识和机器学习算法都属于必备技能:

分析偏业务

  • 自上而下的“理论”或者业务驱动;
  • 和产品、运营打交道比较多(工作输出对接主要就是这两类同事);
  • 一般title是“数据分析师”、“数据产品经理”、“运营分析师”、“商业分析师”等;
  • 通常要求会Excel/R/Python/SAS、Tableau/PowerBI等软件,会使用常见的算法,了解产品和运营的分析思路,能输出产品或运营优化方案并促进落地等;

挖掘偏技术

  • 自下而上的数据驱动以发现更优模式;
  • 通常对接数据平台或者对算法依赖非常重的业务(比如风控);
  • title里通常带有关键字“开发”、“研发”、“算法”、“挖掘”、“工程”、“大数据”等;
  • 能力上通常要求能使用大数据依赖的操作系统(Linux/shell等)、大数据软件(Spark/Hadoop/Storm等)、开发语言(C/C++/Java/Scala等)、机器学习框架(Tensorflow/Mahout等),然后就是要熟悉数据结构、算法(数学算法和计算机算法)。

最后,分享几点工作上的小Tips:

  • 接数据需求时,一定先和业务方确定目的或者业务价值,不仅有助于理解业务方向,也能挡掉一部分不靠谱的需求(话说我曾经态度和善地接了很多这种需求,这种需求,只有苦劳,没有功劳);
  • 懂业务是分析师值钱的点之一,和业务方保持紧密联系,听听他们的思路和见解,这是很好的学习机会。如果只是“被动”处理需求,而很少“主动”和业务方沟通,对业务的理解可能就没那么深,可以参考车品觉老师在《决战大数据》中提到的“混、通、晒”;
  • 摆正自己的工作角色,提防“乙方心态”,不能想着搞完需求就完事了,和业务方的合作不是一次性买卖,站在他们的角度想问题不仅能理解业务方向,还能理解数据分析解决的问题以及带来的价值(以免怀疑自己是在打酱油);
  • 要有一定的“翻译”能力,如何对一个指标下操作性定义(量化),如何把业务语言转化为技术语言(再转化成计算机代码),或者把数据分析结论转化为业务方听得懂、用得着的信息;
  • 沟通能力很重要,包含但不限于口头表述、PPT演示、结构化表达等,一方面沟通的时间成本很高(超哥说,时间是人类唯一宝贵的资源),另一方面沟通能力是外显的职业能力(大家看得到),建议阅读《金字塔原理》;

以上,是笔者对数据分析师这个职业的一点看法,真实的世界往往比能够记录下来的世界更复杂、更丰富,正如文章开头提到的,只有亲临现场、亲手去做才会知道属于自己的答案。

谨以此文,与大家共勉!

推荐书籍:

决战大数据,车品觉,浙江人民出版社;

精益数据分析,Alistair Croll,人民邮电出版社;

如何衡量万事万物,英文书名是How to Measure Anything Workbook,Douglas W. Hubbard,目前只有台译版;

量化-大数据时代的企业管理,Martin Klubeck,人民邮电出版社;

超级思维,Aaron Santos,虽然此书评价褒贬不一,但通过常识来构建一个目标数据的预估思维是很有必要的;

用图表说话:麦肯锡商务沟通完全工具箱,Gene Zelazny,清华大学出版社,从技术角度来说这是一本讲可视化的书,但商业上的可视化思维不是追求酷炫美,而是讲一个故事;

原文发布于微信公众号 - 数据分析1480(lsxxx2011)

原文发表时间:2018-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券