首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析师职业漫谈

数据分析师职业漫谈

作者头像
1480
发布2019-08-05 16:53:59
7370
发布2019-08-05 16:53:59
举报
文章被收录于专栏:数据分析1480数据分析1480
要了解一个职业,通常有3种途径:
  1. 到招聘网站上看岗位信息描述;
  2. 请教行业资深人士;
  3. 网上查文章(公众号、博客、论坛等)或者看书。

但为了避免“刻板印象”或者“职业想象”,了解一个职业尤其是自己可能要用来养家糊口的职业,最好的方式还是亲临现场亲自实践。

在笔者看来,数据分析师的工作内容主要如下:

  1. 定义一个或多个关键指标来判断业务的好坏(指标通常和KPI或ROI有关);
  2. 对指标进行操作性定义,也就是现有业务的哪些数据(或者数据表的字段)组合起来(可以理解为一个方程)可以计算出该指标;
  3. 结合业务发现影响该指标的那些因素,如果业务指标是因变量y,那么影响因素就是多个自变量x(或者机器学习中的多个特征),并筛选出那些重要的影响因素(尤其是对y的贡献大且业务上可控的因素);
  4. 在时间、人群、产品、营销等维度上细分,横向不同细类下以及纵向时间维度上影响因素x和业务指标y的关系(或者细类的分布和变化趋势等),基于业务上的考量对各细类分出优劣并给出解释,然后找到从劣到优的转移路径(也就是业务上可以操作的拉升KPI的点);
  5. 给出具体的可执行的方案(符合SMART原则),推动落地实施(可能要和商务、产品、运营、技术等合作),最后评估方案对关键指标的影响效果以及ROI等方面的考量(实际上3,4,5是一个“循环”操作)。

至于这个过程中,怎么去采集数据、清洗数据、怎么计算、用什么软件、选择什么模型等都是方法问题,没有唯一的方法也没有最好的方法,整个过程通常以结果为导向,以解决业务问题为首要目标。

举个例子(仅供参考):

指定销售额(y)为核心指标,对其拆解,销售额 = 访客数*转化率*客单价 这里关注3个自变量x中的【转化率】 将用户分为新客和老客,发现访客中新客占比20%,但是转化率比商城整体低很多,进而发现新客中那部分“老带新”带来的新客(再次细分)成功率是高于新客整体的,商城新客统一配置有注册即送10元无门槛券,但“老带新”的新客额外配置有首单满199-50的优惠,而且,这类新客中199-50的券使用率远高于10元券,可能是10元券吸引力不够啊。 基于以上分析,可以考虑调整新客优惠力度或优惠方式,比如可以设置10、15、20的无门槛优惠券,以及满99-20、满199-50、满299-80六种优惠条件做A/B Test,除了优惠方式外,其他用户特征应尽可能保证随机性和分布一致,如果“满299-80”优惠下的新客首单转化率最高,那么后续可以考虑使用此种优惠。

需要数据分析师参与的场景,按业务开展的顺序可以分为如下3种:

  • 事前:参与产品、营销等前期规划,制定方案、预估方案效果,预测后续业务发展情况等; e.g. 产品埋点的设计,业务关注哪些指标,主干转化流程是啥,要采集哪些数据,再映射到埋点上,以及最终定义埋点的类型、命名规则、记录数据值的规则等; e.g. 给定10W营销费用,用于促首单,选哪些人群、用什么样的活动形式能让转化的新客数最大化;
  • 事中:主要是监控产品/运营数据(输出报表或者在线dashboard等),方案实施的过程中根据业务表现进行调整,有时候数据有异常分析师也会介入查找原因; e.g. 前端对同一目标人群设计了ABC3种不同的广告方案(目的相同),刚开始每个广告均覆盖1/3的人群,假如单位时间内A方案中的转化率(点击/曝光)更高,那么另外两个组就调整广告规则,将大部分用户分流到A广告方案,到下午的时候发现单位时间内C方案的转化率更高,又会再次调整放量,实际上,多方案赛马过程中要考虑的颗粒度会更细,动态调整规则也更复杂。
  • 事后:复盘总结,专题分析,出数据报告,评估方案效果或者某业务操作(产品改版、运营活动、系统故障等)产生的交易影响,对业务上的数据波动归因等也是常见的数据分析工作;

e.g. KPI出现较大波动,需要分析主要影响因素有哪些,各自的影响量是多少,哪些影响因素是稳定的?哪些是可控的,如果可控,有啥可以改进的方案?

此外,问题解决的技术方案大致遵循“效度->信度->速度->广度”的演进方向:

  1. 优先保证准确性(效度),解决业务问题是最基础的要求,不过解决问题通常不是直接达到100分,在资源有限的条件下,也许70分就OK,后面有资源再逐步迭代;
  2. 其次关注稳定性(信度),验证和完善步骤1中的解决方案,以确保后续遇到类似的问题能使用先前的方法较好地解决;
  3. 再利用技术手段来提升效率,通常会涉及到机器学习和计算平台提供的规则化、自动化、批量化数据处理的能力;
  4. 最后,把整个流程模块化、工具化,让先前的模型或者分析方法能适用于其他业务场景(提升迁移性),推出可以供业务方直接使用的数据产品(即使他们不懂编程、不懂算法);

在迭代的过程中遵循SSC原则——Start 开始应用新的刚验证有效的方法,Stop 停止错误的、过时的、效率低的方法,Continue 继续沿用或改进先前验证过的有效的方法。

数据分析师需要的核心能力包括业务理解、方法理论、技术实现3个方面。

1 业务理解

  • 行业理解:比如电商主营业务是卖货(C端)以及提供在线货架管理(B端),然后延伸服务(比如金融、自营品牌等),目前国内市场的top3是天猫、京东、唯品会,三家的业务模式又各有不同;
  • 产品模式:卖给谁(用户人群有啥特点)?卖什么(主营产品或服务)?在哪卖(交易场景是啥)?这3点对应的是人、货、场;
  • 关键指标:只有被量化以及对比适合的参照点才能知道业务的好坏,推荐《精益数据分析》这本书,涉及互联网的主要商业模式以及相应的关键指标解读;

2 方法理论

  • 业务知识:产品的主干转化环节(枝干环节如何拆分)、如何监测用户数据(e.g.埋点)等,以及运营的主要形式及目的(用户运营重生命周期转化,内容运营重活跃,产品运营重产品转化,活动运营重交易或传播),运营相关的书籍,推荐黄有璨的《运营之光》以及李少加的《进化式运营》;
  • 数学知识:概率统计、线性代数、常用的机器学习算法等专业知识都要知道的,理论上讲,这些知识知道的越清楚,使用得越熟练,工资就越高。不一定要做到能推导公式,但至少也要理解各类算法的大致原理、优缺点、使用前提及场景等;
  • 通用能力:比如思维方法(e.g.数据分析常用思维)、沟通技巧(e.g.表达的框架)、项目管理等,关于通用能力这块,推荐看《12个工作的基本》和《商业模式新生代》,可以辅助构建自己的能力体系;
  • 其他专业:跨专业的知识不仅有利于工作中理解用户、产品、营销等,也能让自己在生活中多多收益,推荐科特勒的《营销管理》,如果对心理学感兴趣的话,《心理学导论:思想与行为的认识之路》和《心理学与生活》是不错的入门读物,当然,跨专业的知识也可以直接和合作的业务方请教学习;

3 技术实现

  • 流程:比如数据分析的常见的SEMMA、CRISP-DM流程,涉及到数据采集、清洗、整合、转化、建模、评估、上线等环节,每个环节还可以细分操作方法,比如数据采集可以分为网络爬虫、问卷调研、用户访谈、产品埋点等(详情见数据获取)。对应到具体的工作内容,可能就有更多细化的操作,比如需求处理流程、报表开发流程、模型上线流程等;
  • 工具:分析软件(Excel/R/Python/SAS等)、可视化软件(PowerBI/Tableau等)、大数据平台(Hive/Spark等)、机器学习框架(Tensorflow/Mahout等)等,趁手的工具一定要熟练使用(详情可参见数据分析常用工具)
  • 架构:使用工具来搭建整合数据分析流程的系统或者数据产品,这是比较高阶的能力,架构不仅要掌握全面且熟练的技术,还依赖于对过往工作经验的总结,从中提炼“模式”和“标准”,将标准化的某项技术或者分析思路用规则化的编程语言实现,最终形成一个适用于多个场景(迁移性)的产品。

数据分析的两个主要分支方向——分析和挖掘,不管是哪个方向,基本的数学知识和机器学习算法都属于必备技能:

分析偏业务

  • 自上而下的“理论”或者业务驱动;
  • 和产品、运营打交道比较多(工作输出对接主要就是这两类同事);
  • 一般title是“数据分析师”、“数据产品经理”、“运营分析师”、“商业分析师”等;
  • 通常要求会Excel/R/Python/SAS、Tableau/PowerBI等软件,会使用常见的算法,了解产品和运营的分析思路,能输出产品或运营优化方案并促进落地等;

挖掘偏技术

  • 自下而上的数据驱动以发现更优模式;
  • 通常对接数据平台或者对算法依赖非常重的业务(比如风控);
  • title里通常带有关键字“开发”、“研发”、“算法”、“挖掘”、“工程”、“大数据”等;
  • 能力上通常要求能使用大数据依赖的操作系统(Linux/shell等)、大数据软件(Spark/Hadoop/Storm等)、开发语言(C/C++/Java/Scala等)、机器学习框架(Tensorflow/Mahout等),然后就是要熟悉数据结构、算法(数学算法和计算机算法)。

最后,分享几点工作上的小Tips:

  • 接数据需求时,一定先和业务方确定目的或者业务价值,不仅有助于理解业务方向,也能挡掉一部分不靠谱的需求(话说我曾经态度和善地接了很多这种需求,这种需求,只有苦劳,没有功劳);
  • 懂业务是分析师值钱的点之一,和业务方保持紧密联系,听听他们的思路和见解,这是很好的学习机会。如果只是“被动”处理需求,而很少“主动”和业务方沟通,对业务的理解可能就没那么深,可以参考车品觉老师在《决战大数据》中提到的“混、通、晒”;
  • 摆正自己的工作角色,提防“乙方心态”,不能想着搞完需求就完事了,和业务方的合作不是一次性买卖,站在他们的角度想问题不仅能理解业务方向,还能理解数据分析解决的问题以及带来的价值(以免怀疑自己是在打酱油);
  • 要有一定的“翻译”能力,如何对一个指标下操作性定义(量化),如何把业务语言转化为技术语言(再转化成计算机代码),或者把数据分析结论转化为业务方听得懂、用得着的信息;
  • 沟通能力很重要,包含但不限于口头表述、PPT演示、结构化表达等,一方面沟通的时间成本很高(超哥说,时间是人类唯一宝贵的资源),另一方面沟通能力是外显的职业能力(大家看得到),建议阅读《金字塔原理》;

以上,是笔者对数据分析师这个职业的一点看法,真实的世界往往比能够记录下来的世界更复杂、更丰富,正如文章开头提到的,只有亲临现场、亲手去做才会知道属于自己的答案。

谨以此文,与大家共勉!

推荐书籍:

决战大数据,车品觉,浙江人民出版社;

精益数据分析,Alistair Croll,人民邮电出版社;

如何衡量万事万物,英文书名是How to Measure Anything Workbook,Douglas W. Hubbard,目前只有台译版;

量化-大数据时代的企业管理,Martin Klubeck,人民邮电出版社;

超级思维,Aaron Santos,虽然此书评价褒贬不一,但通过常识来构建一个目标数据的预估思维是很有必要的;

用图表说话:麦肯锡商务沟通完全工具箱,Gene Zelazny,清华大学出版社,从技术角度来说这是一本讲可视化的书,但商业上的可视化思维不是追求酷炫美,而是讲一个故事;

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析1480 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档