猎聘网单艺:数据分析师的9大挑战

报告正文:

大家好,我是来自猎聘网的单艺,很高兴今天下午能够有机会跟大家聊一聊我们做数据分析在这个大数据时代会面临的哪些机会和挑战。我演讲的主题是数据分析师的十大机遇和挑战。主要是工作这几年自己接触的个人感受,可能会偏虚一点,偏方法论述一些,希望对大家有一点启发。

首先介绍一下我自己的背景,数据分析的背景比较杂一点,有的是从工程上过来,有的是从数学统计,有的是从物理、心理学、社会学,他们都能做的很好。我自己是偏数据挖掘,也有比较多的工程经验,我是这么一个背景。我自己现在在猎聘负责所有的跟数据有关的事情,包括数据基础设施,数据分析还有数据挖掘、研发方面的工作。

首先讲讲我们猎聘网的一个基本情况,这也是我们能做一些不同行业、不同职能的职业发展的基础。简单来说我们就是做中高端招聘的。目前网站上已经有注册用户超过2400万,我们每天在线的职位有超过75万,我们每天的数据流水线会收集大约超过5000万条日志的情况,我们的量只能算中等,跟最大的公司比还是有差距,但是这些已经能够让我们收集非常多、很有意思的数据,主要是人的职业发展的数据。

这张图可能做的有点问题,其实在这个平台上企业和人才是可以直接对话的,直接互相交流,比如说投递、发起意向沟通,还有猎头,猎头也会帮助人才和企业进行双向沟通。我们底下有一个GCDC是一个服务型的部门,能够帮助人才对择业方向做一些判断,去完善一下简历,也能帮企业招人,所有他们之间交互的数据我们都会收集下来。

有了这些数据之后我们就可以做一些比较有意思的分析了。首先我们对企业信息,通过文本挖掘的方法形成企业画像,职位描述也是这样,形成了三大画像,企业画像、人才画像、职位画像。用刚才曹老师讲的大数据的技术把它收集起来,做聚类、分类、抽样、统计和可视化以后就可以得出职业发展的报告。

我们看看数据分析师的机遇在哪里?横轴起点是2014年2月份,最晚的数据是到今年8月份,待会儿我讲一下更新的数据。纵轴是职位数,在2014年2月份猎聘上只有不到200个职位,然后到了今年8月份的时候已经是将近三千个职位了,我昨天查了一下最新的数据,现在上面有4000个职位,除了猎聘自己飞速发展,不断吸引新的企业客户来发职位之外,那个黄线是占比,你也可以看到这个是可以把一些BUG去掉看到的情况。社会对数据分析师的需求是在高速增长的,如果你觉得自己对这个行业很感兴趣,对这种职位工作很感兴趣,这是一个很好的黄金时代。

分析师的职位主要分布在哪些行业呢?主要在互联网、金融、消费品和制药,其中互联网和金融是占了80%。这个相信大家比较容易理解,因为互联网有很多数据,互联网是结果导向的,它也是市场化程度很高的,所以会需要很多精细化运营,对数据分析的要求就会多。金融行业也是这样,它是一个比较精细的行业。这些行业的话,我觉得大家可以看看自己的职业背景是不是有这方面的背景,有这方面的兴趣,如果是这样的话,你有很好的机遇。

再看看工资,总的来讲,企业是愿意为分析师提供一个高于平均水平的薪酬,我们就拿互联网这个领域来看,在互联网里边,你看起薪的时候,它稍微高一点,蓝线是分析师的互联网薪资,黄线是互联网所有职位平均的薪资,在一开始的时候它比一般的要稍高一些。到了五年以后就比较容易拿到30万的年薪,虽然谈钱庸俗了一点,但是这个还是一个很实际的话题。到后边最后我们观察到的是15年,它已经达到七八十万这样一个水平,你已经积累了非常多的经验了,企业是愿意为你这样的经验、你能创造的价值买单的。所以从投资回报率来讲是一个不错的行当。

下面我们看看我们会面临哪些挑战,是不是这个随随便便就可以做好呢?我觉得也不是。

挑战一:理解业务

分析师最大的挑战不是在技术上面

我工作这么多年,我是做技术的,但是我觉得很多做技术的人员有一个问题,就是他太技术,他只看到了技术,他没有看到产品,没有看到业务,其实做分析师也是同样的,我经常见到年轻的分析师有这样一个问题,他会比较喜欢关注技术的东西、理论的东西,但是它对业务本身的兴趣和业务程度有限,这个会造成他职业发展上的很大的障碍。

为什么呢?公司不是做纯研究的地方,它需要你解决问题,所以它的问题都是来自于业务,所以你要有一个想法,你是有一点像CEO这样一个角色,你要想着这个公司怎么运营、量化,你要了解公司的使命是什么,公司的商业模式是什么,它的销售模式是什么样的,它的内部运营管理是怎么做的,它的基本财务数据是什么,一定要懂这些东西。上来先别说我要用什么样的技术,你上来先找到你的问题,了解公司的业务,没有了解业务,你是没有价值的。

挑战二:数据收集

第二个挑战我觉得是在一个比较技术的话题上,是在数据的收集方面。

数据收集看起来是一个比较简单的事情,不就是把数给拿过来嘛,但其实里面是有很多挑战的,因为你在企业工作的时候,你不再是面临着单机弄点数据过来,或者从老师那拿点数据过来做分析,你是要从各个地方去获取数据,甚至有的时候你要自己手动去生成、写一些数据。你要保证这个数据覆盖你要分析的领域。

第二个它质量要高。这个其实是蛮有挑战的,数据只是其他部门还有其他业务线的一个副产品,它不会特别在意数据供应链问题,比如说工程师在写程序的时候,他就会说我先把功能代码写了,数据的事情后面再说,我测试的时候也不好测,他也不管,等到出了问题的时候,你拿不到数据你就急了,你再找他,让他把问题给你查出来,非常头疼。

所以这个时候你要懂数据收集是怎么回事,数据日志系统是怎么构成的,逻辑上是怎么定义的,数据流水线是怎么过来的,数据库里面是怎么通过ETL的过程拿到中央的数据仓库,这些概念你一定要懂,你没有数据就是没有源头。所以数据收集仍然是一个挑战,大家不要盯着公式看,了解了解这个数据怎么来的,你的数据供应链在哪里,它的基本情况是什么样的,这个非常关键。

挑战三:编程和技术

接下来就是曹老师也提到过的编程和技术方面的。

现在这个时代已经不再是用Excel、Spss、SAS,我看到金融方面大量地使用Python和R,我有同学在美联储就问我Python是怎么回事。这些语言是相对好学的,它是一个脚本性的语言,这个没有问题,关键是动手,不是光看书。

关系型数据库的理解,我们大部分的企业都是存在于关系型的数据库,所以你要理解关系型数据库的原理,怎么做多表查询,这个我觉得是基本功。大数据技术我觉得大家有个概念性了解就可以了,因为现在的工具会越做越好,一般的分析师都不用去管底下的事情,我们的分析师都不用写程序的,因为我们有各种各样的工具直接就把数据可以快速地处理出来了。但是你要懂Hadoop的原理,这个跟传统的数据库还是有差别的,要把里面的关键概念理解一下。最后是数据收集的相关技术,所有的这些你要达到对细节上概念比较了解的程度。

这个我觉得仍然是有一定挑战的,尤其是我自己工作当中,包括我的团队里面,我觉得分析师尤其是数学或者经济方面出来的人,他工程的训练的确是不足的,编程我觉得还是一个很重要的事情。

在企业里面工作,大家都会说很多时候数据分析师会跟报表打交道,你如果天天只是做报表的话,你会觉得自己空间很狭小,很没意思。我跟同行交流,他们很多人就觉得自己整天就是弄报表,算Excel,我觉得你天天这样是有问题的,为什么呢?你的价值就停留在执行层面上了,你应该去找一个机会让自己的价值更大。

挑战四:指标体系的设计

这里面有一个关键点,我觉得分析师可以做的就是做指标体系的设计

我们做报表的时候往往是业务部门从某一个运营的角度观察的角度做报表,但是他没有一个系统的思维,这个给分析师带来了一个机会,你系统地从业务模型、商业模型的角度去考虑,我怎么做一套指标能够比较有效地反映我们的企业的运作情况或者某条业务线的情况。

这张图上有一个例子,这是我做的一个简化的猎聘的用户获取模型,在之前只有一些零零散散的报表,都不成体系,我们用这个模型以后就可以看出我们获取用户就分为三个阶段,先获得新用户,用户注册以后,他往往不会第一时间把自己的信息填完整,我们要想办法激活他,让他把产品用起来。这些用户用起来以后,尤其是招聘产品,他可能找到工作就不怎么来了,但是我们现在也有职业社交,大家可以在上面找到同行,也可以找到能帮助你职业发展的人,会提高用户的活跃度,如果这些都不行的话,他就会变成一个休眠用户,很长时间不来。

我们针对这三个阶段可以做什么呢?分别设计一些指标,就是每个方块我设计一些具体的指标,方块和方块之间的转化再设计一套指标出来,由此就把整个用户获取这方面的业务就可以建立一个比较完整的指标体系了。这是一个简化模型,真实的模型会考虑很多维度、时间周期,还有一些特殊的业务环节有关的点。这个时候你就可以摆脱表哥表姐的的业务了。

这个工作我觉得还是有一定挑战性的,就是你要花功夫去想,要跟很多部门沟通,这个事情不是你单方面可以决定,我就设计一个东西,你必须得到大家的认可。第二个做完之后你怎么推动大家去用,也是一个问题,所以我认为它是一个挑战。

挑战五:监控

这是监控话务中心的图,我们每天我对我们的分析师提出了一个要求,早上起来先打开自己的页面快速浏览一下看看有没有异常,这个也是锻炼大家对数据敏感性的很好的手段,通过的话,我们有可能比业务部门更早地发现问题,发现问题之后我们就可以向相关的部门报告。

我觉得有一个很困难的,挺有挑战性的事情就是去分析,当你的业务指标出现一个巨大的波动的时候,它背后的原因是什么,是不是真正业务发生了变化,还是说是外部环境发生了变化,还是说我内部技术系统出现BUG,有的时候前面讲过数据收集,工程师很愿意跟你配合的人非常少,程序他改了,你的数据就乱套了,你还得去找到他。这个东西我们可以想想有没有什么自动化的工具,我们正在做这方面的努力,包括自动化的异常检测,异常模式的识别,这些是有一些技术手段可以做的。但是第一点人还要先上,只有人懂这些东西,你才能找到自动化的工具。

挑战六:项目管理

另外你从小模块开始,做一些比较大的项目,尤其是驱动的项目,你要有一些项目管理的能力。

作为技术人员,像刚才小平讲的,通过那个设备看到他自己40%的时间是对着屏幕,分析师也是这样的,分析师的沟通能力有时候是欠缺的,你习惯了去扣数字,去跟电脑玩数据,尤其是你做到比较高级的阶段的话,你肯定要去拉项目,所以要学会怎么做跨行业的协作,主动沟通。哪怕你不是这个项目的负责人,但是你负责当中的一个部分的话,你要去主动影响别人,我觉得要走出去,大家性格上要走出自己性格的一个小圈子。另外,现在互联网里面越来越接受敏捷开发的模式,我觉得大家可以学一下,有很多书可以学,这些都很好懂,很好学的。

挑战七:产生影响力

还有一个挑战是怎么样产生影响力。

你的职业价值在哪里。你如果只是变化表哥表姐那是比较悲惨的阶段,你真正有价值是要对公司的业务产生影响。虽然现在我觉得用数据驱动运营,很多时候商业决策还是需要人的经验和抉择的,你讲基于数据的商业决策的时候,你就需要说服别人,因为大部分人的数学并不好。但是自己上这么多年学,你看自己班里数学好的人是寥寥无几的,因为数学是反直觉的,人大部分时候是靠经验、直觉去行动的,有的时候会反人性。

举一个例子,我们在互联网里会做不同方案的对比测试,你可能一个产品,如果没有受过很好的数据统计的分析的话,我看这个效果比那个要好一个百分点,比如说那是B方案,他就认为B方案比A方案好,做过统计的人都知道这里面是有随机性的,他不太懂这个东西,你懂数据统计的话,你就知道我们不能这样下结论,要想得到一个科学的结论还得通过假设检验,这个时候你要改变他的思维习惯,你要说服他。

这个时候大家要想一想我们怎么建立自己的影响力。而且很多部门传统上不一定喜欢用数据去做决策,因为老板不是这个思维,所以你要建立影响力,你先帮他干活,因为他总要提些数据,你先把脏活、累活干了,如果你觉得他是可塑之材,如果朽木不可雕,你就不要跟他谈了,如果你觉得他能听得进话,你逐步用数据帮他做一些解决方案出来,证明你的方案比他原有的方案好,他就理解你、接受你,很愉快地跟你合作。

挑战八:可视化

另外一个挑战,数据可视化

我看到一些年轻的分析师Excel玩得很好,会整出很多大的报表,直接发给各部门的总监、VP,但这个往往不是太好的,因为对方看到这么多数据,密密麻麻的数字他也很晕,除非他是天天看这张报表的,你这个时候就要想办法把这个东西变得好懂,这个时候就要用上数据可视化的手段,我们自己还是要学一学这个东西。

很多搞数学的人,觉得自己没有设计的天分,不知道怎么弄这个事情,这个我觉得从简单的比如像这种柱状图、折线、散点图做起来,逐步逐步地你有时间了,当然一般分析师也没有这么多时间,你就可以根据你的业务想出一套比较好懂的视觉语言,就可以很快地帮助你的客户、你的用户去理解数据背后在发生什么。我觉得大家不能随便地把Excel的报表、一堆数扔给别人,我觉得这个是让你觉得有点害羞的事情,现在有很多工具。

挑战九:机器学习

另外一个挑战就是机器学习。

我前面强调了,对于分析师来说技术是第二位的,第一位是业务,但是对机器我们需要学习,统计的知识大学里教的都够了,包括大学里都会讲一些实验设计,但是我觉得在工作中医药方面用得会多一点,但是互联网里面做得还是比较简单的,大学里的知识都够了。机器学习是最近发展比较快的一个领域,它的算法也很多,这个时候我觉得要找到一个方法,你是用解决问题的方法去学习,不是说我先把一个理论、一个理论扣下去,你学的时间很长,效果未必好。你找到你要解决的问题,找到这个问题的时候你找一下,就像这张图里面,这张图非常好,它就像一个旅游地图一样,告诉你遇到什么问题你往什么方向走,大家可以去网上找一下这张图。它就告诉你用什么方法,你把这些方法找到一个合适你的方法,看看有没有别人用过相似的案例,如果做过很好学学别人的经验,把这个方法吃透,我觉得这个是关键。我见过一些同学,他好像什么都知道,但是你问他为什么用这个算法,往往都答不上来,因为他没有真正用过。

讲了这么多,我们看一下最后一个事情,我想讲一下,其实我讲了机遇和挑战,除了机遇给大家画了一个大饼,实际上挑战都是来自于这张技能金字塔,从最底层的业务理解沟通,一直到最高层的决策,你们看到每走一步都是不容易的。

这个行业是一个非常拼脑力的行业。我昨天碰到一个朋友,我说分析师里面大概有三分之一左右是女士,这个比码农的女生比例高多了,我看到很多也很漂亮的,现在流行化讲颜值很高的来做分析师,我说为什么?他就一语道破了,他说这个行业跟码农不同,我也不鄙视他们,写代码的人有的时候干的真的是体力活,很多业务型的产品只是把业务逻辑映射成逻辑代码,而分析师不仅懂代码还要懂业务,我觉得能有信心投入到这个行业的个个都是顶呱呱的。

我们团队的情况,我们公司也挺有意思的,把数据部门独立出来做,我们自己包括了底层的三个绿色是功能方面的,上面六个小组是业务线,左边三个是分析的,右边三个相当于是做数据挖掘、做产品的,我们都是比较小的团队,这个团队最好的一个特点是这种架构第一个我们有独立性,我们不是从属于产品或者运营部门,有比较好的独立性,有相当的话语权,第二我们自己能够频繁地交流、合作,非常方便,同时也是针对业务线做服务,反应也很快。

最后,再给大家分享一句我非常喜欢的话:除了上帝之外,我们只信数据了。如果大家决定做数据分析师,我觉得你们将是上帝的解读者这样一个角色。最后感谢经管之家,感谢赵老师邀请我们一起过来参与这个活动。

精彩问答:

提问:你好,我想问一下,现在招聘网站主要盈利点就在于求职者跟人才信息不对称挣钱,后期如果这部分有人整合、共享之后,你觉得招聘网站何去何从呢?您看您是招聘网站的,你掌握大量数据,您招人还发愁,猎头是帮企业找人才的,他们猎头这一块也着急招人。

单艺:你问的是招聘网站的未来在哪里,我觉得招聘网站是有很好的未来的。为什么这么说呢?因为我觉得招聘是一个比较复杂的过程,它不像电商,电商买卖的都是标准化的产品,招聘启示招聘双方人才和企业都是非标准化的,这个时候你即使把数据公开出来之后,仍然需要有这么一些机制或者说服务能够把这两方给撮合起来,不是一个简单的买和卖的关系,是一个撮合的过程。我觉得猎聘的一个特色就是有比较好的服务猎聘自己有自己的团队,他可以做两方的撮合,数据的积累。第二个我们自己也在做技术,做自动化的撮合,我们内部有一个伯乐项目,我们分析你的简历,分析企业的GAD,双方的行为,这个事情必须是双方满意的,才能算撮合起来。我觉得即使数据开放出去之后,不一定不对称,都公开在那,就像网页都公开在那,但是你仍然需要搜索引擎去帮你。

提问:您好,我想咨询一下,一个百万级的用户,负责咱们数据分析这一块的,加上日常、日报业务部门的需求,大概需要几个人维护?大概什么样的分工?

单艺:你的问题是如果有一个网站有百万注册用户,需要有多少人来做数据分析工作,还是网站的维护?

?提问:不是,我们是做电信行业的,不用做太深度的客户发掘,就是简单的日常日报运营,再就是对业务的需求分析。

单艺:我觉得这个问题我有一个不确定的地方,你做出来这些东西是给多少人用,给什么样的人用,你的用户在哪里?

提问:只是商务和运营。

单艺:我听起来不需要多少人,如果是一个比较有经验的分析师我觉得一名就可以做了。第一,这个听起来是一个量还不算太大的网站,商务运营只是要简单的统计报表,你不需要支持它的优化,我觉得一名有经验的分析师就可以做了。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-12-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据猿

永洪科技高级副总裁王桐:运营商大数据运营能力升级之路

<数据猿导读> 永洪科技高级副总裁王桐在2016年信息通信大数据大会上发表了以“运营商大数据运营能力升级之路”为主题的演讲。他讲到,对于运营商行业来讲,大数据会...

2994
来自专栏Python数据科学

如何进阶成为一名数据科学家?

来源 | https://github.com/AAAlvin/Project_Folder/

904
来自专栏云计算D1net

云计算在人工智能时代仍为主流

1747
来自专栏云计算D1net

企业云采用的几个关键趋势

由调研机构IDG通信公司开展的2018年云计算调查研究发现,很多组织仍在发展云计算环境方面继续增加投资,以利用云计算技术推动业务发展。在550个被调查组织中,有...

1142
来自专栏BestSDK

搜狗翻译API新增:日、韩、法、俄4语种,支持批量翻译

在全球信息加速产出与传播的当下,语言差异给各领域的开发者带来了诸多难题。如今,搜狗搜索已将前沿的人工智能技术应用于翻译领域,为身处全球各地的开发者提供高质量机器...

48110
来自专栏服务端技术杂谈

技术团队,一定要做一款自己的产品

故事先从 [高德宣布日活超越百度,终成业界第一] 说起,在中国互联网界过去10年有三座过不去的大山–BAT。 但是最近几年看下来,B在与AT的竞争者逐渐掉队了。...

3248
来自专栏云计算D1net

云时代 IT 从业者尚存 50% 职业技能空白

企业目前已经普遍开始鼓动自身IT部门克服恐惧心态,积极投身于全面兴起的云技术浪潮当中。 随着企业不断投身于全面兴起的云技术浪潮当中,业务数据及服务运行所处之平台...

2723
来自专栏华章科技

那些年,曾经被我们误读的大数据

如今,只要能谈论点儿大数据就显得很高大上。然而,大数据挖掘、大数据分析、大数据营销等事情仅仅只是个开始。当然,也有很多人直接批判大数据或大数据营销给我们造成隐私...

721
来自专栏企鹅号快讯

从科研角度谈“如何实现基于机器学习的智能运维”

清华大学计算机系副教授 裴丹于运维自动化专场发表了题为《基于机器学习的智能运维》的演讲,现场分享了基于机器学习的智能运维目前面临的挑战和解决思路。以下为演讲实录...

2976
来自专栏PPV课数据科学社区

都在说“大数据”,那它到底能帮企业什么忙?

大数据对企业来说有什么用?对于这个连IT界都众说纷纭的事情,要让希望使用大数据产品和服务的企业主们来说,更是一头雾水。其实,从传统企业的运行流程来看,大数据主要...

2745

扫码关注云+社区