面对毫无基础的业务人员,好的分析师解释逻辑,而不是细节

“每天一个数据分析师”新一期内容奉上,请享用~

人物档案

谢宇,中国联通广西分公司的大数据负责人,有超过7年的电信行业数据挖掘经验,目前主要负责大数据应用规划、基础平台设计、大数据商业变现。


DA:您是怎么走上数据挖掘这条道路的?请简单介绍一下您的学习和从业经历。

谢宇:从高中信息学竞赛开始,就对计算机解题感兴趣了;大学做过数学建模竞赛,同样是利用解决问题。工作以后做中国移动的经营分析系统,也就是俗称商业智能。信息学和数学建模竞赛分别是使用Pascal和Matlab,这跟工作以后使用的SQL有很大不同,SQL思维适应了一段时间。

第一次做数据挖掘项目是非常机缘巧合。当时数据挖掘项目已经启动,然而项目上会数据挖掘的同事离职了,领导说你做过类似的竞赛,来做数据挖掘吧,没办法,只好硬着头皮上。项目大概是找一些lookalike用户,向其推荐产品。当时看了几篇相关论文,另外把clementine的demo也重复看了几遍,就把项目做了。几年后回头再看,许多地方做得不到位的。没办法,当时数据挖掘人才真的难找(当然现在也难找)。另外推荐初学者用clementine进行数据挖掘学习,这是个简单易学的工具。

DA:在多年的从业经历中,您感到国内在数据应用方面发生了哪些变化?未来还会有哪些趋势出现?可否举例说明?

谢宇:这个问题很大,我从自己理解的角度回答,不甚完善。

尽管数据挖掘早在2000年(甚至更早)就已经被引入国内了,但是大范围使用的时间不算长,这跟数据存储/运算能力,人才培养情况,市场接受度等因素相关。特别从2013年,也就是俗称的“大数据元年”开始,更多的公司使用了数据挖掘,阿里成立蚂蚁金服,依托他们庞大的交易数据,做了不少应用,做信用,做风控等等,马云也提出DT战略。百度也推出他们基于DeepLearning的许多应用,比如BaiduEye,魔图等等。

实际数据要应用起来,链条非常长,因为这涉及到:业务—抽象成模型—数据准备和探索—建模调参—给出相应的业务解释等。上面说到的流程仅仅是数据建模的部分,更别说整个产品或者营销案涉及到的用户心理层面、流程嵌入和界面开发等环节了。所以说数据应用非常复杂。但是可以肯定的是,数据应用将在各方面都普及起来,这就需要大量的数据分析师去支撑。

DA:以您的经验,在实际应用中,数据分析师最常碰到的问题是什么?可否举例说明?

谢宇:实际应用中,最常碰到的就是业务人员/产品经理需求不明确。不少未经训练过的业务人员,他们的需求非常多,但是又无法理清这其中的关系。在需求沟通中,提问和追问非常有必要。你要多问他为什么要这么做?通常他告诉你的原因会比较浅,这时候你必须继续追问,直到他回答不上来或者你觉得解释了本质的原因为止。另一个问题就是业务人员不了解数据挖掘/大数据能做什么,他们会告诉你应该如何比较两个群体的均值,如何看某个指标的趋势,但你知道这些可以用决策树、神经网络解决,用数据挖掘的方法解决会更准确易懂。

例如需求人员想了解持双卡双待手机的客户有哪些,这些客户是否更容易从一个运营商迁移到另一个运营商。那么我们要考虑的是两个问题,但业务人员通常会说,你帮我用均值比较双卡双待手机用户和非双卡双待手机用户的均值,看看哪个用户群离网的人更多。业务人员这么跟你说是很难让人理解的,这时候你就得抽丝剥茧,通过提问的方式,了解他想干吗,分解成不同的子目标。所以你看抛开专门调算法做算法的人不谈,那是极少数人,学习机器学习算法只是工作中很小的一部分,现在很多软件例如R、python、rapidminer都有现成的包,更多的工作量还在于业务理解和抽象成数学模型上,再加上上面提到的营销心理或者是界面设计(针对营销产品/营销案或者软件产品),整个链条非常长。

这时候你要问了,那我只做好算法行不行,答案是不行的。也许在有些公司是可以的,做做算法就糊弄过去了,合同签了交付完,不用考虑落地。但这肯定不是长久之计。对分析师来说也太简单,生搬硬套算法,毫无使用价值。实际应用中要考虑的东西太多。

DA:从技术和实战的层面看,您在工作过程中遇到过比较大的或者让您印象深刻的困难是什么,后来是怎么解决的?

谢宇工作中最困难的从来不是来自于技术,而是来自于业务抽象成技术,技术再还原到业务,抽象和还原的两个过程。这两个过程做不好,项目直接走样。技术还原到业务做得不好,业务人员压根不用你的模型。

例如以前,一次跟业务人员讲决策树原理,为什么要用决策树,他立马听不懂,因为他不知道什么叫树的根节点、叶子节点、什么叫信息熵,这些对他统统都是陌生词汇。结果讲解直接被打断,开始教育我了,说你用我的方法,把他们分类好,把每一类的样本的交叉检验(其实是想说直方图)画出来,然后做比较等等。后来吃一堑长一智,再跟业务人员讨论的时候,你不能说这个东西是计算信息增益度算出来的,你得说计算机它通过计算,选择了最合适的指标来做分类,所以放在了最靠近最开始分类节点,这样能够最大效率的去分好类别。

当你面对毫无基础的业务人员,不要想着把每个细节、原理都解释清楚,你的目标是首先确保自己模型逻辑没有问题,然后让业务人员点头,这要用通俗的语言把推理过程描述清楚,业务人员会理解这个逻辑,理解好逻辑,那么细节数学上,计算机实现上怎么做,就是你的责任了。好的分析师会解释逻辑,而不是解释数据处理细节。

DA:您认为现在数据分析人才的就业现状和前景怎么样?

谢宇:要看数据分析人才的定义是什么。到招聘网站上搜“数据分析”,会发现用人单位有基础阶需求,例如要求大专生,会excel录入数据,写写vlookup做关联,这类薪酬相对肯定低一些。那高的,金字塔顶部的,高得就没谱了,年薪100~200w的都有,一般由猎头来搞定了。如果讨论总体情况,那必然是向好的。

我在知乎上看过一篇文章有句话印象很深刻:即使人类历史重来无数遍,都可以肯定,毕达哥拉斯定理都会早于航天技术的出现。人类在收集越来越多的数据,数据分析会产生更多的价值。数据越来越多,不雇佣分析师,怎么才能搞清楚数据之间的关系,从而用于业务的展开和流程的优化呢,所以分析师岗位会越来越多。那么问题来了,越来越多的岗位是否会带来薪酬的下降。在供大于求的情况下,这种情况应该会很明显,但是在求远远大于供的情况下,暂时还是不会出现这种情况。那么有人会问,真到了那时候怎么办?骚年,不断提升自己的技能水平,缩短劳动时间,创造更多超额剩余价值,才是王道啊。我相信优秀的分析师必然会有的一个性质是:对问题保持强烈的好奇心。

DA:您认为,从事数据挖掘的人才需要什么样的素质和技能才能满足当前的用人需求?

谢宇:每个岗位要求不一样。通用点就是逻辑性强、很强的自我驱动和学习能力。

单就数据分析技能而言有:数据挖掘、数据可视化、数学建模、多维分析。而这里面又有很多细分的知识点,特别是数学建模,非常有用,但对功力要求挺高的。数据挖掘的话,只考虑常用的那些算法,则易学易用,通用性强。

DA:作为一位过来人,您对想要踏入本行业的新鲜人有什么建议?

谢宇:知乎上收到过不少这样的提问。我认为最重要的是一定要做项目,能找到一个有经验的人愿意带,那真是再幸运不过。我的观点是数据分析很多可以复制的,但经验这个东西,实在宝贵,不做项目,无法凭空变出来,而现在有经验的人太少了,不少数据分析师还处于套模型的阶段,并没有深刻理解与业务人员交流的重要性。车品觉也说鼓励分析人员跟业务人员多泡在一起,就是这个道理。

另外自己看书很好,有老师快速带入门也是一种选择。

DA:能否推荐一些关于数据挖掘的实用性较强的参考书籍?

谢宇:书不在多在精:

《决战大数据》车品觉——数据分析方法论,内涵丰富的数据分析管理经验

《数据挖掘技术:应用于市场营销、销售与客户关系管理》林那夫 (Gordon S.Linoff) (作者), 贝里 (Michael J.A.Berry) (作者), 巢文涵 (译者)——有技术也有方法论,写得很好很全,实用性非常强。(不过译本有些语句不通顺,是原版导致的,用词方面,大家凑合着看~,相信收获一定匪浅。)

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-10-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WOLFRAM

旋转物体上的增强现实

16650
来自专栏机器之心

资源 | 从论文发布、学术会议到创业,斯坦福发布了一份「AI指数」年度报告

37170
来自专栏新智元

【吴恩达Quora最新问答】任何人都能成为机器学习专家

【新智元导读】吴恩达刚刚在Quora做了一次最新session,重点回答了如何学习机器学习/深度学习,以及如何从事机器学习方向工作的问题。吴恩达认为,复现他人发...

36360
来自专栏大数据文摘

语言处理想突破,三座大山必须过

如果是人类来回答这个问题,即使在情景不明确的情况下也能在快速澄清后给出回答,但对机器来说,除非依赖大量人为制定的规则,回答这样的问题难度堪比“哥德巴赫猜想”。

5910
来自专栏新智元

Facebook AI 背后的神秘组织:FAIR + AML + Product Groups

Yann LeCun 是 Facebook 人工智能实验室负责人,卷积神经网络发明者。面对 Google 的 AlphaGo,他最近谈到了 Faceboo...

43960
来自专栏机器之心

业界 | 谷歌TPU之后还有高通,人工智能芯片竞赛已经展开

选自Wired 作者:Cade Metz 机器之心编译 参与:黄小天、李泽南 作为机器学习的领军人物,Yann LeCun(杨立昆)曾在 25 年前开发过一块...

370110
来自专栏程序员的SOD蜜

DDD为何叫好不叫座?兼论DCI与业务分析的方法论

     今天,仔细阅读了园子里面的一个朋友写的《一缕阳光:DDD(领域驱动设计)应对具体业务场景,如何聚焦 Domain Model(领域模型)?》(http...

26170
来自专栏新智元

【视频】让围棋AI自己落子,DexNet机械臂深度学习抓取各种形状物体

【新智元导读】战无不胜的 AlphaGo 离不开它的“机械臂”黄博士。如果让 AlphaGo 自己落子,人类胜算想必能提高不少。抓取形状不规则的物品对机器人来说...

38570
来自专栏深度学习与数据挖掘实战

干货|新浪微博“一次增长黑客实践”总结

作者:李江

15820
来自专栏机器之心

观点 | 机器学习确实还没商品化,也不必需博士学位

选自fast.ai 作者:Rachel Thomas 机器之心编译 参与:晏奇、微胖、吴攀 上周,我收到了两个前提截然相反的问题:其中一个是兴奋地认为机器学习...

27950

扫码关注云+社区

领取腾讯云代金券