作者:CDA 数据分析师
基于数据的科学决策正成为趋势,国内外主要公司都在建立用数据说话、洞察、优化与创新的管理机制。如何利用数据、让数据切实产生价值是每一位数据从业人员应该深入学习并不断实现的目标。今天很有幸采访到了《大数据与机器学习:实践方法与行业案例》的作者陈春宝老师,告诉我们大数据究竟应该如何更接地气儿。
嘉宾介绍
陈春宝
上海交通大学工业工程博士,经济学硕士。在银行、信用卡、医药与电信等行业拥有近十年数据挖掘分析与 SAS 建模经验,现就职于商业银行,在数据挖掘、机器学习和业务咨询方面有着独到的见解,他的工作跨大数据、营销、风险、运营等多个领域,擅长诊断各类业务问题,应用商业和数据分析手段获得创新性的解决方案,并帮助业务部门有效的实施。曾经担任 MSA 咨询顾问、交通银行信用卡中心的数据分析经理、上海交通大学工程硕士企业导师。在 SCI&EI 索引期刊发表论文 10 余篇。
C 君:陈老师能讲讲您是怎么和大数据结缘的吗?
陈老师:2004 年交大和中国香港科技大学联合开展一项科研课题,应用数据挖掘方法实现大规模定制,现在叫工业 4.0,当时数据挖掘这个词很新,图书馆里少有的几本著作也都是翻译过来的,我对书中介绍的数据挖掘方法以及它们的应用前景非常看好,于是就参与了这个课题并作为博士学位研究题目。2007 年一个偶然机会我加入 MSA ,一方面在国内应用数据挖掘方法开展咨询项目,另一方面承接美国那边过来的数据挖掘任务,算是正式进入到这个行业。
C 君:陈老师您是怎么理解大数据应该更接地气儿这句话的
陈老师:无论是数据挖掘还是大数据,其核心都是将数据与业务相结合,基于对数据的分析结论驱动业务发展。因此,数据的挖掘和分析绝不仅是掌握几种分析方法、建模技能和多元化知识,而是把数据分析、应用思维与企业实践相结合,真正通过精准决策帮助企业实实在在的开源和节流。大数据技术和经验,来源于企业实践并反哺实践,而不是坐而论道,就接上了地气。
C 君:您觉得书中哪些方面最值得大数据分析人员深入学习和探讨的呢?
陈老师:本书在写作的时候力求做到三个方面:写作思路上,立足商业实践,结合典型业务场景详细阐述了数据获取、数据准备、数据分析、挖掘建模、结论展现、成果应用的各个环节;写作手法上,摒弃了理论与公式的堆积以及小明式的人造案例,更注重实践;内容选取上,讲述数据产生价值的各个节点,结合实际案例讲解数据闭环的构建方法,涉及了大数据的各个方面和数据应用的闭环。所有这些都是为了帮助读者更好的驾驭数据并帮助企业获取价值。
C 君:近半年关于大数据的书出版了不少,您能概括的介绍一下您这本书有什么不同吗?
陈老师:一句话,这本书是三位企业人自己工作经验的总结,通篇都是能读懂的话,应该会很接地气。大数据从业人员(例如数据工程师、数据分析师、业务分析师、算法设计师等)应该掌握哪些知识与技能,怎么应用数据解决现实的业务问题?恐怕最能给出答案的还是实际的数据从业者。本书有三个特点。其一,融合三位作者在银行、互联网金融和电商的实践,选取多个翔实的案例,对于读者开展数据分析工作能够提供直接帮助;其二,以业务场景为主线,站在数据消费者和分析师的角度,身临其境的介绍数据如何产生价值的,通俗易懂;其三,从数据环境、平台架构、分析建模、系统应用四个角度出发,归纳优秀数据分析师乃至数据科学家应该修炼的要点,让读者能知所以然。
C 君:您能给我们讲解一两个您觉得值得深刻借鉴的案例吗?
陈老师:对社交关系数据的挖掘成为近几年的一个热点话题,这些数据因为有了大量的互动而比传统的业务数据更加生动有趣,很多社交网络分析的结论也颠覆了我们的工作、生活和思维方式。书中有一个案例是应用社交网络分析方法构建客户的上下游关系,揭示潜在客户或者识别欺诈风险,实际上社交网络分析为反欺诈、风控等提供了全新的技术手段,可以解决规则和评分模型的滞后性。很多问题看起来很复杂,而Spark Graphx、Neo4j等工具则简单易学,可见理念和思路至关重要。另一个案例是精准营销领域广泛应用的分类模型,建模时一定要理清哪个是因哪个是果,一旦模型发生了因果倒置,预测结果将失去意义,但是模型在应用的时候则充分体现了相关关系的价值,只要根据评分筛选目标客户,效果就会非常好,而不需要关注究竟是什么原因在起作用。对于两个关系的熟练把握是数据分析人员应该具备的能力。
C 君:您可否推荐一些平时充电学习专业知识的平台或途径?
陈老师:推荐不敢当,说说我自己的学习途径吧。
1)专业的书籍,特别是企业人自己写的,技术和实践不一定最新,但会很全面、真实;
2)大数据专业论坛和公众号,可以很快了解到最新的技术和实践,不需要关注太多,选几个最好的即可,比如 CDA 数据分析师公众号和 SAS 中文论坛,我几乎每天都看;
3)线上线下的培训与讲座,与各领域专家面对面的交流,可能几句话或者几个观点的收获就能受益终身。
C君:您觉得大数据行业更需要什么样的人才?对希望从事数据分析行业的人有哪些建议呢?
陈老师:我在公司内培训时讲过一门课“数据分析师的四项修炼“,建议数据分析人员从四个方面修炼内功,分享出来给大家做参考。
其一,商业思维。既能够洞察客户或业务需求,为业务难题提供解决方案,又能够掌握数据变现能力,通过数据创新商业模式,变现数据价值;
其二,技术方法。熟练应用各种数据挖掘和机器学习算法,并能够根据具体问题设计必要的算法,同时掌握一套规范化的分析流程,为既定目标规划好一条捷径并推动落实;
其三,分析工具和语言。掌握至少一门工具或语言,SAS 、Python 、R ,并以开放的心态学习各类开源工具,能够实现分析思路,让算法落地,优秀的数据分析师首先要是一名出色的”码农“;
其四,数据获取与处理。能够根据分析目标采集到需要的数据并按格式加工出来,这需要熟悉公司内部的数据环境与架构,以及主要的外部数据都有哪些、各自适用于哪些场景。