编者按
近期,百分点联合中国首个致力于挖掘全球女性科学人物的媒体平台DataGirls,共同主办AI讲堂。百分点首席数据科学家杜晓梦结合个人在北大本硕博期间的科研经历,以及毕业后进入企业管理数据科学家团队的经历,分享了数据科学家入门、成长和进阶之路。
百分点首席数据科学家 杜晓梦
优秀数据科学家的必备品质
作为百分点的首席数据科学家、数据科学事业部的负责人,杜晓梦组建并管理着来自国内外一流大学与技术公司的近百人数据科学团队,先后服务过洋河股份、王府井集团、华润置地及碧桂园等客户。
基于多年的行业经验与学习研究经历,杜晓梦对优秀数据科学家的必备品质进行了解读,她认为,数据科学家的必备品质大致分为两类:
第一类是提出问题的能力。“提出问题”非常考验一个人的整体思考能力、逻辑缜密性及推演能力。作为数据科学家,在工作中不仅要向内部不同业务部门提出问题,有时还要向外部客户提出问题。
杜晓梦总结了这一能力的三个要点——求知欲或好奇心:喜欢思考事情,对事情的内在因果关系很重视;商业意识:优秀数据科学家要能根据行业经验和商业智能进行迅速剖析,将商业问题转化成数据问题;沟通能力:数据科学家在提出问题时要有能把自身思考进行清晰传递的能力。
第二类是解决问题的能力。这个能力来源于自身的学习与积累,具体有四点——理论知识:对统计学、数学和计算机科学进行系统学习;计算:包括编程、分布式计算、可视化和其他工具与技术。通过开源资源、现成工具等自学积累;交流和商业的头脑:缺乏交流和沟通会导致与客户理解问题的角度不同,缺少桥梁;走出团队,到业务中去:跟业务部门不断沟通和处理业务问题。
同时,杜晓梦补充道,不同岗位的数据科学人才有共同的能力要求——快速学习能力:数据科学是需要终身学习、快速学习的学科;在找到一个专注方向的同时,要不断学习其他知识;逻辑思维能力:在调教数据过程中,数据会产生很多假象。如果欠缺逻辑思维和推演的能力,可能会导致算法、模型做无用功;数据的敏感度:数据的敏感性在很大程度上来源于天赋,没有天赋就要靠态度去弥补。
数据科学家的成长之路
杜晓梦总结道,成长为数据科学家,会经历四个阶段:新人期、成熟期、发展期和事业期。
新人期
刚毕业的学生,需将知识转为实践。需要具备的软技能:形成基本职业规范和素养,小到公司的制度规范,或是学习、成长、分享的习惯。
成熟期
工作到一定阶段,开始积累专业知识。需要具备的软技能:明确成长目标,学习工作中用到的技术,并积累业务。主要完善自身职业观念。
发展期
属于高级阶段,需要明确未来发展方向,是选择管理路线Or技术耕耘?需要具备的软技能:在做事方面形成自身方法论,在解决问题时,先做好问题的分析、分解。
事业期
站到更高视角,为团队、公司创造更多价值。需要具备的软技能:培养他人、培养团队,不断地重塑自己。在职场中磨练自己,实现升华,产生蜕变。
从另一个角度来说,这四个阶段也是一个从他驱到自驱的一个过程。在新人期和成长期,更多是领导安排。而在发展期及事业期,更多是自我驱动。这个过程中要不断审视自己,审视方向,审视团队和审视不同人的配搭,这两个阶段思考十分重要。
优秀数据科学家是如何炼成的
有的放矢,始得鲜明。
在分析这一问题之前,先要了解数据科学家的工作流程。这一流程的前三步尤为重要。首先,业务问题的定义:通过“复述”与需求方达成对业务问题的共识;其次,数据提取和理解:针对定义清晰的业务问题,提取相关数据,通过图表统计分析对数据进行理解;最后,数据预处理:数据清洗、降噪,集成,变换和规约。杜晓梦认为,这三步决定了项目的成败。
根据这一流程,优秀数据科学家应做到三位一体——即设计“业务、算法、数据”三位一体的闭环体系。
业务
即从业务中来到业务中去。从业务中来指将业务问题转化为数据科学问题。到业务中去是将数据科学问题转化为业务问题,把结果用业务语言翻译给客户。
算法
一要建立持续学习和自动迭代的智能系统。二不迷信某一种算法,因为当手里只有一把锤子的时候,就会看什么都是钉子。三是平衡性能和复杂度。
数据
即要对数据有敬畏之心,数据碾压一切算法。当数据量和数据维度达到一定状态时,不用非常复杂的算法就可得到好结果。在处理数据时,要大胆假设,小心验证。
针对这一过程,杜晓梦提出了自己的建议。
第一是管理时间。人与人之间最公平、最核心的资源是时间。利用好时间,养成不断学习和思考的习惯,至关重要。将事情记录到纸质记事本、划分事情的重要与紧急程度、定期对目标进行回顾等都是高效的时间管理方法。
第二是不断学习。了解行业发展趋势,学习新思想;关注新技术,如掘金、GitHub、知乎上的技术性分享;分主题,分小组研究,定期分享;保持空杯心态。
第三是深入业务。技术可以改变世界,但没有好的产品意识、产品思路或业务洞察力,技术就是徒劳的,永远无法变现。只有了解业务,才能更好地发现问题、解决问题。
第四是善于总结和分享。分享的过程也是学习的过程,在总结和分享中提升自己。可以锻炼表达和沟通能力,良好的沟通才能将自身思路表达清晰,才能获得客户的信任。也能提高自身影响力,收获口碑。
同时,成为优秀数据科学家,要选择适合自身的领域进行深入研究和知识积累。当下互联网飞速发展,领域知识是真真正正会成为优秀数据科学家壁垒的地方。
数据科学家的转型选择
从初级的数据从业人员,升级到中级的数据挖掘工程师或专门做算法的工程师,再随着项目经验不断积累,愈发资深,才能冠以数据科学家的头衔。而数据科学家转型可以有哪些选择?杜晓梦给出了她的看法。
数据型的产品总监
做产品和数据、算法紧密相关,无论是做零售、财务还是烟草行业的大数据产品,都会有自身的算法。数据科学家转型做数据型的产品更能具备相关意识。
运营负责人
作为运营负责人,每天都会看大量的数据并进行分析,再决定自身产品运营的方向和措施。而未来的运营会基于数据工作。
咨询或业务负责人
做管理或业务,思维的逻辑性很重要。而做数据科学会锻炼如何有逻辑有效率地解决问题的技能。同时,数据科学出身的咨询或业务更易得到客户的信任,因为数据科学家自带严谨标签,使人信服。
数据科学人才还很稀缺,数据科学还是个年轻的行业。然而,他们已经为改善现实生产生活做出众多贡献。我们相信,这个由数据智能驱动的世界正变得更加美好。
领取专属 10元无门槛券
私享最新 技术干货