机器学习进阶路上的五个境界

首发于公众号 混沌巡洋舰 (ID:chaoscruiser),作者 Peter,大数据公众号获授权转载。如需转载请与首发公众号联系,谢绝二次转载。

关于机器学习,这个话题最近实在太火了,甚至有些虚火了。有了虚火,就容易有泡沫。大浪淘沙,要想在数据科学这个行业生存下来,任何一个从业者都需要认清自己的位置,每上一个台阶,需要的努力方向都是不同的,每上一个台阶,身边的同行者也会越来越少。这篇小文,是想帮读者去去火,认清自己的位置。

本文受 Harvard刘小乐老师(Shirley Liu)两年前的旧文:“Levels of Bioinformatics Research”,讲生物信息学家的五个层次的启发。

Level 1 数据渣

这个阶段的人最突出特点是没有写过一行机器学习的代码。要知道机器学习是个必须上手实践过才能掌握的学科,就像游泳,骑自行车。数据渣可能听过很多机器学习的应用场景,尝试看过新智元或者机器之心这类公众号的文章(虽然多半看不懂)

数据渣不是毫无用处的,数据渣的最高水平,是知道什么情况下可以使用机器学习的方法来改进当前的流程,以及如何和做机器学习的伙伴沟通,将清楚自己的需求。即使做甲方,也需要对行业有一个全局的认识。如果你觉得术业有专攻,不打算成为数据科学的内行人,你同样有很多功课要做,培养自己和数据科学家沟通这样的软技能,同样是不可缺少的。

Level 2 数据菜鸟

这个阶段的人最突出的特点是熟练调用成熟的机器学习算法包,能看懂R或者Python包的说明文档。这个阶段的童鞋可以跑跑前人留下的流程,然而这类人的弱点在于根本没有认真思考过每个包中算法是基于什么原理的,从来没有深入研究过这些工具和流程是如何设计与实现的。

数据菜鸟是很容易达到的,哪怕没有编程基础,只有愿意花时间,有高中的数学基础,用一个月的全职投入,就可以熟练的学会一门机器学习界主流的语言及其算法包的接口。要想在这个阶段做的更好,可以去学学变量命名的规范。但要跨过这个境界,就需要一点打破砂锅问到底的好奇心和对数据科学的热爱了。

Level 3 数据肉鸟

这个阶段核心的两项技能是数据可视化和串流程。数据可视化的目标是对不同方法做比较,在知道了那些指标的意义后,你需要评价不同的方法,你还需要知道每一步的输入输出,从最初的清洗数据,到之后的特征提取,到模型的选择,直到用图形来呈现算法的效果,如果你能将这一套流程串起来,那么你就初步具有了独立完成搭建一个机器学习流程的能力。

这个阶段,对于过拟合,交叉验证,这样的概念应该是很熟悉的,掌握核心概念,不是一件能一蹴而就的事,你不能假设自己的理解是绝对正确的,而要通过持续的学习来一步步逼近正确的理解。这个阶段的人需要做的是广泛的积累,需要能看懂原版论文,而不止是算法包的manual。所谓看懂论文,是指看完了能讲出这篇文章的方法上是否有所创新,讲出这篇文章的方法是否适用与这个领域,这篇文章对自己正在做的项目是否有所借鉴。

Level 4 数据科学家

这个阶段的核心技能是推公式。要知道机器学习的算法背后,大多都有着统计学的支撑。SVM都会用,但能推出SVM的优化目标的人不多,LDA知道的人很多,但其背后的Dirichlet分布懂得人却不多。为什么要会推公式,不止是为了做算法在不同语言,不同应用场景间的迁徙,还是为了去有目的的改进方法,不管是随机化,还是将条件放宽松,亦或是增加惩罚项,都需要对算法背后的数学原理搞清楚。

阻碍很多童鞋成为数据科学家的是数学基础。概率论,统计,随机过程,线性代数,数学分析,凸优化,图论,一个都不能少。这需要补的课就很多了,但一旦你练好了“内力”,那么你再看之前看不懂的论文,尤其是其方法那一部分,你的阅读速度和理解的深度就会增加很多。要达到这个境界,需要耐得住寂寞。

Level 5 数据大神

在一个领域内开疆辟土,感受到高处不胜寒的寂寞,灵活的将多种方法和trick融合成一件艺术品,如同alpha go,其所用的方法不是创新,而其将这两种方法结合的方式却如神来一笔。又或者使用自己领域内的概念去指点江山,预测未来。这样的大神可遇不可求,天赋与努力缺一不可。

如今数据科学正处在快速扩展的时代,其触角正伸向社会的每一个角落,在这个时代,对数据的理解,将会成为和识字一样人人都必须的技能,未来,每个人都需要具有数据渣的鸟视搬的数据通识教育,有志于成为精英的人,不管其处在什么行业,都要学会用数据去说理,用模型来预测未来,用聚类来总结过去。每个人都有自己的位置,庄子中有一句深得我心的话,大鹏鸟不必嘲笑小麻雀,小麻雀不必羡慕大鹏鸟。我们每个人都有自己的比较优势,认清自己的位置,不妄自尊大,才是最关键的。

END

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

读了这些书,才能正确入门深度学习

编者按:本文作者为 Jeffries Consulting 创始人 Daniel Jeffries,他以自己的阅读体验,对当前含金量极高的几本深度学习书籍进行点...

2976
来自专栏AI科技评论

开发 | 入门深度学习,读对书很重要

AI科技评论按:本文作者为 Jeffries Consulting 创始人 Daniel Jeffries,他以自己的阅读体验,对当前含金量极高的几本深度学习书...

36011
来自专栏PPV课数据科学社区

案例分享|美团如何用NLP完成5大应用场景

针对NLP技术,大神们刚刚展开过比较激烈的讨论——Yann Lecun论战Yova Goldberg,导火索是是一篇“对抗式生成自然语言的论文”。 NLP大神Y...

5209
来自专栏机器之心

AI寒冬将至?「人工智能衰退论」再起,却遭LeCun怒斥

1523
来自专栏新智元

图同构在P/NP问题上重大突破,计算机理论10年最重要成果

芝加哥科学家 László Babai 发明了一种方法,能够用多项式的时间判断两个网络是否相同。 麻省理工学院的计算机科学家 Scott Aaronson...

3815
来自专栏大数据文摘

李飞飞:我们怎么教计算机理解图片

23413
来自专栏机器人网

杜克大学研究让机器人拥有真正的3D视觉

为了让机器人能够胜任更复杂的工作,机器人不但要有更好的控制系统,还需要能更多地感知环境的变化。如今的机器人可以深入核电站进行调查、清理海洋石油泄漏、组建无人军队...

3784
来自专栏新智元

【圣诞快乐】这是一首 AI 创作的圣诞歌

【新智元导读】 AI 能为人类做什么?平安夜,来听一首AI 创作的圣诞歌吧。(虽然有点跑调)祝读者朋友们圣诞快乐! “神经网络卡拉OK”程序能够产生任何形式的数...

3274
来自专栏AI研习社

如何优雅地躲避学术地雷 | AI阅读研究所·第1期

策划 / 晋阳 编辑 / 吴璇 数字时代的今天,从各个渠道涌来的各种碎片化信息数不胜数。对于 AI 领域,每天会涌现一大波国内外的技术博文、论文、文档等等。 习...

3606
来自专栏牛客网

从春招到秋招,算法工程师养成记(阿里+腾讯+其他)

自我介绍 大家好,我是老班长,一名老牛油(至于多老呢?我基本是第一批关注牛客网的同学,我加牛客网qq1群的时候,群里只有400多人(现在估计10多个群了吧),那...

61811

扫码关注云+社区